Databricks e Snowflake disputam a análise de documentos com IA baseada em SQL: o que isso significa para as empresas?

A corrida para dominar as aplicações de Inteligência Artificial (IA) dentro das empresas ganhou um novo capítulo: a análise de documentos baseada em SQL. Tanto a Databricks quanto a Snowflake, duas gigantes do setor de dados, lançaram recentemente soluções que prometem simplificar a forma como as empresas extraem informações valiosas de documentos não estruturados. Essa disputa acirrada sinaliza uma mudança importante na maneira como as organizações lidam com seus dados e, potencialmente, democratiza o acesso à análise de documentos impulsionada por IA.

O que está acontecendo?

A Databricks, com seu framework Agent Bricks, adicionou funcionalidades de análise de IA baseada em SQL, permitindo que empresas criem agentes autônomos para casos de uso específicos. Poucos dias antes, a Snowflake havia feito um movimento similar, introduzindo uma capacidade semelhante dentro de sua plataforma Intelligence. O objetivo é claro: permitir que as empresas analisem dados não estruturados de forma mais eficiente, utilizando SQL automatizado, impulsionado por tecnologias como Cortex AISQL (Snowflake) e AI Functions (Databricks). Databricks

Por que isso é importante?

Tradicionalmente, a análise de documentos não estruturados era um processo complexo e caro, envolvendo a criação de pipelines ETL (Extract, Transform, Load) personalizados. As novas ferramentas da Databricks e da Snowflake prometem simplificar esse processo, permitindo que as empresas realizem consultas unificadas em dados estruturados e não estruturados. Essa capacidade é crucial, pois permite que as empresas reduzam custos e complexidades, além de obter insights mais precisos e tomar decisões mais rápidas. Snowflake

A demanda por essa capacidade está alinhada com o cenário econômico atual, onde as empresas buscam otimizar seus investimentos em tecnologia. De acordo com Mansi Gupta, da Everest Group, as empresas querem aproveitar conjuntos de dados massivos e complexos sem aumentar seus gastos. A análise simultânea de dados estruturados e não estruturados permite gerar insights mais precisos e acelerar a tomada de decisões.

Como funciona na prática?

A nova funcionalidade da Databricks, chamada “ai_parse_document”, é uma adição às AI Functions do Agent Bricks. Ela permite analisar documentos inteiros (PDFs, JPGs, PNGs, DOCs, PPTs), capturando tabelas, figuras e diagramas com descrições geradas por IA e metadados espaciais. Os resultados são armazenados no Unity Catalog, permitindo que os documentos sejam pesquisados e utilizados em workflows do Agent Bricks.

Antes, os usuários da Databricks precisavam recorrer a abordagens como OCR (Optical Character Recognition), expressões regulares e scripts ETL personalizados para normalizar textos não estruturados. Agora, com o “ai_parse”, a análise se torna mais declarativa e orientada por modelos, reduzindo a sobrecarga de engenharia, segundo Charlie Dai, da Forrester. A integração com o Spark Declarative Pipelines permite processar grandes volumes de documentos de forma incremental, automatizando a ingestão e detecção de mudanças.

A batalha entre Databricks e Snowflake

A funcionalidade “ai_parse” da Databricks é similar ao Agentic Document Analytics da Snowflake, que permite consultar milhares de documentos de uma só vez, utilizando agentes de dados. A solução da Snowflake combina as funcionalidades existentes do Cortex AISQL, como AI_PARSE_DOCUMENT, AI_EXTRACT, AI_FILTER e AI_AGG, para analisar o conteúdo dos documentos. Segundo Baris Gultekin, da Snowflake, o Agentic Document Analytics permite análises quantitativas e temporais dos resultados, complementando o uso de RAG (Retrieval-Augmented Generation).

Ambas as soluções prometem reduzir a complexidade dos workflows necessários para analisar dados não estruturados, como documentos em PDF. Historicamente, as empresas precisavam construir pipelines OCR complexos e lentos para extrair dados de documentos. O RAG permitiu a busca semântica sobre textos analisados, mas ainda enfrentava dificuldades com estruturas complexas, como tabelas. A Databricks afirma que sua função “ai_parse” oferece melhor custo-benefício em comparação com outras funções similares e modelos de linguagem visual.

Implicações para o futuro

A disputa entre Databricks e Snowflake impulsiona a inovação na análise de documentos com IA, beneficiando as empresas com soluções mais eficientes e acessíveis. A simplificação da análise de dados não estruturados pode democratizar o acesso a informações cruciais, permitindo que empresas de todos os portes tomem decisões mais informadas e estratégicas. Para as empresas, a capacidade de integrar e analisar dados de diversas fontes, incluindo documentos, pode gerar insights valiosos e impulsionar a inovação em diversas áreas, desde a otimização de processos internos até a criação de novos produtos e serviços.

A análise de documentos com IA é uma área em constante evolução, e a competição entre Databricks e Snowflake promete trazer ainda mais novidades e benefícios para as empresas. É fundamental que as empresas acompanhem de perto esses desenvolvimentos e avaliem como essas tecnologias podem ser aplicadas em seus negócios para obter vantagens competitivas. A capacidade de extrair valor de dados não estruturados, como documentos, é cada vez mais importante para o sucesso das empresas na era da informação.

Compartilhe:

Descubra mais sobre MicroGmx

Assine agora mesmo para continuar lendo e ter acesso ao arquivo completo.

Continue reading