O Google vem buscando construir o ecossistema de nuvem de dados mais aberto do mercado, unificando dados em diversas fontes e plataformas. Um passo que reforça ainda mais essa estratégia foi anunciado durante o Google Cloud Next’22, evento da provedora de nuvem realizado em outubro. Estamos falando das novas funcionalidades para a análise de dados não estruturados e de streaming no BigQuery, o data warehouse do Google.
Os dados são o ativo mais valioso em qualquer transformação digital. Porém, as limitações no uso de dados impedem as organizações de avançar nessa jornada. E quanto maior o volume de dados, mais eles estão distribuídos em diferentes nuvens, usados em diferentes cargas de trabalhos e acessados por mais pessoas. Somente um ecossistema de nuvem de dados abertos pode dar conta dessa complexidade e liberar todo o potencial dos dados, removendo as barreiras da transformação digital.
Nesse sentido, os novos anúncios do Google Cloud ajudam a garantir que as empresas possam utilizar todos os seus dados, de todas as fontes, em todos os formatos de armazenamento e estilos de análise, em todos os provedores de nuvem e plataformas de sua escolha. Como reflexo, o BigQuery foi ampliado e agora permite a análise de dados não estruturados e de streaming, como documentos brutos e PDFs, vídeo e áudio, até mesmo registros de call center.
E por que isso é importante? Quase 90% de todos os dados são considerados não estruturados. Sendo assim, esta nova capacidade é extremamente poderosa para impulsionar as empresas na jornada data-driven.
BigQuery para dados não estruturados: centralização de diversas origens e formatos
Com base no conceito de Data Cloud, o Google acredita que uma nuvem de dados deve permitir que as pessoas trabalhem com todos os tipos de dados, independentemente do formato ou localização de armazenamento. Para tanto, apresenta o suporte a dados não estruturados no BigQuery para expandir a capacidade de trabalhar com todos os tipos de dados.
Muitas equipes de dados usam o BigQuery para analisar dados não estruturados em dados de bancos de dados operacionais e aplicativos SaaS, como Adobe, SAP, ServiceNow e Workday, bem como dados semiestruturados, como arquivos de log JSON.
Mas isso representa uma pequena parte das informações de uma organização. Como adiantamos acima, os dados não estruturados podem responder por até 90% de todos os dados atuais, como arquivos em vídeo, áudio de call centers e documentos de vários formatos.
A partir de agora, as equipes de dados podem gerenciar, proteger e analisar dados estruturados e não estruturados no BigQuery, com fácil acesso a muitos dos recursos do Google Cloud em machine learning, reconhecimento de fala, visão computacional, tradução e processamento de texto, usando a interface SQL familiar do BigQuery.
Outros anúncios relacionados
Além disso, o Google traz também o suporte para os principais formatos de dados da atualidade. O mecanismo de armazenamento, BigLake, agora oferece suporte para Apache Iceberg e para Linux Foundation Delta Lake — com previsão para suporte a Apache Hudi em breve. Ao oferecer suporte a esses formatos de dados amplamente adotados, as organizações são capazes de obter o valor total de seus dados mais rapidamente.
Outra novidade é a experiência integrada no BigQuery para Apache Spark, um mecanismo de análise de código aberto líder para processamento de dados em grande escala. Essa nova integração do Spark, ainda em versão prévia, permite que os profissionais de dados criem procedimentos no BigQuery, usando o Apache Spark, integrados aos seus pipelines SQL. Um caso de uso é Walmart, que utiliza o Google Cloud para melhorar os tempos de processamento do Spark em 23%, conseguindo reduzir o tempo para fechar livros financeiros de cinco para três dias.
O Google também anunciou Datastream para BigQuery, o que auxiliará as organizações a replicar dados com mais eficiência em tempo real, de fontes como AlloyDB, PostgreSQL, MySQL e bancos de dados de terceiros, como Oracle, diretamente no BigQuery. Acelerar a capacidade de trazer dados de uma variedade de fontes para o BigQuery, significa acesso a mais insights de dados em tempo real.
E para garantir que as organizações gerenciem, protejam e observem seus dados, o Google Cloud fortaleceu seus recursos de governança e gerenciamento de dados. Atualizações no Dataplex agora automatizam processos comuns associados à qualidade de dados. Por exemplo, os usuários agora podem entender facilmente a linhagem de dados – de onde os dados se originam e como eles se transformaram e se moveram ao longo do tempo — o que pode reduzir a necessidade de processos manuais e demorados.
Em suma, esses anúncios fortalecem a capacidade das empresas de trabalhar com todos os tipos de dados, nos formatos que escolherem, traduzindo o conceito de uma nuvem de dados aberta. Assim, podemos esperar que cada vez mais o Google Cloud forneça suporte e integrações que os clientes precisam para remover limites entre seus dados e evitar o bloqueio de dados nas nuvens.
Fale com os nossos especialistas em BigQuery
Conteúdo complementar recomendado:
Jornalista especializada em tecnologia há mais de 10 anos, com atuação em veículos nacionais e internacionais. Atualmente, é mestranda em Sustentabilidade pela USP, onde pesquisa mudanças climáticas.