Analytics / Big Data Google Cloud

Dataform: gerencie transformações de dados diretamente no BigQuery

Dataform
Escrito por Karen Ferraz

Dataform é um aplicativo baseado em nuvem para gerenciar dados no BigQuery e em outros data warehouses. A solução permite que os times de dados criem pipelines de transformação de dados escaláveis, testados e baseados em SQL usando controle de versão e boas práticas.

Por meio dessa ferramenta de transformação de dados, os cientistas de dados podem compilar centenas de modelos de dados em menos de um segundo usando SQLX, uma poderosa extensão do SQL. O SQLX estende seu dialeto SQL do data warehouse para adicionar recursos que suportam gerenciamento de dependências, testes, documentação e outros.

De modo geral, o Dataform basicamente transforma os dados brutos em dados estruturados para que sejam utilizados no data warehouse. Além disso, ele permite a realização de testes em dados, para garantir a qualidade dos mesmos e utiliza o grande o poder computacional do próprio BigQuery para realizar transformações, sem necessidade de servidor.

Leia mais: Como usar o BiqQuery para acessar todos os dados da companhia de forma centralizada?

Dataform: transformação de dados diretamente no BigQuery

Em 2020, o Dataform foi adquirido pelo Google e passou a fazer parte do ecossistema Google Cloud, endossando a missão da companhia de democratizar insights em todas as organizações. O Dataform se beneficia da arquitetura inovadora do BigQuery, uma vez que permite às equipes de dados gerenciar todos os seus processos de dados no data warehouse do Google Cloud (BigQuery).

Essa combinação aproveita as práticas recomendadas de desenvolvimento de software para definir, documentar, testar e implantar transformações de dados usando SQL executado no BigQuery. Ou seja, dispensa a necessidade de aprender novas linguagens de programação ou de implantar e gerenciar aplicativos novos em seu stack de dados.

Conheça as vantagens oferecidas pelo Dataform

Com o Dataform, você pode criar e gerenciar transformações de dados diretamente no BigQuery de forma simples, segura e confiável. Veja como:

  • Colabore e crie pipelines de dados: desenvolva fluxos de trabalho de dados em SQL e colabore com outras pessoas via Git. Inclua documentação de dados que seja automaticamente visível para outras pessoas.
  • Implemente pipelines de dados: mantenha os dados lógicos atualizados agendando fluxos de trabalho de dados que atualizam os conjuntos de dados downstream, reduzindo custos e latência.
  • Garanta a qualidade dos dados: defina verificações de qualidade de dados no SQL e receba alertas automaticamente quando essas verificações falharem. Visualize logs, histórico de versões e gráficos de dependência para entender as alterações nos dados.

Sobre o(a) autor(a)

Karen Ferraz

Jornalista especializada em tecnologia há mais de 10 anos, com atuação em veículos nacionais e internacionais. Atualmente, é mestranda em Sustentabilidade pela USP, onde pesquisa mudanças climáticas.

Deixe um Comentário