A ingestão de dados (ou data ingestion, em inglês) é um estágio fundamental na jornada de maturidade analítica de uma empresa. É nessa fase em que o conceito de Big Data toma forma nas organizações: um grande volume de dados de diversas fontes (internas e externas) são capturados em tempo real e transferidos para armazenamento na nuvem ou on-premise.
A partir da ingestão de dados, empresas conseguem transformá-los e interpretá-los para habilitar decisões data-driven. O Google Cloud é uma plataforma líder de mercado que viabiliza a ingestão de dados na nuvem de forma segura e eficiente.
Entenda a seguir como funciona esta etapa inicial do ciclo de vida dos dados e veja como as soluções do Google Cloud otimizam as operações de ingestão e coleta de dados para alavancar sua jornada data-driven.
O que é Ingestão de Dados?
Os engenheiros de dados criam pipelines que acessam dados para atender às necessidades dos negócios. Esses dados podem vir de fontes internas ou externas, em diferentes formatos, como vídeo, voz, imagem e outros. Seja para construir um relatório de business intelligence ou modelo de machine learning, os pipelines de dados facilitam o processo de data analytics.
Assim, os pipelines de dados são os fluxos que envolvem coleta, transformação e armazenamento dos dados a serem exibidos aos times de negócios em diversos projetos. Cada organização tem sua própria maneira de trabalhar com pipelines, mas, no geral, um pipeline de dados típico possui quatro etapas: ingestão de dados, armazenamento, processamento/análise e visualização/exploração.
Tudo começa pela ingestão de dados, ou seja, o estágio onde os dados são capturados de diversas fontes e transferidos para armazenamento na nuvem ou on-premise. A ingestão de dados é uma etapa crítica e fundamental para a construção de um pipeline de dados. É a fase em que os dados são lidos de diversas fontes.
Geralmente, a ingestão pode ocorrer em lotes (envio em lote de dados) ou por streaming (ingestão contínua de dados provenientes de uma fonte de streaming). Entenda a seguir:
Tipos de ingestão de dados |
Descrição |
Ingestão em lotes (envio de dados em lote) |
Define os registros e os extrai como um grupo, sendo um processo sequencial, os registros são processados de acordo com critérios definidos pelos desenvolvedores |
Ingestão por streaming (ingestão contínua de dados provenientes de uma fonte de streaming) |
Transfere automaticamente os registros individuais, um por um. Muitas organizações usam streaming apenas quando precisam de dados quase em tempo real para uso em aplicativos ou análises. |
Métodos de Ingestão de Dados na Google Cloud
A etapa de coleta de dados e ingestão de dados é onde as diferentes fontes de informação são identificadas e unificadas. Essas fontes podem ser as mais diversas de acordo com cada situação. Por exemplo, podemos capturar logs gerados por uma aplicação que rode em VM no Compute Engine, ou por meio de uma API de entrada de dados que esteja executando em Cloud Run, ou até mesmo jobs que estejam no Cloud Run Jobs ou Cloud Function.
O Google Cloud Platform oferece vários serviços de ingestão para carregar em lote ou transmitir dados de fontes diferentes e criar pipelines conforme necessário:
Uso de APIs no provedor de dados:
Extraia dados de APIs em escala usando instâncias do Compute Engine (máquinas virtuais) ou Kubernetes.
Streaming em tempo real:
O streaming de dados em tempo real pode ser realizado com o Cloud Pub/Sub, recurso de mensageria do Google Cloud.
Grande volume de dados no local:
Pode ser realizado com o Google Transfer Appliance ou o GCP Online Transfer, dependendo do volume de dados.
Grande volume de dados em outros provedores de nuvem:
A ferramenta Cloud Storage Transfer Service é ideal para a ingestão de dados em outros provedores de nuvem.
Ferramentas de Transferência de Dados da Google Cloud
Conheça as três ferramentas principais de transferência de dados da Google Cloud Platform:
- Storage Transfer Service: serviço de transferência de objetos no armazenamento entre nuvens e on-premise de maneira rápida e segura.
- BigQuery Data Transfer Service: serviço de transferência automática e programável para o BigQuery, tendo como principais integrações o Google Ads, Relatorios do Youtube, Google Ad Manager, Cloud Storage etc. Além de integrações com provedores de warehouse externos como o Amazon Redshift e S3.
- Transfer Appliance: dispositivo de armazenamento de alta capacidade, ideal para quantias massivas de dados ou transferências com limites de banda larga.
- Pub/Sub: permite realizar a ingestão de dados através da mensageria. O Pub/Sub tem múltiplos publicadores enviando os dados, enquanto outros sistemas como o Dataflow ou até mesmo o BigQuery consomem essas mensagens como subscribers. É uma ferramenta do Google Cloud que realiza a entrega de mensagens e efetua o processamento para sistemas baseados em eventos e análise de streaming de dados.
Como Implementar um Pipeline de Dados Eficiente
Uma cultura data-driven, ou orientada por dados, permite que todos os membros da companhia compartilhem o senso de importância em relação às informações que eles produzem, bem como a necessidade de acesso a informações críticas para uma melhor tomada de decisão.
Os pipelines de dados facilitam o processo de análise de dados. São os fluxos que envolvem coleta, transformação e armazenamento dos dados a serem exibidos aos times de negócios em diversos projetos.
Cada organização tem de uma forma com pipelines. Mesmo assim, um pipeline de dados convencional possui quatro etapas. São elas:
Ingestão de dados
O início do ciclo de vida do dado se dá na etapa de captura e ingestão de dados. Esse passo é onde as diferentes fontes de informação são identificadas e unificadas.
Essas fontes podem ser as mais diversas, como fontes de dados internas (dados de CRM, por exemplo) ou fontes externas (como provedores de dados ou redes sociais).
Armazenamento
Nesta etapa, é necessário organizar os dados para que eles se tornem acionáveis. O primeiro passo é implantar um data warehouse, ou seja, um sistema corporativo com vários bancos de dados em nuvem para análise e extração de relatório de dados estruturados e semi-estruturados provenientes de diversas fontes. Uma vez armazenadas no data warehouse, as informações dos diversos departamentos da sua empresa bem como dados externos estarão disponíveis em um só lugar.
Processamento/análise
Tão importante quanto o armazenamento dos dados, o processamento de informações é necessário na jornada de dados. Há duas formas de realizar o processamento, sendo elas o lote, utilizado principalmente quando há a possibilidade de agrupar pacote de dados em um intervalo de tempo específico, enquanto que o processamento através do stream de dados é necessário quando existe a chegada de novos dados de maneira contínua, como acontece com sistemas em real time.
Visualização/exploração
Após uma jornada bem sucedida, temos a possibilidade de exibir os insights gerados a partir dos dados que foram ingeridos, processados e analisados. O Google Cloud oferece ferramentas que irão auxiliar nessa etapa, como, por exemplo, o Looker Studio (antigo Data Studio) que permite a criação de dashboards dinâmicos, integrando-se com diversas fontes de dados.
O Google Cloud Platform apresenta recursos para cada etapa de um pipeline de dados:
Parceria entre Geoambiente e Google Cloud
A Geoambiente é Parceira Premier do Google há 10 anos. Apoiamos organizações de diversos segmentos a tornarem seus dados mais inteligentes a partir do Google Cloud.
Ajudamos sua empresa a mapear as diversas fontes de dados disponíveis, sejam fontes internas, como bancos de dados de aplicações internas, e fontes externas, como dados de ferramentas de marketing, sistemas de terceiros, etc.
Com base nessas fontes, realizamos um mapeamento que visa descobrir como é realizado o uso dos dados nas diferentes áreas, de modo a oferecer soluções de ingestão de dados baseadas na nuvem do Google para desenvolver a maturidade analítica do cliente.
As soluções envolvem definições de métricas quantitativas e qualitativas, criação de pipelines para juntar e organizar dados provenientes de diferentes fontes, implementação de governança de acesso aos dados e definição de ferramentas apropriadas para acesso em diferentes contextos, uma vez que há áreas mais técnicas que podem fazer consultas mais complexas e áreas que necessitam de ferramentas de visualização mais amigáveis com dashboards prontos.
Conclusão
A ingestão de dados é a primeira etapa do ciclo de vida do dado. Nela, os dados vêm de fontes desintegradas, sendo que muitos estão em planilhas sem padronização. Isso acaba demandando tempo para gerar relatórios e visualizações, levando a decisões com pouca assertividade e fora do timing esperado.Para avançar para a maturidade analítica, sua empresa precisa da solução correta de ingestão de dados. O Google Cloud possui as soluções ideais para otimizar as operações de ingestão e a coleta de dados a fim de impulsionar a sua jornada data-driven.
A Geoambiente é Parceira Premier do Google Cloud e oferece ao mercado a solução Google Cloud enquanto plataforma, além de serviços desenvolvidos pelo nosso time de especialistas com base na tecnologia em nuvem.
Atendemos empresas que são referência de mercado (tanto setor privado quanto público). Sabemos como maximizar o poder da plataforma para atingir os objetivos do seu negócio.
Para saber mais informações sobre como a Geoambiente pode ajudar sua empresa a começar a jornada na nuvem, entre em contato com os nossos especialistas de Google Cloud.
Jornalista especializada em tecnologia há mais de 10 anos, com atuação em veículos nacionais e internacionais. Atualmente, é mestranda em Sustentabilidade pela USP, onde pesquisa mudanças climáticas.