Google Cloud: conheça as soluções de ingestão e coleta de dados da plataforma

Google Cloud

Os engenheiros de dados criam pipelines que acessam dados para atender às necessidades dos negócios. Esses dados podem vir de fontes internas ou externas, em diferentes formatos, como vídeo, voz, imagem e outros. Seja para construir um relatório de business intelligence ou modelo de machine learning, os pipelines de dados facilitam o processo de data analytics.

Assim, os pipelines de dados são os fluxos que envolvem coleta, transformação e armazenamento dos dados a serem exibidos aos times de negócios em diversos projetos. Cada organização tem sua própria maneira de trabalhar com pipelines mas, no geral, um pipeline de dados típico possui quatro etapas: ingestão de dados, armazenamento, processamento/análise e visualização/exploração.

Tudo começa pela ingestão de dados, ou seja, o estágio em que os dados são capturados de diversas fontes e transferidos para armazenamento na nuvem ou on-premise. Entenda a seguir como funciona esta etapa inicial do ciclo de vida dos dados e veja como as soluções do Google Cloud otimizam as operações de ingestão e coleta de dados para impulsionar sua jornada data-driven.

Saiba mais: Guia – Como começar sua jornada para computação em nuvem

Captura e ingestão de dados

A ingestão de dados é uma etapa crítica e fundamental para a construção de um pipeline de dados. É a fase em que os dados são lidos de diversas fontes. Geralmente, a ingestão pode ocorrer em lotes (envio em lote de dados) ou por streaming (ingestão contínua de dados provenientes de uma fonte de streaming).

A ingestão em lote define os registros e os extrai como um grupo, sendo um processo sequencial, os registros são processados de acordo com critérios definidos pelos desenvolvedores. Já o streaming transfere automaticamente os registros individuais, um por um. Muitas organizações usam streaming apenas quando precisam de dados quase em tempo real para uso em aplicativos ou análises.

A etapa de coleta e ingestão é onde as diferentes fontes de informação são identificadas e unificadas. Essas fontes podem ser as mais diversas de acordo com cada situação. Por exemplo, podemos capturar logs gerados por uma aplicação que rode em VM no Compute Engine, ou através de uma API de entrada de dados que esteja executando em Cloud Run, ou até mesmo jobs que estejam no Cloud Run Jobs ou Cloud Function.

Google Cloud Platform: soluções para ingestão de dados

O Google Cloud Platform oferece vários serviços de ingestão para carregar em lote ou transmitir dados de fontes diferentes e criar pipelines conforme necessário:

– Uso de APIs no provedor de dados: extraia dados de APIs em escala usando instâncias do Compute Engine (máquinas virtuais) ou Kubernetes.

– Streaming em tempo real: ideal com Cloud Pub/Sub.

– Grande volume de dados no local: mais adequado para o Google Transfer Appliance ou para o GCP Online Transfer, dependendo do volume.

– Grande volume de dados em outros provedores de nuvem: o Cloud Storage Transfer Service.



Abaixo, detalhamos as três ferramentas principais de transferência de dados da GCP:

Storage Transfer Service: serviço de transferência de objetos no armazenamento entre nuvens e on-premise de maneira rápida e segura.

BigQuery Data Transfer Service: serviço de transferência automática e programável para o BigQuery, tendo como principais integrações o Google Ads, Relatorios do Youtube, Google Ad Manager, Cloud Storage, etc. Além de integrações com provedores de warehouse externos como o Amazon Redshift e S3;
Transfer Appliance: dispositivo de armazenamento de alta capacidade, ideal para quantias massivas de dados ou transferências com limites de banda larga.

Além disso, temos a possibilidade de realizar a ingestão de dados através da mensageria com o uso do Pub/Sub, onde podemos ter múltiplos publicadores enviando os dados enquanto que outros sistemas como o Dataflow ou até mesmo o BigQuery consomem essas mensagens como subscribers.
O Pub/Sub é uma ferramenta do Google Cloud que realiza a entrega de mensagens e efetua o processamento para sistemas baseados em eventos e análise de streaming de dados.

Como a Geoambiente pode ajudar sua organização na jornada data-driven

Crie uma cultura orientada por dados e impulsione sua Jornada de Transformação Digital com a Geoambiente! Transforme-se numa empresa com Cultura Data Driven, onde a ciência de dados e analytics fazem parte da estratégia global e da cultura do negócio.

Nosso time é composto por especialistas certificados, sempre atualizados sobre os recursos, tecnologias e novos lançamentos do Google. Estamos presentes em TODAS as fases do projeto, desde a recomendação da API ideal, passando pela implementação e uso da plataforma até o acompanhamento de suporte mensal.




A Geoambiente é Parceira Premier do Google Cloud e oferece ao mercado a solução Google Cloud enquanto plataforma, além de serviços desenvolvidos pelo nosso time de especialistas com base na tecnologia em nuvem.

Atendemos empresas que são referência de mercado (tanto setor privado quanto público). Sabemos como maximizar o poder da plataforma para atingir os objetivos do seu negócio.

Para saber mais informações sobre como a Geoambiente pode ajudar sua empresa a começar a jornada na nuvem, entre em contato com os nossos especialistas de Google Cloud.

Posts relacionados

Deixe um Comentário

Posts mais recentes:

workloads
varejo data-driven
custos administrativos
análises preditivas
Google Earth
Google Workspace
Gmail
Backup
retenção de motoristas
Como governos têm usado o Google Earth Engine na prevenção de desastres
desempenho da frota
Dados georreferenciados
público
machine learning
entrega

macbook tamir

- mersin eskort