Analytics / Big Data Google Cloud

Dataproc: por que usar o serviço de processamento de big data da Plataforma Google Cloud?

Dataproc
Escrito por Karen Ferraz

Sua equipe de TI gostaria de acelerar e simplificar o processamento de dados e as análises de código aberto? O Dataproc, serviço de processamento de big data da Plataforma Google Cloud, é ideal para as suas necessidades! 

Você certamente já ouviu falar que os dados são o novo petróleo! A realidade é que alcançar uma maturidade dos dados está associado ao aumento de receita, capacidade de incorporar a inteligência artificial e criar uma organização resiliente.

No entanto, processar grandes quantidades de dados é um desafio para as organizações.  Há diversas tecnologias de data processing hoje no mercado, como Hadoop, Hive, Spark e outras, mas isso não significa que instalar, configurar e gerenciá-las é uma tarefa simples para os engenheiros de dados. 

A boa notícia é que o Google Dataproc facilita todo esse processo, além de simplificar o uso de Hadoop e Spark Frameworks na nuvem.  Quer saber por que muitas empresas estão migrando para o código aberto em nuvem atraídas pelos baixos custos, agilidade e flexibilidade com apoio do Dataproc? Confira a seguir mais detalhes sobre essa ferramenta do Google Cloud e seus benefícios. 

Leia mais: Vertex AI: plataforma de IA do Google Cloud impulsiona o desenvolvimento de apps de machine learning

Dataproc: o que é e como funciona?

O Dataproc é um serviço gerenciado Hadoop e Spark para qualquer trabalho de OSS compatível com processamento de big data, incluindo ETL e machine learning. Oferece suporte pronto para uso para o software de código aberto e ajuda os cientistas de dados a criar e gerenciar os clusters. 

É possível contar com o Dataproc para migrar seus clusters OSS locais para a nuvem, aumentando a eficiência e a escalabilidade. Outra opção é utilizá-lo juntamente com o BigQuery para criar um ambiente de Data Science completo.

Além disso, com o Dataproc, você pode ativar um cluster de escalonamento automático e gerenciado pelo seu time de TI em apenas 90 segundos. O Dataproc faz todo o trabalho para sua equipe, gerenciando a criação de cluster, o monitoramento e a orquestração de trabalhos. 

Mas como funciona? Primeiro, é necessário criar um cluster por meio da IU da Web, do Cloud SDK, das APIs REST ou com acesso SSH. Depois que seu cluster estiver provisionado, você poderá enviar trabalhos na estrutura de código aberto que escolher. Assim, é possível aumentar ou diminuir a escala do seu cluster a qualquer momento, mesmo quando os trabalhos estiverem em execução. O custo é baseado no consumo, ou seja, você paga apenas pelo que usa. 

Resumindo: o Dataproc permite que os cientistas de dados se concentrem nas análises e consultas sem se preocupar com o dinheiro gasto em administração.

Quais as vantagens de usar o Dataproc?

Custos menores: o Cloud Dataproc cobra por CPU por hora no cluster. Ou seja, o valor é cobrado pelo  que você realmente usa. O faturamento é feito minuto a minuto, com período de faturamento mínimo de dez minutos.

Velocidade: basta 90 segundos para criar um cluster, enquanto levaria muito tempo para criar Hadoop e Spark Cluster em um provedor IaaS ou em um servidor local. 

Facilidade: você não precisa usar novas ferramentas, tecnologias ou APIs para aproveitar o potencial do Google Cloud Dataproc. Isso permite impulsionar os projetos existentes sem necessidade de desenvolver novamente. Spark, Hadoop, Pig e Hive são atualizados frequentemente para aumentar a produtividade da sua equipe.

Integração: a ferramenta pode ser facilmente integrada a vários serviços do Google Cloud, como BigQuery, Google Cloud Bigtable, Google Cloud Logging ou Google Cloud Storage. Isso permite não apenas montar um cluster Spark ou Hadoop, e si acessar uma plataforma completa de dados.

Conheça os principais recursos

Software de código aberto de processamento de Big Data totalmente gerenciado e automatizado

Uma vez que a implantação, geração de registros e monitoramento dispensam servidor, sua equipe pode focar seus dados e análises, deixando a infraestrutura por conta do Dataproc. Também é possível reduzir o TCO do gerenciamento do Apache Spark em até 54%. Com o Dataproc, os cientistas e engenheiros de dados são capazes de criar e treinar modelos cinco vezes mais rápidos que notebooks tradicionais usando a integração com o Vertex AI Workbench. Já a API Dataproc Jobs simplifica a incorporação do processamento de Big Data em apps personalizados. Por sua vez, Metastore do Dataproc acabam com a necessidade de executar seu próprio metastore do Hive ou serviço de catálogo.

Inserção das tarefas do Apache Spark em contêineres com o Kubernetes

Você pode criar seus jobs do Apache Spark usando o Dataproc no Kubernetes a fim de utilizar o Dataproc com o Google Kubernetes Engine (GKE) com objetivo de fornecer portabilidade e isolamento de jobs.

Segurança do Google Cloud

Ao criar um cluster do Dataproc, há possibilidade de ativar o modo seguro do Hadoop por meio do Kerberos ao adicionar uma configuração de segurança. Sem contar que você se beneficia dos recursos de segurança do Google Cloud, como  criptografia padrão em repouso, Login do SO, VPC Service Controls e chaves de criptografia gerenciadas pelo cliente (CMEK, na sigla em inglês)

Código aberto com as capacidades do Google Cloud

O Dataproc permite utilizar as ferramentas de código aberto, os algoritmos e as linguagens de programação mais populares do mundo, o que simplifica a aplicação de tudo isso em conjuntos de dados na nuvem. O software ainda oferece integração com o restante do ecossistema de análise, banco de dados e IA do Google Cloud. Isso permite fácil acesso aos dados e velocidade na criação de um aplicativo de dados que conecta o Dataproc ao BigQuery, Vertex AI, Cloud Spanner, Pub/Sub, ou Data Fusion.




A Geoambiente é Parceira Premier do Google Cloud e oferece ao mercado a solução Google Cloud enquanto plataforma, além de serviços desenvolvidos pelo nosso time de especialistas com base na tecnologia em nuvem.

Atendemos empresas que são referência de mercado (tanto setor privado quanto público). Sabemos como maximizar o poder da plataforma para atingir os objetivos do seu negócio.

Para saber mais informações sobre como a Geoambiente pode ajudar sua empresa a começar a jornada na nuvem, entre em contato com os nossos especialistas de Google Cloud.

 

Veja também:

Sobre o(a) autor(a)

Karen Ferraz

Jornalista especializada em tecnologia há mais de 10 anos, com atuação em veículos nacionais e internacionais. Atualmente, é mestranda em Sustentabilidade pela USP, onde pesquisa mudanças climáticas.

Deixe um Comentário