As empresas lidam com dados diariamente, mas nem todas sabem como realizar a análise de dados para extrair valor deles. Para se tornar data-driven, uma organização deve criar o ecossistema certo para o processamento de maneira holística. Não estamos falando de soluções pontuais que fornecem serviços de dados, pois nem sempre isso é suficiente.
Muitas companhias não sabem se precisam de um data lake ou data warehouse para alavancar suas estratégias de dados. Essas duas arquiteturas têm sido vistas como sistemas separados, aplicáveis a tipos de dados específicos e conjuntos de habilidades do usuário. No entanto, as linhas que separam data warehouses e data lakes estão se fundindo, permitindo aos clientes adotar uma plataforma mais abrangente e que oferece o melhor dos dois mundos.
Em vez de escolher entre um ou outro, as empresas pudessem escolher uma solução de ponta a ponta capaz de cobrir todo o gerenciamento de dados e estágios de processamento, da coleta à análise de dados e aprendizado de máquina. Isso é possível por meio de uma plataforma de dados que pode armazenar grandes quantidades de dados em diversos formatos variados sem comprometer a latência.
A Google Cloud oferece produtos e soluções especializadas para data lake e data warehouse, mas aposta em uma convergência significativa entre os dois sistemas até que a terminologia mude. Na Google Cloud, essa combinação é chamada de uma “plataforma de dados analíticos”.
Tendências emergentes para a análise de dados
Não há uma abordagem única para criar uma solução de dados de ponta a ponta.
Conceitos emergentes incluem data lakehouses, data mashes e cofres de dados (data vaults) que buscam atender a necessidades técnicas e organizacionais específicas. Alguns não são novos e existem em diferentes formas e formatos, no entanto, todos funcionam naturalmente em um ambiente do Google Cloud. Vamos analisar as duas extremidades do espectro de habilitação de dados e habilitação de equipes.
O data mash facilita uma abordagem descentralizada à propriedade de dados, permitindo que linhas de negócios individuais publiquem e assinem dados de maneira padronizada, em vez de forçar o acesso e a administração de dados para somente uma equipe centralizada. Por outro lado, um data lakehouse reúne dados brutos e processados, permitindo um repositório mais simplificado e centralizado de dados necessários em toda a organização. O processamento pode ser feito em trânsito via ELT, reduzindo a necessidade de copiar conjuntos de dados entre sistemas. Isso facilita a exploração de dados e a governança.
O Data lakehouse trabalha para armazenar os dados em uma única fonte, fazendo cópias mínimas dos dados. Essa arquitetura oferece armazenamento de baixo custo em um formato aberto acessível por uma variedade de mecanismos de processamento, como o Spark, além de fornecer recursos avançados de gerenciamento e otimização. Segurança e governança consistentes são essenciais para qualquer lakehouse.
Por fim, um data vault é projetado para separar atividades orientadas por dados e por modelo. Os dados integrados ao cofre bruto permitem o carregamento paralelo para facilitar o dimensionamento de grandes implementações.
No Google Cloud, não há necessidade de mantê-los separados. De fato, com a interoperabilidade entre nosso portfólio de produtos de análise de dados, você pode fornecer facilmente acesso a dados que residem em locais diferentes, reunindo efetivamente seu data lake e data warehouse em uma única plataforma.
Algumas inovações tecnológicas da Google Cloud viabilizam essa realidade. A API de armazenamento do BigQuery permite tratar um data warehouse como um data lake, permitindo que você acesse os dados que residem no BigQuery da Google Cloud.
Por exemplo, você pode usar o Spark para acessar dados que residem no data warehouse sem afetar o desempenho de qualquer outro trabalho que o acesse. Isso é possível graças à arquitetura subjacente, que separa computação e armazenamento. Da mesma forma, o Dataplex, serviço de malha de dados inteligente, oferece recursos de segurança e governança de dados em vários níveis de armazenamento de Lakehouse criados no GCS e no BigQuery.
Tático ou Estratégico
A plataforma de análise de dados do Google Cloud se diferencia por ser aberta, inteligente, flexível e totalmente integrada. Existem muitas tecnologias no mercado que fornecem soluções táticas que podem parecer confortáveis e familiares. No entanto, essa pode ser uma abordagem de curto prazo que simplesmente eleva e transfere uma solução em silos para a nuvem.
Por outro lado, uma plataforma de dados de análise criada no Google Cloud oferece recursos modernos de armazenamento de dados e data lake com integração com a AI Platform. Ela também fornece recursos integrados de streaming, ML e geoespacial e uma solução na memória para casos de uso de BI.
Dependendo das suas necessidades de dados organizacionais, o Google Cloud tem o conjunto de produtos, ferramentas e serviços para criar a plataforma de dados certa para você.
Para se tornar uma organização data driven, o primeiro passo é projetar e implementar uma plataforma de dados analíticos que atenda às necessidades técnicas e de negócios. Se você deseja capacitar as equipes para possuir, publicar e compartilhar seus dados em toda a organização ou criar um armazenamento simplificado de dados brutos e processados para facilitar a descoberta, existe uma solução que melhor atende às necessidades de sua empresa.
Jornalista especializada em tecnologia há mais de 10 anos, com atuação em veículos nacionais e internacionais. Atualmente, é mestranda em Sustentabilidade pela USP, onde pesquisa mudanças climáticas.