Não importa se você é de uma startup ou grande corporação. Para todos, a Arquitetura de dados é a estrutura dos componentes de dados de uma organização – considerados sob diferentes níveis de abstração, suas inter-relações, bem como os princípios, diretrizes, normas e padrões que regem seu projeto e evolução ao longo do tempo. Claro, que o tamanho da sua empresa e o quão voltada à possuir um grande volume ou política de dados importam, mas o conceito sempre é o mesmo.
Com base nessas empresas, Josh Klahr notou um conjunto consistente de temas emergentes; temas que abrangem setores, casos de uso e geografias. Estes temas são base de alguns princípios de uma arquitetura de dados corporativos que toda empresa que trabalha com tecnologia deveria possuir.
Independentemente de você ser responsável por dados, sistemas, análise, estratégia ou resultados, você pode usar esses princípios como um guia para ajudá-lo a navegar no mundo moderno e acelerado de dados e decisões. Com as novas tecnologias, você pode criar a arquitetura certa para permitir que sua empresa seja executada em um nível otimizado.
Então, o que é Arquitetura de Dados?
Arquitetura de dados é a estrutura dos componentes de dados de uma organização – considerados sob diferentes níveis de abstração, suas inter-relações, bem como os princípios, diretrizes, normas e padrões que regem seu projeto e evolução ao longo do tempo. Ou seja, Arquitetura de dados é um “combinado” de regras que você e seus colegas de trabalho decidem seguir em relação à como os dados serão geridos na empresa. Não tem certo ou errado, apenas maneiras diferentes de gerir (claro que em cada escolha existem bônus e ônus)
Agora que ficou um pouco mais claro, vamos ver os princípios fundamentais:
# 1 Os dados são um ativo compartilhado: As empresas que começam com a visão de dados como um ativo compartilhado acabam superando a concorrência. Ao começar com a ideia de dados como um ativo compartilhado, a empresa independente do porte, gera mais resultado, por conhecer melhor a cadeia e possuir uma visão completa. Isso significa uma visão de 360 graus dos insights do cliente, juntamente com a capacidade de correlacionar sinais de dados valiosos, desde a fabricação até a logística, que pode impulsionar a eficiência corporativa.
# 2 Fornecer as interfaces certas para o consumo: Colocar dados em um único local não é suficiente para alcançar a visão de uma organização orientada por dados. Para que as pessoas (e sistemas) se beneficiem de um ativo de dados compartilhados, as interfaces apropriadas precisam ser disponibilizadas para facilitar o consumo, isso pode ser na forma de uma interface OLAP para business intelligence, uma interface SQL para analistas de dados, em tempo real. API para sistemas de segmentação ou a linguagem R para cientistas de dados.
# 3 Garantir controles de acesso e segurança: Com a disponibilização de dados compartilhados e inúmeras formas de consumir estes dados a segurança e controle de acessos não podem ficar de fora. Garantir governança e políticas de acesso é fundamental!
# 4 Garantir um vocabulário comum: Catálogos de produtos, dimensões, relatórios, nomes de campos chaves, precisam ser comuns (ou tentar ser o mais comum possível), independentemente de como os dados são consumidos ou analisados. Sem esse vocabulário compartilhado, as empresas gastam mais tempo discutindo ou reconciliando os resultados em vez de melhorar o desempenho por meio de um entendimento compartilhado.
# 5 Informações através do gerenciamento de dados: Repetidas vezes, as empresas que investiram em um data lake do Hadoop começam a sofrer quando permitem o acesso a dados de autoatendimento aos dados brutos armazenados nesses clusters. Sem a modelagem de curadoria de dados adequada de relacionamentos importantes, limpeza de dados brutos, curadoria de dimensões-chave e medidas, os usuários finais podem ter uma experiência frustrante. Ao investir em funções centrais que fazem a curadoria de dados, o valor do ativo de dados compartilhados pode ser finalmente alcançado.
# 6 Elimine cópias e movimentação de dados: Ao eliminar a necessidade de movimentação de dados, uma arquitetura de dados moderna reduz o custo, aumenta a “atualização de dados” e otimiza a agilidade dos dados corporativos. Estamos na era Big Data, este principio é meio contraditório, não? Sim, de certa forma é, porém o conceito aqui é eliminar cópias desnecessárias, diminuindo custo e complexidade injustificável.
Comece o quanto antes… Os princípios acima abrangem elementos-chave importantes para todos os negócios no mundo acelerado de hoje, com dados explosivos, insights de autoatendimento e maior necessidade de segurança. Portanto, independentemente do setor em que você esteja, da função que desempenha na organização ou de sua jornada de big data, recomendo que você adote e compartilhe esses princípios como um meio de estabelecer uma base sólida para construir um big data moderno e com baixo custo de mudanças na medida que sua empresa cresce.
Embora o caminho para uma arquitetura moderna de dados corporativos possa parecer longo e desafiador, com a estrutura e os princípios corretos, você pode fazer essa transformação com sucesso antes do que imagina.
Um grande abraço a todos!