Índice:
Relatórios de Business Intelligence se tornam mais lentos à medida que o volume de dados históricos cresce nos servidores de aplicação.
Jobs de extração, transformação e carga (ETL) começam a estourar as janelas noturnas e disputam recursos com as consultas dos analistas.
A instabilidade no desempenho do data warehouse compromete a tomada de decisão e expõe a fragilidade de uma infraestrutura de armazenamento genérica.
Por isso, a escolha de um sistema de armazenamento com alto throughput e capacidade de expansão se torna um pilar para a operação de analytics.

O pilar do data warehouse moderno
A centralização de dados para análise em um data warehouse exige uma infraestrutura de armazenamento que entregue throughput massivo para jobs de ETL e consultas complexas, além de garantir escalabilidade previsível para acompanhar o crescimento do volume de informações, consolidando a base para decisões de negócio e evitando que a disputa por I/O entre carga e leitura se torne um gargalo crônico na operação.
Ambientes que dependem de armazenamento direto nos servidores de banco de dados (DAS) encontram limites de performance e capacidade rapidamente. Essa abordagem não foi desenhada para o acesso massivo e paralelo que caracteriza as rotinas de BI.
A contenção de I/O se torna um problema frequente. As operações de carga de dados competem diretamente com as queries dos usuários, e o resultado é a degradação do serviço para todos.
A migração para um storage SAN ou NAS dedicado, como as plataformas da Infortrend, resolve essa disputa de forma estrutural. O sistema de armazenamento passa a ser uma camada independente, otimizada para vazão e acesso concorrente.
Isso libera os servidores de banco de dados da tarefa de gerenciar o armazenamento físico. Eles se concentram no processamento das consultas, enquanto o storage entrega os dados com a velocidade necessária.
Arquitetura de armazenamento para analytics
Um data warehouse impõe um perfil de carga muito específico sobre o storage. A demanda principal é por alto throughput sequencial, não por IOPS elevados.
As operações de ETL leem grandes volumes de dados de fontes diversas e escrevem blocos massivos nas tabelas de destino. Da mesma forma, consultas analíticas complexas varrem milhões de registros para agregar resultados.
Para atender a essa demanda, a arquitetura de armazenamento precisa priorizar a largura de banda. Sistemas Infortrend utilizam múltiplos discos em arranjos RAID para criar volumes com alta capacidade de leitura e escrita paralela.
A conectividade de rede é outro fator crítico. O uso de interfaces de 10GbE ou 25GbE é o padrão mínimo para evitar que a rede se torne o gargalo entre o servidor de banco de dados e o storage.
O tráfego de armazenamento deve ser isolado em uma VLAN ou rede física dedicada. Isso impede que o tráfego de usuários ou de outras aplicações interfira na comunicação com o storage e garante a previsibilidade do desempenho.
Soluções unificadas que suportam protocolos de bloco (iSCSI, Fibre Channel) e de arquivo (NFS) oferecem flexibilidade. O administrador pode provisionar LUNs em iSCSI para as tabelas principais do banco de dados e criar um compartilhamento NFS para a área de staging dos arquivos de ETL.

Governança e integridade dos dados
A centralização de dados em um storage dedicado simplifica a governança. O time de infraestrutura gerencia um único ponto, com políticas claras de acesso e proteção.
Em um sistema Infortrend, o administrador de TI define volumes com níveis de RAID específicos para cada necessidade. Volumes que abrigam dados críticos do warehouse podem usar RAID 6 ou RAID 60 para proteção contra falha dupla de disco sem interrupção do serviço.
A integridade dos dados é mantida por mecanismos internos do storage. O sistema realiza verificações de consistência nos blocos de dados para detectar e corrigir erros silenciosos que poderiam corromper a base de dados ao longo do tempo.
Trilhas de auditoria registram todas as ações administrativas realizadas no storage. A equipe de segurança consegue rastrear quem criou um volume, alterou uma permissão ou deletou um snapshot, o que é fundamental para conformidade e investigações de incidentes.
Proteção e recuperação do warehouse
Um data warehouse é um ativo estratégico, e sua proteção não pode ser negligenciada. RAID sozinho não constitui uma estratégia de backup.
A funcionalidade de snapshot no nível do storage é a primeira linha de defesa. Antes de executar um job de ETL massivo, o administrador pode criar um snapshot do volume em segundos. Se a carga de dados falhar ou corromper informações, a reversão para o estado anterior é quase instantânea.
Os snapshots consomem pouco espaço inicialmente. Eles registram apenas as alterações nos blocos de dados, o que permite manter múltiplos pontos de recuperação com baixo custo de capacidade.
Para recuperação de desastres, a replicação remota é essencial. Um sistema Infortrend pode replicar os volumes do data warehouse para uma unidade secundária em outro datacenter. Em caso de falha total no site principal, a operação de BI pode ser retomada a partir da cópia replicada.
Essa replicação é assíncrona e transfere apenas os dados alterados pela rede. Isso minimiza o impacto no link de comunicação e mantém a cópia remota atualizada com uma defasagem de minutos ou horas, conforme a política definida.

Desempenho para ETL e consultas
O desempenho de um storage para data warehouse é medido em MB/s, não em IOPS. A capacidade de sustentar altas taxas de transferência de dados durante horas é o que diferencia uma solução adequada de um gargalo.
Sistemas Infortrend são projetados para throughput. A arquitetura interna, com processadores dedicados e grande quantidade de memória cache, acelera as operações de leitura e escrita sequencial.
Durante a janela de ETL, o storage precisa absorver um fluxo contínuo e intenso de escrita. A quantidade de discos no arranjo (spindles) e a velocidade da rede determinam a performance máxima que o ambiente consegue atingir.
Quando os analistas executam suas consultas, o perfil de I/O muda para leitura massiva. O storage precisa ser capaz de localizar e entregar gigabytes de dados rapidamente para que o servidor de banco de dados processe as agregações.
A disputa entre essas duas cargas de trabalho é real. Um sistema bem dimensionado consegue atender às duas demandas simultaneamente sem degradação severa, mantendo a operação de BI fluida durante o horário comercial.
Aplicações adequadas e limites
A combinação de um servidor de banco de dados robusto com um storage SAN/NAS de alto throughput é ideal para data warehouses corporativos on-premises. Essa arquitetura atende com excelência empresas de médio e grande porte que baseiam suas operações em Business Intelligence.
A abordagem se mostra bastante consistente para cargas de trabalho de dezenas a centenas de terabytes. O crescimento é previsível, com a adição de gavetas de expansão sem a necessidade de parar o serviço.
Para bases de dados muito pequenas ou departamentais, essa estrutura pode ser excessiva. Nesses casos, o armazenamento em um datastore de virtualização compartilhado pode ser suficiente, desde que o impacto no I/O seja monitorado.
Por outro lado, em ambientes de hiperescala que lidam com petabytes de dados não estruturados em um data lake, a arquitetura tende a migrar para soluções baseadas em object storage distribuído, um modelo operacional diferente.
O ponto forte do storage Infortrend está em oferecer uma plataforma de alto desempenho, confiável e com custo gerenciável para o núcleo do BI corporativo: o data warehouse relacional.

Avaliando a infraestrutura de dados
Uma infraestrutura de armazenamento inadequada é frequentemente a causa raiz de problemas de performance em ambientes de Business Intelligence.
A análise correta do workload, separando as demandas de carga (ETL) e consulta (queries), é o primeiro passo para desenhar uma solução de armazenamento que realmente funcione.
Para projetar uma arquitetura de armazenamento que atenda às exigências de throughput e capacidade do seu data warehouse, converse com os especialistas da Storage House.

