WhatsApp Fale Conosco

Infortrend para data warehouse: como atender ambientes que exigem mais throughput e capacidade

Índice:

Relatórios de Business Intelligence se tornam mais lentos à medida que o volume de dados históricos cresce nos servidores de aplicação.

Jobs de extração, transformação e carga (ETL) começam a estourar as janelas noturnas e disputam recursos com as consultas dos analistas.

A instabilidade no desempenho do data warehouse compromete a tomada de decisão e expõe a fragilidade de uma infraestrutura de armazenamento genérica.

Por isso, a escolha de um sistema de armazenamento com alto throughput e capacidade de expansão se torna um pilar para a operação de analytics.

O pilar do data warehouse moderno

O pilar do data warehouse moderno

A centralização de dados para análise em um data warehouse exige uma infraestrutura de armazenamento que entregue throughput massivo para jobs de ETL e consultas complexas, além de garantir escalabilidade previsível para acompanhar o crescimento do volume de informações, consolidando a base para decisões de negócio e evitando que a disputa por I/O entre carga e leitura se torne um gargalo crônico na operação.

Ambientes que dependem de armazenamento direto nos servidores de banco de dados (DAS) encontram limites de performance e capacidade rapidamente. Essa abordagem não foi desenhada para o acesso massivo e paralelo que caracteriza as rotinas de BI.

A contenção de I/O se torna um problema frequente. As operações de carga de dados competem diretamente com as queries dos usuários, e o resultado é a degradação do serviço para todos.

A migração para um storage SAN ou NAS dedicado, como as plataformas da Infortrend, resolve essa disputa de forma estrutural. O sistema de armazenamento passa a ser uma camada independente, otimizada para vazão e acesso concorrente.

Isso libera os servidores de banco de dados da tarefa de gerenciar o armazenamento físico. Eles se concentram no processamento das consultas, enquanto o storage entrega os dados com a velocidade necessária.

Conheça a linha de storages NAS Infortrend

Arquitetura de armazenamento para analytics

Um data warehouse impõe um perfil de carga muito específico sobre o storage. A demanda principal é por alto throughput sequencial, não por IOPS elevados.

As operações de ETL leem grandes volumes de dados de fontes diversas e escrevem blocos massivos nas tabelas de destino. Da mesma forma, consultas analíticas complexas varrem milhões de registros para agregar resultados.

Para atender a essa demanda, a arquitetura de armazenamento precisa priorizar a largura de banda. Sistemas Infortrend utilizam múltiplos discos em arranjos RAID para criar volumes com alta capacidade de leitura e escrita paralela.

A conectividade de rede é outro fator crítico. O uso de interfaces de 10GbE ou 25GbE é o padrão mínimo para evitar que a rede se torne o gargalo entre o servidor de banco de dados e o storage.

O tráfego de armazenamento deve ser isolado em uma VLAN ou rede física dedicada. Isso impede que o tráfego de usuários ou de outras aplicações interfira na comunicação com o storage e garante a previsibilidade do desempenho.

Soluções unificadas que suportam protocolos de bloco (iSCSI, Fibre Channel) e de arquivo (NFS) oferecem flexibilidade. O administrador pode provisionar LUNs em iSCSI para as tabelas principais do banco de dados e criar um compartilhamento NFS para a área de staging dos arquivos de ETL.

Governança e integridade dos dados

Governança e integridade dos dados

A centralização de dados em um storage dedicado simplifica a governança. O time de infraestrutura gerencia um único ponto, com políticas claras de acesso e proteção.

Em um sistema Infortrend, o administrador de TI define volumes com níveis de RAID específicos para cada necessidade. Volumes que abrigam dados críticos do warehouse podem usar RAID 6 ou RAID 60 para proteção contra falha dupla de disco sem interrupção do serviço.

A integridade dos dados é mantida por mecanismos internos do storage. O sistema realiza verificações de consistência nos blocos de dados para detectar e corrigir erros silenciosos que poderiam corromper a base de dados ao longo do tempo.

Trilhas de auditoria registram todas as ações administrativas realizadas no storage. A equipe de segurança consegue rastrear quem criou um volume, alterou uma permissão ou deletou um snapshot, o que é fundamental para conformidade e investigações de incidentes.

Produtos sugeridos

Proteção e recuperação do warehouse

Um data warehouse é um ativo estratégico, e sua proteção não pode ser negligenciada. RAID sozinho não constitui uma estratégia de backup.

A funcionalidade de snapshot no nível do storage é a primeira linha de defesa. Antes de executar um job de ETL massivo, o administrador pode criar um snapshot do volume em segundos. Se a carga de dados falhar ou corromper informações, a reversão para o estado anterior é quase instantânea.

Os snapshots consomem pouco espaço inicialmente. Eles registram apenas as alterações nos blocos de dados, o que permite manter múltiplos pontos de recuperação com baixo custo de capacidade.

Para recuperação de desastres, a replicação remota é essencial. Um sistema Infortrend pode replicar os volumes do data warehouse para uma unidade secundária em outro datacenter. Em caso de falha total no site principal, a operação de BI pode ser retomada a partir da cópia replicada.

Essa replicação é assíncrona e transfere apenas os dados alterados pela rede. Isso minimiza o impacto no link de comunicação e mantém a cópia remota atualizada com uma defasagem de minutos ou horas, conforme a política definida.

Desempenho para ETL e consultas

Desempenho para ETL e consultas

O desempenho de um storage para data warehouse é medido em MB/s, não em IOPS. A capacidade de sustentar altas taxas de transferência de dados durante horas é o que diferencia uma solução adequada de um gargalo.

Sistemas Infortrend são projetados para throughput. A arquitetura interna, com processadores dedicados e grande quantidade de memória cache, acelera as operações de leitura e escrita sequencial.

Durante a janela de ETL, o storage precisa absorver um fluxo contínuo e intenso de escrita. A quantidade de discos no arranjo (spindles) e a velocidade da rede determinam a performance máxima que o ambiente consegue atingir.

Quando os analistas executam suas consultas, o perfil de I/O muda para leitura massiva. O storage precisa ser capaz de localizar e entregar gigabytes de dados rapidamente para que o servidor de banco de dados processe as agregações.

A disputa entre essas duas cargas de trabalho é real. Um sistema bem dimensionado consegue atender às duas demandas simultaneamente sem degradação severa, mantendo a operação de BI fluida durante o horário comercial.

Conheça a linha de storages NAS Qnap

Aplicações adequadas e limites

A combinação de um servidor de banco de dados robusto com um storage SAN/NAS de alto throughput é ideal para data warehouses corporativos on-premises. Essa arquitetura atende com excelência empresas de médio e grande porte que baseiam suas operações em Business Intelligence.

A abordagem se mostra bastante consistente para cargas de trabalho de dezenas a centenas de terabytes. O crescimento é previsível, com a adição de gavetas de expansão sem a necessidade de parar o serviço.

Para bases de dados muito pequenas ou departamentais, essa estrutura pode ser excessiva. Nesses casos, o armazenamento em um datastore de virtualização compartilhado pode ser suficiente, desde que o impacto no I/O seja monitorado.

Por outro lado, em ambientes de hiperescala que lidam com petabytes de dados não estruturados em um data lake, a arquitetura tende a migrar para soluções baseadas em object storage distribuído, um modelo operacional diferente.

O ponto forte do storage Infortrend está em oferecer uma plataforma de alto desempenho, confiável e com custo gerenciável para o núcleo do BI corporativo: o data warehouse relacional.

Avaliando a infraestrutura de dados

Avaliando a infraestrutura de dados

Uma infraestrutura de armazenamento inadequada é frequentemente a causa raiz de problemas de performance em ambientes de Business Intelligence.

A análise correta do workload, separando as demandas de carga (ETL) e consulta (queries), é o primeiro passo para desenhar uma solução de armazenamento que realmente funcione.

Para projetar uma arquitetura de armazenamento que atenda às exigências de throughput e capacidade do seu data warehouse, converse com os especialistas da Storage House.

Edgar Carvalho

Edgar Carvalho

Especialista em Storage
"Engenheiro de computação com mais de 12 anos atuando em infraestrutura de TI e soluções de armazenamento, assessoro empresas e integradores na escolha de NAS, DAS, JBOD e soluções all-flash ou híbridas. Com experiência em produtos Qnap, Synology, Infortrend e grandes fabricantes, traduzo especificações técnicas em recomendações práticas para compras e projetos. Comprometo-me com a missão da Storage House."

Resuma esse artigo com Inteligência Artificial

Clique em uma das opções abaixo para gerar um resumo automático deste conteúdo:


Leia mais sobre: Armazenamento de dados

Entendemos que o armazenamento de dados é essencial para empresas e usuários que buscam segurança, desempenho e eficiência na gestão de informações. Oferecemos conteúdos de soluções para ajudar você a organizar, proteger e acessar arquivos com eficiência.

Fale conosco

Estamos prontos para atender as suas necessidades.

Telefone

Ligue agora mesmo.

(11) 2615-2998

E-mail

Entre em contato conosco.

contato@storagehouse.com.br

WhatsApp

(11) 95664-9913

Iniciar conversa