Banco de dados muito grande

Content

Definição

Os adjetivos vagos de muito grande permitem uma interpretação ampla e subjetiva, mas foram feitas tentativas de definir uma métrica e limiar. As métricas iniciais foram do tamanho do banco de dados em um formulário canônico por meio da normalização do banco de dados ou do tempo para uma operação completa do banco de dados como um backup. As melhorias da tecnologia mudaram continuamente o que é considerado muito grande.

Uma definição sugeriu que um banco de dados se tornou um VLDB quando é "grande demais para ser mantido dentro da janela da oportunidade ... o momento em que o banco de dados é silencioso".

Tamanhos de um banco de dados VLDB

Não há quantidade absoluta de dados que possam ser citados. Por exemplo, não se pode dizer que qualquer banco de dados com mais de 1 TB de dados é considerado um VLDB. Essa quantidade absoluta de dados variou ao longo do tempo, à medida que os métodos de processamento, armazenamento e backup de computadores se tornaram mais capazes de lidar com quantidades maiores de dados. Dito isto, os problemas do VLDB podem começar a aparecer quando 1 TB é abordado e é mais provável que apareça em 30 TB ou mais.

Desafios do VLDB

As principais áreas em que um VLDB pode apresentar desafios incluem configuração, armazenamento, desempenho, manutenção, administração, disponibilidade e recursos do servidor.

Configuração

É necessária uma configuração cuidadosa dos bancos de dados que estão no campo VLDB para aliviar ou reduzir os problemas levantados pelos bancos de dados VLDB.

Administração

As complexidades do gerenciamento de um VLDB podem aumentar exponencialmente para o administrador do banco de dados, à medida que o tamanho do banco de dados aumenta.

Disponibilidade e manutenção

Ao lidar com operações do VLDB relacionadas à manutenção e recuperação, como reorganizações de banco de dados e cópias de arquivo que eram bastante práticas em um não-VLDB, levam quantidades muito significativas de tempo e recursos para um banco de dados VLDB. Em particular, ele normalmente é inviável para atingir um objetivo típico de tempo de recuperação (RTO), o tempo máximo esperado que um banco de dados deve estar indisponível devido à interrupção, por métodos que envolvem cópia de arquivos de disco ou outros arquivos de armazenamento. Para superar essas questões técnicas, como clustering, bancos de dados clonados/replicados/em espera, snapshots de arquivo, instantâneos de armazenamento ou um gerente de backup, podem ajudar a alcançar os requisitos de RTO e disponibilidade, embora métodos individuais possam ter limitações, ressalvas, licença e requisitos de infraestrutura, enquanto alguns pode arriscar a perda de dados e não atingir o objetivo do ponto de recuperação (RPO). Para muitos sistemas, apenas soluções geograficamente remotas podem ser aceitáveis.

Backup and recovery

A melhor prática é que o backup e a recuperação sejam arquiteturados em termos de disponibilidade geral e solução de continuidade de negócios.

atuação

Dada a mesma infraestrutura, pode haver uma diminuição no desempenho, o aumento do tempo de resposta à medida que o tamanho do banco de dados aumenta. Alguns acessos simplesmente terão mais dados para processar (digitalização) que levarão proporcionalmente mais tempo (tempo linear); Embora os índices usados para acessar dados possam crescer ligeiramente em altura, exigindo talvez um acesso extra ao armazenamento para atingir os dados (tempo sub-linear). Outros efeitos podem ser o cache se tornando menos eficiente, porque proporcionalmente menos dados podem ser armazenados em cache e, embora alguns índices, como o B+, sustentem bem automaticamente com o crescimento de outros, como uma tabela de hash, podem precisar ser reconstruídos.

Se um aumento no tamanho do banco de dados, faça com que o número de acessores do banco de dados aumente, mais recursos de servidor e rede poderão ser consumidos e o risco de disputa aumentará. Algumas soluções para recuperar o desempenho incluem particionamento, agrupamento, possivelmente com sharding ou uso de uma máquina de banco de dados.

Partitioning

O particionamento pode ajudar o desempenho das operações em massa em um VLDB, incluindo backup e recuperação., Movimentos em massa devido ao gerenciamento do ciclo de vida das informações (ILM), reduzindo a contenção e permitir a otimização de algum processamento de consultas.

Armazenar

Para satisfazer as necessidades de um VLDB, o armazenamento do banco de dados precisa ter baixa latência e contenção de acesso, alta taxa de transferência e alta disponibilidade.

Recursos do servidor

O tamanho crescente de um VLDB pode pressionar os recursos do servidor e da rede e um gargalo pode parecer que pode exigir o investimento em infraestrutura para resolver.

Relação com big data

O VLDB não é o mesmo que o Big Data, no entanto, o aspecto de armazenamento do Big Data pode envolver um banco de dados VLDB. Isso afirmou que algumas das soluções de armazenamento que suportam big data foram projetadas desde o início para suportar grandes volumes de dados, para que os administradores de banco de dados não encontrem problemas de VLDB que as versões mais antigas dos RDBMs tradicionais possam encontrar.

Veja também

XLDB