22/11/2012 – Portal IT Web

Sete passos para estruturar o backup em Big Data 

Em artigo, Julio Cesar Abreu explica que um ambiente onde volume de dados crescerá 50 vezes nesta década, práticas do processo devem ser adaptadas

Big Data é um conceito novo, mas que definitivamente veio para ficar, e não será diferente em relação aos desafios que deve impor para TI. Não importa como as empresas o definam, big data se refere às grandes volumetrias de dados, com alta frequência em sua geração, captura e compartilhamento, bem como a uma vasta variedade no tipo e formato dos dados, sejam eles estruturados ou não. E, simplesmente como todo o resto do ambiente de TI, precisará de backup.

O backup de ambientes big data possivelmente será confrontado pelos seguintes desafios:

  1. Dilúvio de dados: O volume de dados deve crescer 50 vezes nesta década.
  2. Desempenho e escala: Com tantos dados, serão necessários desempenhos, capacidades e eficiências nunca vistas, ou as janelas de backup não serão atendidas.
  3. Ilhas de dados: Sem uma estratégia de backup consolidada, corre-se o risco de várias soluções distintas serem implantadas em uma mesma empresa. Uma boa abordagem de proteção de dados para big data deve considerar o desenvolvimento de uma estratégia que enderece estas principais dificuldades e inclua a maioria das recomendações seguintes:
  1. Planeje, antecipe e esteja preparado.

Backup é um componente estratégico de proteção de dados. Outros componentes incluem proteções de discos RAIO, espelhamentos, snapshots e replicações. Em muitos ambientes, o backup é a última linha de atuação para recuperação de dados e devido a sua criticidade, um bom planejamento da estratégia de backup torna-se fundamental.

Em ambientes de TI, processos de provisionamento de aplicações, servidores e armazenamento muitas vezes ocorrem desalinhados da estratégia de backup e frequentemente estas mudanças no ambiente resultam em falhas, tendo um impacto negativo sobre sua operação geral.

Com a introdução do Big Data estes problemas tendem a acentuar-se, impulsionados pelo crescimento do ambiente. Um planejamento adequado permite que a equipe de backup entenda melhor as necessidades das aplicações de negócio e esteja mais alinhada com as demais áreas da empresa. Isto permitirá um desenho de solução flexível e adaptativa, capaz de responder às demandas futuras de capacidade, funcionalidade e desempenho com características de big data. Finalmente, será fundamental posicionar-se de forma preventiva e não reativa em ambientes de big data e somente um planejamento efetivo será capaz de auxiliar as empresas nesta conquista.

  1. Conheça seus dados como ninguém.

Primeiramente não será possível ou não deverá ser necessário proteger todos os dados do ambiente Big Data. Examine quais dados não precisam ser protegidos, pois podem ser recriados a partir de outros sistemas já protegidos pela solução de backup. Um bom exemplo são relatórios em formato de arquivos gerados a partir de uma base de dados.

Outros dados do ambiente Big Data possuem um “tempo de vida” curto e possivelmente não precisam ser salvos. Um exemplo são informações de mídias sociais sobre sua marca sendo veiculadas em sites que podem ser utilizadas para uma tomada de decisão imediata, mas que não precisam ser armazenadas como histórico.

Introduzir o conceito de gerenciamento do ciclo de vida da informação, do inglês ILM, auxilia a conhecer a importância do dado para seus negócios, durante toda sua existência na empresa, desde sua geração até seu fim (eventual exclusão), facilitando na definição da solução, tecnologia e arquitetura a serem empregadas, além de otimizar a utilização destes recursos.

Finalmente as características mais técnicas destes dados como tamanho médio, quantidade, frequência de acesso, grau de alteração dentre outros também orientam as decisões e definições da forma mais adequada de proteger seus dados.

  1. Entenda a desduplicação

Dentre as várias inovações vistas em TI recentemente, a desduplicação é sem dúvida fundamental quando se fala de Big Data. Esta tecnologia elimina dados redundantes, aumenta a eficiência da rede e reduz a necessidade de provisionamento de recursos para backup e recovery. A desduplicação “quebra” os arquivos em seguimentos de dados e armazena somente uma cópia de cada um deles.

Este recurso pode reduzir a quantidade de dados a serem protegidos pelo backup em uma taxa de 40 a 90%, sendo esta variação relacionada a características dos dados e a eficiência da desduplicação. Tecnologias mais recentes desenvolvidas visando cenários de Big Data trabalham com seguimentos de dados de tamanho variáveis e executam todo o processo de desduplicação quando da ingestão dos dados, chamado de processamento inline, ao invés de apoiar-se em processos batch baseados em disco, que são mais lentos.

  1. Aceite logo a ideia de que é impossível fazer backups completos.

Tradicionalmente, políticas de backup consideram ciclos baseados em backup completo (full) e backups diferenciais ou incrementais que fazem referência ao backup completo. Nesta abordagem, para se recuperar um ambiente é preciso recuperar o último backup completo e todos os backups incrementais posteriores.

Como a maioria dos ambientes de backup eram baseados em fitas magnéticas, esta dependência entre os backups incrementais e os backups completos precisava ser reduzida para que vários problemas fossem evitados ou minimizados. Exemplos: (1) quanto maior o número de fitas em um ciclo de backup maior a exposição ao risco de uma fita estar danificada, impedindo a recuperação de todo o ciclo; (2) demora na recuperação devido à necessidade de se aplicar vários dias de backups incrementais; (3) possibilidade de se recuperar arquivos que já foram excluídos do ambiente, mas constava em algum backup incremental, deixando um número grande de arquivos indesejados no ambiente.

Em ambientes de Big Data, quanto maior a necessidade de se fazer backups completos, maior será a dificuldade em se proteger o ambiente e cumprir com os prazos acordados. Sistemas atuais permitem que seja introduzido o conceito de “diferenciais inteligentes” (inteligente differentials) ou “incrementais para sempre” (incremental forever).

O que esta nova tecnologia faz é tomar um backup completo inexistente como base, executar um novo backup salvando somente as diferenças e então mesclar estas diferenças com o backup completo referência, tornando este novo backup em um novo backup completo. Isto significa que cada novo backup é um backup completo, apesar de somente as diferenças terem sido salvas, e um ambiente pode ser totalmente recuperado a partir deste último backup. Isto também significa que um histórico maior pode ser mantido uma vez que somente as diferenças entre backups sucessivos são armazenadas.

  1. Priorização, camadas e níveis de serviços.

Dentro de uma organização o nível de diversificação de seus negócios e consequentemente dos sistemas que os suportam pode ser grande. Áreas de negócios diferentes com plataformas distintas dificilmente terão requerimentos homogêneos quanto a necessidades de proteção de dados.

Necessidades diferentes das aplicações quanto ao tempo de recuperação (RTO) e o ponto de recuperação (RPO) dentre outras, devem nortear o emprego das diversas tecnologias capazes de entregar níveis de serviços distintos na proteção dos dados, em diferentes camadas. Um exemplo de desvantagens em não se adotar esta abordagem é o de uma empresa com 10% de seus dados precisando de uma proteção de dados extremamente robusta, capaz de fazer seu backup e o recovery em minutos. Se somente um tipo de backup for implantado, 100% dos dados serão protegidos pela mesma solução, provavelmente de custo elevado, mesmo sabendo que os 90% restantes dos dados não precisavam deste elevado nível de serviço de proteção.

Uma arquitetura de backup baseada em camadas pode ter uma primeira camada de alto nível de serviço, com tempos de backup e recovery “praticamente instantâneos”, onde uma pequena parcela dos ambientes, os mais críticos, serão protegidos. Em contrapartida, em uma terceira ou quarta camada a maioria dos ambientes de menor criticidade serão protegidos por tecnologias que precisam de, por exemplo, oito horas para completar um backup ou recovery.

  1. Pense o backup sem esquecer do recovery.

A proteção dos dados é fundamental, mas o que deu origem a esta necessidade de se proteger os dados não deve ser esquecido: a recuperação. Muitas arquiteturas e soluções de backup algumas vezes se mostram falhas ou inadequadas na recuperação do dado, sendo ela possível, contudo, não no tempo desejado ou no ponto necessário.

Estratégias de recuperação de dados para big data devem estar alinhadas com as áreas de negócios de tal forma que os objetivos de níveis de serviços sejam atingidos, tanto no tempo de recuperação (RTO – recover time objective) como no ponto de recuperação (RPO – recover point objective). Uma aplicação cujo nível de serviço aceitável para perda de dados (RPO) é de duas horas não pode ser atendido por uma solução de backup que demanda 4 horas para salvar seus dados, por exemplo.

  1. Não se esqueça das pessoas e dos processos.

Tecnologias têm evoluído, ferramentas tem se tornado cada vez mais simples e os altos níveis de automação tem deixado as soluções de backup cada vez mais inteligentes. No entanto, ainda assim, pessoas e processos são fundamentais para o bom funcionamento de qualquer sistema, e com backup isto não é diferente.

Revise os principais processos de backup, como inclusão, exclusão, verificação de erros, testes e validação de recuperações, de forma a simplifica-los e integrá-los ao dia a dia da organização. Por exemplo, o processo de controle de mudanças da organização para desativação de um ambiente deve fazer referência ao processo de exclusão de backup. Com isto evita-se por exemplo que um ambiente desativado não faça mais parte do plano de backup, liberando assim recursos preciosos na plataforma de backup.

Por outro lado, quanto maior for o conhecimento dos profissionais sobre a plataforma de backup, maiores serão os benefícios extraídos dela. Profissionais com alto grau de conhecimento sobre uma solução são capazes de realizar ajustes finos em seus ambientes que somente são possíveis a partir desta junção perfeita do conhecimento detalhado de seu negócio com a plataforma que os suportam. Em geral, quanto maior o domínio da tecnologia pelo corpo técnico, melhores serão os resultados obtidos.

Em resumo, um bom planejamento alinhado ás tecnologias inovadoras do mercado, amparados por bons processos e um pessoal altamente capacitado, serão capazes de preparar as empresas para lidarem com o backup de Big Data. Se sua organização ainda não está inserida no conceito de Big Data, provavelmente ela estará no futuro próximo. Big data está chegando para todos, estejam ás organizações preparadas ou não, e quando isto acontecer os tópicos discutidos aqui poderão fazer a diferença no impacto nas organizações.

Juliano Cesar Abreu é gerente de novos negócios da CAS Tecnologia