A “continuidade de negócios” é um tema que começa a ser discutido de forma mais ampla nos círculos de TI brasileiros. Antes restrita a grandes empresas, trata-se hoje da idéia de que a empresa precisa estar pronta para reagir a eventos de grande magnitude, como acidentes naturais, sabotagem, ou mesmo erros de operação internos. Mesmo em empresas de pequeno e médio porte, a operação de TI já tem impacto direto no negócio, e uma falha pode acarretar prejuízos significativos. Para se ter uma idéia, estudos indicam que para uma operação simples de vendas a varejo, uma hora de downtime custa em média 140 mil dólares. Uma única parada já se traduz em valor suficiente para justificar o investimento em uma estrutura de primeira linha.
Mas pior do que o prejuízo direto de uma falha de curta duração, é o impacto da sobrevivência da empresa que uma falha de longa duração pode ter. Cerca de 40% das empresas que passam por um acidente de longa duração jamais reabrem. No outro extremo, somente 8% das empresas que passam por esse tipo de situação continuam no mercado após 5 anos. Isso mostra a importância de preparar a empresa através de um plano formal de continuidade de negócios, investindo na infra-estrutura de forma adequada.
O estabelecimento do plano passa por diversas normas, que orientam a sua estruturação e implementação. Existem normas técnicas como a EIA/TIA 942, que estabelecem parâmetros para a implementação de uma infra-estrutura de alta qualidade. Também existem normas que tratam dos processos ligados à operação de TI, como por exemplo a BS25999, a ISO20000 e a ISO27000. E finalmente, existem certificações independentes, como a SAS 70, voltadas para a auditoria dos serviços de TI.
O suporte tecnológico para a continuidade conta com diversas soluções. Uma das principais é a virtualização, que facilita o gerenciamento e a distribuição da carga de processamento, e simplifica a implementação de políticas de sobrevivência. Redes de alta disponibilidade garantem a comunicação entre os sites da empresa. Sobre estas redes, sistemas de armazenamento redundantes permitem a replicação eficiente dos dados. E finalmente, técnicas de “application delivery” oferecem ao usuário desempenho compatível com as suas necessidades, independente do local onde o sistema estiver hospedado.
Todo esse arsenal tecnológico ainda depende de uma projeto correto, que possa combinar suas potencialidades e proteger contra riscos reais. Há situações em que aparentemente todas as proteções falham. Nesse momento, é importante analisar o problema e tomar ações corretivas para que ele não ocorra novamente. Um caso real foi o incidente que ocorreu em junho de 2008 no The Planet, um grande datacenter americano. Cerca de 9.000 servidores ficaram fora do ar. Metade deles, por vários dias, devido a uma falha no quadro de distribuição de energia. A infra-estrutura era totalmente redundante; porém, uma falha no circuito principal causou uma explosão que destruiu parte do circuito reserva. A recuperação levou dias, pois várias dificuldades operacionais foram detectadas.
Outro caso interessante foi o “apagão da Telefônica”, ocorrido em julho de 2008. Uma pane no backbone da operadora deixou 3.500 clientes fora do ar. A falha durou cerca de 36 horas, e gerou um valor estimado de indenizações de 24 milhões de reais, só em reembolso de serviço indisponível. O prejuízo indireto aos clientes e à imagem da Telefônica certamente é muito maior. Muitos clientes confiavam na estrutura totalmente redundante da Telefônica e dependiam da operação contínua dos links para manter lojas funcionando. Operações de cartão de crédito ou acesso a sistemas de controle foram interrompidas.
Falhas como as apresentadas demonstram alguns pontos fundamentais:
- Prepare-se para a falha. Qualquer tipo de infra-estrutura, por mais completa e sofisticada que seja, está sujeita a incidentes raros. É essencial desenvolver planos não só para tratar as falhas esperadas, mas para contornar falhas mais graves.
Escolha parceiros confiáveis. Não basta apresentar um SLA excepcional; é preciso que o parceiro demonstre conhecimento e competência para agir no caso das falhas imprevistas. O conhecimento não deve se limitar somente ao fornecimento dos serviços contratados. É necessário domínio dos fundamentos de projeto e operação que possibilitem o desenvolvimento de soluções alternativas com rapidez e eficiência.
Tenha domínio da sua infra-estrutura. Serviços terceirizados, por melhores que sejam, também podem falhar. A empresa deve estar pronta para reagir nesse caso, dispondo de outros fornecedores ou de uma estrutura própria adequada. Conhecer a própria infra-estrutura é um passo fundamental para ter a capacidade de reação necessária.
Se sua empresa seguir esses princípios, não estará isenta de falhas, mas saberá como reagir a elas, recuperando-se com mais rapidez. Esse é o ponto fundamental para garantir que a sua infra-estrutura de TI está preparada para sustentar a continuidade dos negócios.