Backup, restore e disaster recovery
O que é¶
Conjunto de processos técnicos e operacionais para garantir continuidade do negócio após falhas, exclusões acidentais, corrupção de dados ou indisponibilidade regional.
Por que isso existe¶
Ter backup não significa estar protegido. O que protege é capacidade comprovada de restaurar dentro do RTO e com perda de dados dentro do RPO definido.
Como funciona internamente¶
RTO e RPO¶
- RTO (Recovery Time Objective): tempo máximo para recuperar serviço.
- RPO (Recovery Point Objective): perda máxima de dados aceitável.
Estratégia 3-2-1¶
- 3 cópias dos dados.
- 2 mídias diferentes.
- 1 cópia offsite/imutável.
Fluxo operacional¶
Backup agendado -> validação -> retenção -> teste de restore -> evidência
Exemplos práticos¶
Kubernetes (Velero)¶
velero backup create prod-cluster-daily --include-namespaces payments
velero backup get
velero restore create --from-backup prod-cluster-daily
Banco em AWS (RDS)¶
- snapshots automáticos com retenção definida.
- cópia cross-region para cenário de desastre regional.
Estrutura de runbook¶
- Critério de acionamento.
- Pré-requisitos e acessos.
- Passo a passo de restore.
- Checklist de validação pós-restore.
- Plano de comunicação.
Boas práticas¶
- Testar restore periodicamente em ambiente isolado.
- Ativar criptografia em repouso e trânsito.
- Monitorar jobs de backup com alertas de falha.
- Definir owner por sistema e periodicidade.
Armadilhas comuns¶
- Backup sem teste de restauração.
- Mesmo domínio de falha para produção e backup.
- Runbook desatualizado e sem evidência de execução.