Backup, restore e disaster recovery

O que é¶

Conjunto de processos técnicos e operacionais para garantir continuidade do negócio após falhas, exclusões acidentais, corrupção de dados ou indisponibilidade regional.

Por que isso existe¶

Ter backup não significa estar protegido. O que protege é capacidade comprovada de restaurar dentro do RTO e com perda de dados dentro do RPO definido.

Como funciona internamente¶

RTO e RPO¶

RTO (Recovery Time Objective): tempo máximo para recuperar serviço.
RPO (Recovery Point Objective): perda máxima de dados aceitável.

Estratégia 3-2-1¶

3 cópias dos dados.
2 mídias diferentes.
1 cópia offsite/imutável.

Fluxo operacional¶

Backup agendado -> validação -> retenção -> teste de restore -> evidência

Exemplos práticos¶

Kubernetes (Velero)¶

velero backup create prod-cluster-daily --include-namespaces payments
velero backup get
velero restore create --from-backup prod-cluster-daily

Banco em AWS (RDS)¶

snapshots automáticos com retenção definida.
cópia cross-region para cenário de desastre regional.

Estrutura de runbook¶

Critério de acionamento.
Pré-requisitos e acessos.
Passo a passo de restore.
Checklist de validação pós-restore.
Plano de comunicação.

Boas práticas¶

Testar restore periodicamente em ambiente isolado.
Ativar criptografia em repouso e trânsito.
Monitorar jobs de backup com alertas de falha.
Definir owner por sistema e periodicidade.

Armadilhas comuns¶

Backup sem teste de restauração.
Mesmo domínio de falha para produção e backup.
Runbook desatualizado e sem evidência de execução.