Pular para conteúdo

SRE Debug Network

Objetivo

Método usado por SRE para diagnosticar problemas de rede e latência em sistemas distribuídos.

Ferramentas principais:

mtr
tcpdump
ss
iptables
conntrack
curl

Fluxo de investigação

flowchart TD
A[Cliente reporta erro] --> B[Testar conectividade]
B --> C[Analisar rota de rede]
C --> D[Inspecionar portas abertas]
D --> E[Capturar tráfego]
E --> F[Identificar origem do problema]

1 Testar conectividade

curl -v https://host

Verificar:

  • status HTTP
  • latência
  • headers

2 Analisar rota de rede

mtr host

ou

traceroute host

Isso mostra:

  • hops da rede
  • perda de pacotes
  • latência por salto

3 Ver portas abertas

ss -tulpn

Isso revela:

  • processos escutando portas
  • serviços ativos

Exemplo:

envoy
nginx
java
node

4 Captura de tráfego

sudo tcpdump -nn host host.com

Permite ver:

  • handshake TCP
  • conexões abertas
  • retransmissões

5 Ver regras de firewall

iptables -L -n

Ou:

iptables -t nat -L

Isso mostra:

  • regras de bloqueio
  • NAT
  • redirecionamentos

6 Ver conexões rastreadas

conntrack -L

Usado para identificar:

  • sessões NAT
  • conexões ativas
  • limites atingidos

Arquitetura típica investigada

flowchart LR
Client --> CDN
CDN --> LoadBalancer
LoadBalancer --> Gateway
Gateway --> Microservice
Microservice --> Database

Checklist rápido de SRE

  1. Testar endpoint

    curl

  2. Ver rota

    mtr

  3. Ver portas

    ss

  4. Capturar rede

    tcpdump

  5. Ver firewall

    iptables

  6. Ver estado das conexões

    conntrack


Conclusão

Esse playbook permite descobrir rapidamente:

  • falhas de conectividade
  • bloqueios de firewall
  • problemas de load balancer
  • gargalos de rede