Pular para conteúdo

Avaliação e Guardrails para LLMs

Definição clara

Avaliação e guardrails são práticas e mecanismos para medir qualidade de respostas e impor limites de segurança/compliance em aplicações com LLM.

Explicação conceitual

Em engenharia de software, guardrails funcionam como validação de contrato: mesmo com saída probabilística, o sistema deve respeitar formato, políticas e limites operacionais.

Como funciona internamente

  1. Definição de rubricas e testes (offline/online).
  2. Avaliação automática e humana de respostas.
  3. Filtros de entrada/saída (PII, toxicidade, jailbreak).
  4. Restrições estruturais (JSON schema, function calling).
  5. Fallbacks: recusa segura, resposta padrão ou escalonamento humano.

Exemplos práticos

  • Bloquear geração de dados sensíveis.
  • Validar saída obrigatória em JSON antes de persistir.
  • Enviar casos ambíguos para revisão humana.

Quando usar

  • Aplicações externas com risco reputacional.
  • Fluxos críticos (financeiro, saúde, jurídico).
  • Produtos com requisitos de compliance e auditoria.

Limitações

  • Guardrails excessivos podem reduzir utilidade.
  • Avaliação automática não captura todos os erros.
  • Regras precisam ser atualizadas com novos ataques.

Relação com outros conceitos

Exemplos em Python quando aplicável

import json

def validar_resposta_json(resposta: str) -> bool:
    try:
        data = json.loads(resposta)
        return all(k in data for k in ["impacto", "causa", "acao_recomendada"])
    except Exception:
        return False

print(validar_resposta_json('{"impacto":"alto","causa":"timeout","acao_recomendada":"rollback"}'))