Avaliação e Guardrails para LLMs¶

Definição clara¶

Avaliação e guardrails são práticas e mecanismos para medir qualidade de respostas e impor limites de segurança/compliance em aplicações com LLM.

Explicação conceitual¶

Em engenharia de software, guardrails funcionam como validação de contrato: mesmo com saída probabilística, o sistema deve respeitar formato, políticas e limites operacionais.

Como funciona internamente¶

Definição de rubricas e testes (offline/online).
Avaliação automática e humana de respostas.
Filtros de entrada/saída (PII, toxicidade, jailbreak).
Restrições estruturais (JSON schema, function calling).
Fallbacks: recusa segura, resposta padrão ou escalonamento humano.

Exemplos práticos¶

Bloquear geração de dados sensíveis.
Validar saída obrigatória em JSON antes de persistir.
Enviar casos ambíguos para revisão humana.

Quando usar¶

Aplicações externas com risco reputacional.
Fluxos críticos (financeiro, saúde, jurídico).
Produtos com requisitos de compliance e auditoria.

Limitações¶

Guardrails excessivos podem reduzir utilidade.
Avaliação automática não captura todos os erros.
Regras precisam ser atualizadas com novos ataques.

Relação com outros conceitos¶

Complementa Observabilidade para Aplicações com LLM.
Depende de bons prompts em Prompt Engineering.
Em sistemas com busca, reforça segurança em Retrieval-Augmented Generation (RAG) em Produção.

Exemplos em Python quando aplicável¶

import json

def validar_resposta_json(resposta: str) -> bool:
    try:
        data = json.loads(resposta)
        return all(k in data for k in ["impacto", "causa", "acao_recomendada"])
    except Exception:
        return False

print(validar_resposta_json('{"impacto":"alto","causa":"timeout","acao_recomendada":"rollback"}'))