Quando a IA “quase funciona” mas não funciona de verdade

Janeiro de 2024. Rafael Campos, CTO da LegalTech Solutions (startup com 45 funcionários focada em análise de contratos), estava frustrado.

Ele havia implementado um assistente de IA para analisar cláusulas contratuais usando GPT-4 direto da API. Funcionava… mais ou menos.

O problema:

40% das análises estavam corretas e impressionantes
35% estavam “quase corretas” mas com erros críticos (identificava cláusula errada, interpretava mal conceitos jurídicos)
25% estavam completamente equivocadas (inventava jurisprudência, citava leis inexistentes)

“O pior é que não dava para confiar”, explica Rafael. “Quando funciona 40% do tempo, você precisa revisar 100% das saídas. Ou seja: não economiza nada. Só adiciona trabalho.”

Rafael pesquisou soluções. Encontrou três abordagens diferentes:

Melhorar os prompts (prompt engineering)
Adicionar base de conhecimento (RAG - Retrieval-Augmented Generation)
Treinar o modelo (fine-tuning)

Ele não sabia qual escolher. Cada artigo dizia uma coisa diferente. Uns defendiam RAG, outros diziam que fine-tuning era essencial, outros garantiam que “prompt engineering bem feito resolve tudo”.

Rafael escolheu testar as três abordagens sistematicamente.

Resultados após 6 semanas de testes:

Apenas melhorar prompts: acurácia subiu de 40% para 58% (melhora, mas insuficiente)
RAG (base de conhecimento + busca): acurácia de 79% (dramática melhora)
Fine-tuning: acurácia de 71% (melhor que prompt puro, pior que RAG)
RAG + Fine-tuning combinados: acurácia de 91% (melhor de todos, mas mais complexo)

A solução final? RAG puro. Custo-benefício imbatível para o caso dele.

Este artigo explica exatamente quando usar cada abordagem, com exemplos práticos e frameworks de decisão baseados em casos reais.

As três abordagens fundamentais: o que são e como funcionam

Prompt Engineering: a arte de fazer boas perguntas

O que é:

Prompt engineering é simplesmente a prática de escrever instruções (prompts) otimizadas para obter melhores resultados de modelos de linguagem.

Como funciona:

Você usa o modelo de IA “como está” (zero alteração no modelo), mas cria prompts mais eficazes.

Exemplo básico vs otimizado:

❌ Prompt básico:

Analise este contrato e me diga se há problemas.

✅ Prompt otimizado:

Você é um advogado especializado em contratos B2B com 15 anos de experiência.

Analise o contrato abaixo procurando especificamente por:
1. Cláusulas de rescisão desfavoráveis ao contratante
2. Penalidades desproporcionais
3. Obrigações abertas ou mal definidas
4. Prazos impraticáveis

Para cada item identificado:
- Cite a cláusula específica (número e texto)
- Explique o risco
- Sugira redação alternativa

Contrato:
[texto do contrato]

Formato de saída:
[JSON estruturado especificado]

Técnicas comuns:

Definir persona/papel: “Você é um especialista em…”
Dar contexto: “Você está ajudando uma empresa de médio porte que…”
Few-shot examples: mostrar exemplos do que você espera
Instruções step-by-step: quebrar tarefa complexa em passos
Especificar formato de saída: JSON, markdown, etc.
Chain-of-thought: pedir que “pense passo a passo”

Vantagens:

Zero custo adicional
Implementação imediata (minutos/horas)
Fácil de iterar e testar
Sem manutenção complexa

Limitações:

Não adiciona conhecimento novo ao modelo
Limitado pelo contexto (comprimento do prompt)
Pode ser inconsistente (mesma pergunta, respostas diferentes)
Depende de habilidade de escrever bons prompts

RAG (Retrieval-Augmented Generation): dar ao modelo o conhecimento que ele precisa

O que é:

RAG significa “Geração Aumentada por Recuperação”. Na prática: buscar informação relevante e incluir no prompt.

Como funciona:

Você cria uma base de conhecimento (documentos, manuais, dados proprietários)
Quando usuário faz uma pergunta, sistema busca informação relevante
Informação recuperada é incluída no prompt
Modelo responde baseado nessa informação

Exemplo concreto:

Usuário pergunta: “Como configurar autenticação SSO?”

Sem RAG:

GPT responde de forma genérica
Pode inventar passos que não aplicam ao seu produto
Ou dizer “não tenho informações específicas”

Com RAG:

Sistema busca em sua documentação interna
Encontra: “Manual de SSO - Configuração passo a passo”
Inclui esse conteúdo no prompt
GPT responde especificamente para seu produto

Arquitetura simplificada:

Usuário: "Como fazer X?"
    ↓
[Sistema de busca semântica]
    ↓
Encontra documentos relevantes em sua base
    ↓
[Monta prompt]
Contexto: [documentos encontrados]
Pergunta: Como fazer X?
    ↓
[LLM (GPT-4, Claude, etc)]
    ↓
Resposta específica baseada em seus documentos

Vantagens:

Adiciona conhecimento atualizado/proprietário
Pode citar fontes (rastreabilidade)
Fácil de atualizar (só adicionar novos documentos)
Reduz alucinações drasticamente
Custo moderado

Limitações:

Depende de qualidade da base de conhecimento
Precisa de sistema de busca semântica (embeddings)
Limitado pelo tamanho de contexto do modelo
Complexidade técnica moderada

Fine-tuning: ensinar o modelo com seus dados

O que é:

Fine-tuning é re-treinar um modelo existente com seus próprios dados para especializá-lo.

Como funciona:

Você prepara dataset de treinamento (pares: input → output desejado)
Modelo “aprende” padrões específicos dos seus dados
Modelo fine-tuned se comporta de forma mais alinhada ao seu caso de uso

Exemplo concreto:

Empresa quer modelo que classifique tickets de suporte em 12 categorias específicas.

Dataset de treinamento (simplificado):

[
  {
    "messages": [
      {"role": "system", "content": "Classifique tickets de suporte."},
      {"role": "user", "content": "Não consigo fazer login"},
      {"role": "assistant", "content": "Categoria: Autenticação"}
    ]
  },
  {
    "messages": [
      {"role": "system", "content": "Classifique tickets de suporte."},
      {"role": "user", "content": "Como exporto relatório em Excel?"},
      {"role": "assistant", "content": "Categoria: Relatórios"}
    ]
  }
  // ... 500-5000 exemplos similares
]

Após fine-tuning com 2.000 exemplos reais, modelo aprende:

Vocabulário específico da sua empresa
Padrões de como seus clientes descrevem problemas
Nuances entre categorias que são específicas do seu produto

Vantagens:

Modelo se especializa no seu domínio
Pode reduzir tamanho de prompts (economia)
Consistência maior em tarefas repetitivas
Pode capturar padrões sutis

Limitações:

Custo alto (treinamento + preparação de dados)
Complexidade técnica alta
Requer dataset grande e de qualidade (500-5000+ exemplos)
Atualizar conhecimento requer novo fine-tuning
Risco de overfitting (modelo “decora” ao invés de generalizar)

Comparação lado a lado: quando usar cada abordagem

Matriz de decisão rápida

Critério	Prompt Engineering	RAG	Fine-tuning
Complexidade	Baixa	Média	Alta
Custo setup	R$ 0	R$ 5k - R$ 40k	R$ 15k - R$ 100k+
Custo operacional/mês	R$ 50 - R$ 500	R$ 300 - R$ 2k	R$ 500 - R$ 5k+
Tempo de implementação	Horas/dias	2-6 semanas	6-12 semanas
Adicionar conhecimento novo	Não	Sim (fácil)	Sim (difícil)
Atualizar conhecimento	Imediato	Imediato	Requer re-treinar
Tamanho dataset necessário	0	50-500 docs	500-5000+ exemplos
Reduz alucinações	Pouco	Muito	Médio
Melhora tom/estilo	Médio	Pouco	Muito
Consistência	Baixa-Média	Média-Alta	Alta

Quando usar Prompt Engineering

✅ Use prompt engineering quando:

Tarefa de propósito geral
- Resumir textos
- Traduzir
- Responder perguntas gerais
- Gerar ideias
Você está começando/testando
- Validando se IA resolve seu problema
- Proof of concept
- MVP
Orçamento zero ou muito limitado
- Sem budget para infra/desenvolvimento
- Precisa de resultados imediatos
Conhecimento necessário cabe no prompt
- Suas instruções cabem em 1-2 páginas
- Não precisa de dados proprietários extensos

❌ Não use apenas prompt engineering quando:

Modelo precisa de conhecimento proprietário extenso
Consistência é crítica (compliance, legal)
Taxa de erro mais de 20% é inaceitável
Tarefas altamente especializadas/técnicas

Exemplo de sucesso: Email drafting

Empresa usa GPT-4 para ajudar equipe de vendas a escrever emails personalizados.

Solução: Prompt engineering puro

Você é um especialista em vendas B2B consultivas.

Escreva um email de follow-up para [prospect], considerando:
- Reunião anterior abordou: [tópicos]
- Próximo passo desejado: [ação]
- Tom: profissional mas cordial
- Tamanho: máximo 150 palavras

[Dados do prospect]

Por que funcionou apenas com prompts:

Não precisa de dados proprietários além do contexto fornecido
Tarefa relativamente genérica (escrever email)
Qualidade “boa o suficiente” (não precisa ser perfeita)
Custo zero vs complexidade de RAG/fine-tuning

Quando usar RAG

✅ Use RAG quando:

Precisa de conhecimento proprietário/atualizado
- Documentação interna
- Manuais de produtos
- Políticas da empresa
- Dados que mudam frequentemente
Rastreabilidade é importante
- Precisa citar fontes
- Auditoria é necessária
- Compliance exige transparência
Base de conhecimento já existe
- Você tem documentação
- Wikis, manuais, FAQs
- Apenas precisa torná-los acessíveis via IA
Conhecimento é grande demais para prompts
- Milhares de páginas de documentação
- Não cabe em janela de contexto
Reduzir alucinações é crítico
- Respostas precisam ser factuais
- Inventar informação é inaceitável

❌ Não use RAG quando:

Base de conhecimento não existe (e criá-la seria muito caro)
Documentos são desorganizados/incompletos
Tarefa não depende de conhecimento factual específico
Orçamento muito limitado (menos de R$ 10k para implementar)

Exemplo de sucesso: Suporte técnico da SoftwareHouse

Empresa com 300 clientes e 2.000 artigos de documentação implementou RAG.

Antes (apenas prompts):

Cliente: “Como integrar com Salesforce?”
GPT: responde genericamente sobre integrações Salesforce
Problema: não era específico para o produto deles

Depois (com RAG):

Sistema busca em documentação: “Integração Salesforce - Guia Completo”
Inclui no prompt
GPT responde especificamente para o produto deles, citando seções relevantes

Resultados:

Taxa de resolução no primeiro contato: 34% → 71%
Satisfação com respostas: CSAT de 6,2 → 8,4
Redução de 58% em tickets repetitivos

Por que RAG foi a escolha certa:

Documentação já existia (2.000 artigos)
Precisava de respostas específicas ao produto
Rastreabilidade importante (citar artigo específico)
Conhecimento mudava frequentemente (fácil de atualizar)

Quando usar Fine-tuning

✅ Use fine-tuning quando:

Tarefa muito específica e repetitiva
- Classificação de tickets
- Extração de dados estruturados
- Categorização de documentos
- Análise de sentimento em contexto específico
Tom/estilo/formato é crítico
- Precisa responder exatamente como sua marca
- Formato de saída muito específico
- Vocabulário/jargão particular
Volume altíssimo (economia de custo)
- Milhões de chamadas de API/mês
- Fine-tuned models são mais baratos por chamada
- Prompts menores = menos tokens = custo menor
Você tem dataset grande e de qualidade
- 1.000+ exemplos de input/output perfeitos
- Dados representativos do uso real
- Recursos para preparar dados corretamente
Latência é crítica
- Fine-tuned models podem ser menores/mais rápidos
- Não depende de busca (RAG adiciona latência)

❌ Não use fine-tuning quando:

Dataset pequeno (menos de 500 exemplos de qualidade)
Conhecimento muda frequentemente (atualizar é caro)
Primeiro projeto de IA (complexidade desnecessária)
Budget limitado
Não tem expertise técnico (ML/data science)

Exemplo de sucesso: Classificação de NFs da ContabilTech

Empresa de contabilidade digital processa 50.000 notas fiscais/mês que precisam ser categorizadas em 45 categorias contábeis.

Tentativa 1: Apenas prompts

Acurácia: 62%
Custo: R$ 8.200/mês (prompts grandes)

Tentativa 2: RAG

Acurácia: 68%
Custo: R$ 6.800/mês
Melhora marginal

Solução final: Fine-tuning

Criaram dataset com 4.500 NFs manualmente categorizadas
Fine-tuned GPT-3.5-turbo
Acurácia: 94%
Custo: R$ 2.400/mês (prompts muito menores + modelo mais barato)

Por que fine-tuning foi a escolha certa:

Tarefa altamente específica e repetitiva
Dataset grande disponível (anos de dados históricos)
Volume justificava investimento
ROI: investimento de R$ 45k se pagou em 6 meses

Combinando abordagens: quando 1+1=3

RAG + Prompt Engineering: a combinação mais comum

Quando faz sentido:

Praticamente sempre que você usa RAG, também usa prompt engineering. São complementares:

RAG: fornece conhecimento relevante
Prompt engineering: instrui como usar esse conhecimento

Exemplo:

# RAG: buscar documentos relevantes
documentos = buscar_em_base_de_conhecimento(pergunta_usuario)

# Prompt engineering: instruir como usar
prompt = f"""
Você é um assistente de suporte técnico.

Use APENAS as informações abaixo para responder.
Se a resposta não estiver nos documentos, diga "não tenho essa informação".

Documentos:
{documentos}

Pergunta: {pergunta_usuario}

Responda de forma:
- Direta e concisa
- Citando o documento específico
- Em português brasileiro
"""

Resultado: melhor de ambos os mundos

Acurácia do RAG
Controle de tom/formato do prompt engineering

Fine-tuning + RAG: especialização + conhecimento atualizado

Quando faz sentido:

Você precisa de conhecimento atualizado (RAG)
E também de comportamento muito específico (fine-tuning)
E tem budget para ambos

Exemplo: Assistente médico especializado

Uma empresa de tecnologia para clínicas implementou:

Fine-tuning para:

Aprender linguagem médica específica
Entender abreviações da especialidade
Formato de saída (CID, TUSS, etc.)

RAG para:

Protocolos clínicos atualizados
Diretrizes que mudam periodicamente
Base de casos similares

Resultado:

Fine-tuning garante “fala como médico deveria falar”
RAG garante “informação está atualizada e correta”

Trade-off:

Complexidade: alta
Custo: R$ 80k setup + R$ 4k/mês
Mas ROI justificou (mercado de healthtech)

Quando NÃO combinar (KISS principle)

Começar com a solução mais simples que funciona:

Primeiro: otimizar prompts
Se insuficiente: adicionar RAG
Se ainda insuficiente: considerar fine-tuning

Muitas empresas pulam direto para fine-tuning sem validar se RAG resolve.

Regra prática:

70% dos casos: RAG + prompts resolve
20% dos casos: apenas prompts resolve
10% dos casos: fine-tuning adiciona valor significativo

Caso real: LegalTech escolhe entre as três abordagens

Problema inicial e tentativas

Contexto:

LegalTech Solutions: startup com 45 funcionários
Produto: análise automatizada de contratos B2B
Volume: 800-1.200 contratos analisados/mês
Problema: precisão de apenas 40% com prompts básicos

Por que importava:

Advogados não podem confiar em sistema com 40% de acurácia:

Erro pode custar milhões (cláusula problemática não identificada)
Reputação da empresa em jogo
Clientes pagam pelo serviço: esperavam qualidade

Teste sistematizado das três abordagens

Rafael, o CTO, criou metodologia rigorosa:

Dataset de validação:

100 contratos reais, manualmente analisados por 3 advogados
Consenso sobre: cláusulas problemáticas, riscos, interpretações
“Ground truth” para comparar resultados

Métricas:

Acurácia: % de análises corretas
Recall: % de cláusulas problemáticas identificadas
Precision: % das cláusulas identificadas que eram realmente problemáticas
Custo: R$/contrato analisado
Tempo de implementação
Esforço de manutenção

Abordagem 1: Aprimorar prompt engineering (2 semanas)

Investimento:

40 horas de Rafael otimizando prompts
Custo: R$ 0 adicional (tempo interno)

Evolução:

Prompt v1 (baseline):

Analise o contrato e identifique cláusulas problemáticas.

Resultado: 40% acurácia

Prompt v2:

Você é um advogado especialista em contratos B2B.
Analise o contrato procurando:
[lista de 12 tipos de cláusulas]

Para cada cláusula problemática, retorne:
[JSON estruturado]

Resultado: 52% acurácia (+30% melhora)

Prompt v3 (após muitas iterações):

Você é um advogado sênior com 15 anos de experiência em contratos B2B,
especialmente contratos de software/tecnologia.

CONTEXTO:
Você está revisando contratos para empresas de médio porte (50-500 funcionários)
que estão contratando serviços B2B. Seu objetivo é proteger os interesses do CONTRATANTE.

ANÁLISE PASSO A PASSO:

1. Leia o contrato inteiro primeiro
2. Identifique as seguintes cláusulas problemáticas:
   [lista detalhada com exemplos]
3. Para cada uma, avalie gravidade (baixa/média/alta)

[Mais 15 linhas de instruções detalhadas]

[Few-shot examples: 3 exemplos de análises perfeitas]

FORMATO DE SAÍDA:
[JSON schema detalhado]

Resultado: 58% acurácia (+45% vs baseline)

Conclusão:

Melhora significativa, mas insuficiente
Prompts estavam gigantes (custando mais por análise)
Inconsistência permanecia (mesmo contrato, resultados diferentes)

Abordagem 2: Implementar RAG (4 semanas)

Investimento:

2 semanas de desenvolvimento
R$ 12.000 de consultoria (especialista em RAG)
Setup de Pinecone + OpenAI embeddings
Total: R$ 28.000 + 160 horas de dev

Base de conhecimento criada:

Playbook jurídico interno (80 páginas)
- Tipos de cláusulas problemáticas
- Exemplos reais comentados
- Jurisprudência relevante
Biblioteca de 230 contratos analisados
- Contratos anteriores + análises de advogados
- Anotações sobre cláusulas específicas
Checklist de revisão (40 páginas)
- Procedimento passo a passo
- Red flags comuns
- Padrões por tipo de contrato

Funcionamento:

Para cada contrato novo:

Sistema identifica tipo de contrato (SaaS, consultoria, etc.)
Busca em base: checklist específico + contratos similares + playbook
Inclui esse contexto no prompt
GPT-4 analisa baseado nesse contexto específico

Resultado:

Acurácia: 79% (+97% vs baseline, +36% vs melhor prompt puro)
Recall: 85% (pegava 85% das cláusulas problemáticas)
Precision: 73% (73% do que identificava era realmente problemático)
Custo/contrato: R$ 4,20
Consistência: muito melhor (mesmo contrato = mesma análise)

Por que funcionou:

RAG forneceu:

Conhecimento específico da firma (interpretações, jurisprudência)
Exemplos de contratos similares (aprendizado por analogia)
Checklist específico por tipo de contrato

Abordagem 3: Fine-tuning (6 semanas)

Investimento:

3 semanas preparando dataset
2 semanas treinando e testando modelos
R$ 35.000 de consultoria (ML specialist)
R$ 3.200 em custos de treinamento (OpenAI)
Total: R$ 52.000 + 240 horas

Preparação do dataset:

Criar dataset de fine-tuning é trabalhoso:

Selecionar 1.000 contratos representativos
Gerar análises perfeitas para cada um:
- Advogados sêniores analisaram manualmente
- Formato: input (contrato) → output (análise em JSON)
- 4 semanas de trabalho de 2 advogados
- Custo adicional não contabilizado: ~R$ 80.000
Validar qualidade do dataset:
- Revisar por inconsistências
- Garantir distribuição balanceada

Treinamento:

Fine-tuned GPT-3.5-turbo (mais barato que GPT-4)
3 epochs
Validação contínua para evitar overfitting

Resultado:

Acurácia: 71% (+77% vs baseline, mas -10% vs RAG)
Recall: 78%
Precision: 69%
Custo/contrato: R$ 1,80 (muito mais barato)
Consistência: excelente

Por que não superou RAG:

Fine-tuning melhorou:

Entendimento de jargão jurídico específico
Formato de saída (sempre JSON perfeito)
Tom/estilo das análises

Mas não adicionou:

Conhecimento atualizado (playbook, jurisprudência)
Capacidade de aprender com contratos similares
Flexibilidade (atualizar requer re-treinar)

Decisão final: RAG puro (com prompts otimizados)

Rafael escolheu RAG, por estas razões:

Melhor acurácia: 79% vs 71% (fine-tuning) vs 58% (prompts puros)
Melhor custo-benefício:
- RAG: R$ 28k setup, R$ 4,20/contrato
- Fine-tuning: R$ 132k setup (incluindo dataset), R$ 1,80/contrato
- Volume de 1.000 contratos/mês → diferença de custo operacional: R$ 2,40/contrato = R$ 2.400/mês
- Payback do investimento adicional em fine-tuning: 43 meses (inviável)
Facilidade de atualização:
- RAG: adicionar novo documento ao playbook = atualização imediata
- Fine-tuning: requer preparar novos exemplos + re-treinar
Rastreabilidade:
- RAG permite citar: “baseado no checklist X, seção Y”
- Importante para explicar decisões aos advogados
Maturidade da equipe:
- RAG: manutenção por desenvolvedor full-stack
- Fine-tuning: requer expertise ML (que não tinham)

Considerou combinação (RAG + Fine-tuning)?

Sim. Testaram:

Acurácia subiu para 91% (impressionante!)
Mas adicionou R$ 104k ao investimento inicial
Complexidade operacional muito maior
Decisão: deixar para “fase 2” se acurácia de 79% não for suficiente

Resultados após 6 meses de produção

Métricas de produto:

Acurácia em produção: 81% (melhor que teste, pois base de conhecimento cresceu)
12.000 contratos analisados
Zero falhas críticas (passar cláusula altamente problemática)

Impacto no negócio:

Redução de 65% no tempo de análise de contratos
Advogados focam em revisão, não em leitura inicial
Customer satisfaction score: 7,2 → 8,9
Churn: 8%/mês → 3%/mês

Evolução da base de conhecimento:

Playbook inicial: 80 páginas → 240 páginas
Contratos de referência: 230 → 890
Sistema “aprende” continuamente (sem re-treinar)

ROI:

Investimento: R$ 28.000
Economia de tempo: ~R$ 95.000/mês (advogados sêniores)
Payback: 9 dias
ROI ano 1: 4.070%

Checklist: qual abordagem faz sentido para você?

Teste rápido de adequação

Responda estas perguntas:

Você já tem uma base de conhecimento organizada?
- Sim, temos documentação extensa e relativamente organizada → +3 pontos RAG
- Temos conteúdo, mas desorganizado → +1 ponto RAG
- Não temos base de conhecimento → +0 pontos RAG
Qual é a natureza da sua tarefa?
- Precisa de conhecimento específico/proprietário → +3 pontos RAG
- Tarefa repetitiva com formato muito específico → +3 pontos Fine-tuning
- Tarefa de propósito geral → +3 pontos Prompt Engineering
Qual seu volume mensal?
- menos de 1.000 interações/mês → +3 pontos Prompt Engineering
- 1.000 - 50.000 interações/mês → +3 pontos RAG
- mais de 50.000 interações/mês → +3 pontos Fine-tuning (economia de custo)
Qual seu orçamento disponível?
- < R$ 5.000 → +3 pontos Prompt Engineering
- R$ 5.000 - R$ 40.000 → +3 pontos RAG
- > R$ 40.000 → +1 ponto Fine-tuning (viável)
Você tem dataset de treinamento de qualidade?
- Sim, 1.000+ exemplos perfeitos → +3 pontos Fine-tuning
- Temos dados, mas precisam ser preparados → +1 ponto Fine-tuning
- Não temos → +0 pontos Fine-tuning
Com que frequência seu conhecimento muda?
- Constantemente (semanal/mensal) → +3 pontos RAG
- Periodicamente (trimestral) → +1 ponto RAG, +1 ponto Fine-tuning
- Raramente → +2 pontos Fine-tuning
Expertise técnico disponível:
- Desenvolvedor full-stack → +2 pontos RAG
- Data scientist/ML engineer → +3 pontos Fine-tuning
- Apenas usuário de ferramentas → +3 pontos Prompt Engineering

Contagem de pontos:

Maior pontuação em Prompt Engineering: comece otimizando prompts
Maior pontuação em RAG: implemente RAG + prompt engineering
Maior pontuação em Fine-tuning: considere fine-tuning (mas valide com RAG primeiro)

Framework de decisão passo a passo

Passo 1: Começar sempre com Prompt Engineering

Motivo: validar se IA resolve seu problema antes de investir.

Perguntas:

Testando apenas com prompts otimizados, consigo 60%+ de acurácia?
Se sim → talvez prompts bastem (vá para Passo 2)
Se não → definitivamente precisa RAG ou fine-tuning (vá para Passo 3)

Passo 2: Prompts estão “quase bons o suficiente”?

Se acurácia está entre 60-75% com prompts:

Perguntas:

“Quase bom” é aceitável para meu caso de uso?
Custo de erro é baixo?
Volume é pequeno (menos de 500/mês)?

Se SIM para todas → fique com prompts (KISS principle) Se NÃO para qualquer uma → vá para Passo 3

Passo 3: Você precisa de conhecimento específico?

Perguntas:

Modelo precisa de informação proprietária?
Documentação/manuais/políticas precisam ser consultados?
Conhecimento muda periodicamente?

Se SIM para qualquer uma → RAG é sua solução Se NÃO para todas → vá para Passo 4

Passo 4: Tarefa é altamente repetitiva e você tem dados?

Perguntas:

Mesma tarefa, milhares de vezes?
Tenho 1.000+ exemplos de input/output perfeitos?
Tom/estilo/formato específico é crítico?
Volume é alto (mais de 10k/mês)?

Se SIM para todas → Fine-tuning faz sentido Se NÃO → volte para RAG ou prompts

Passo 5: Combinação faz sentido?

Se você tem:

Budget > R$ 60k
Expertise técnica (ML)
RAG sozinho não está entregando acurácia necessária (mais de 90%)

Então: considere RAG + Fine-tuning

Caso contrário: escolha apenas uma abordagem

Conclusão: escolha estratégica, não tática

A escolha entre prompt engineering, RAG e fine-tuning não é sobre “qual é melhor”. Cada abordagem resolve problemas diferentes.

Três aprendizados principais:

Comece simples, sempre
- 80% dos casos: prompts otimizados + RAG resolvem
- Fine-tuning raramente é necessário (e caro)
- KISS principle: simplicidade tem valor
RAG é o “sweet spot” para maioria dos casos B2B
- Adiciona conhecimento proprietário
- Mantém flexibilidade
- Custo-benefício imbatível
- Facilidade de manutenção
Fine-tuning é especialização, não solução geral
- Ótimo para tarefas muito específicas
- Requer investimento significativo
- Valide com RAG primeiro

Framework mental:

Precisa adicionar conhecimento? → RAG
Precisa de comportamento específico? → Fine-tuning
Precisa controlar tom/formato? → Prompt engineering
Precisa de tudo? → RAG + Fine-tuning + Prompts (complexo, mas poderoso)

O que fazer agora:

Se você está considerando IA para seu caso de uso:

Semana 1: Teste com prompts otimizados (custo ~zero)
Semana 2-3: Se insuficiente, implemente piloto de RAG (200 documentos)
Semana 4-5: Valide ROI do RAG
Mês 2-3: Se RAG não basta, considere fine-tuning

Não pule etapas. Muitas empresas gastam R$ 100k+ em fine-tuning quando RAG de R$ 20k resolveria.

Quer ajuda para escolher e implementar a abordagem certa?

Na Orient.me, já implementamos dezenas de projetos usando RAG, fine-tuning e combinações.

Nossa metodologia:

Diagnóstico (1 semana): análise do caso de uso, dados disponíveis, requisitos
Recomendação fundamentada: qual abordagem faz sentido (com números)
Piloto (3-4 semanas): validar solução com dados reais
Implementação completa: apenas se piloto comprova ROI

Agende uma conversa gratuita de 30 minutos para avaliar qual abordagem faz sentido para o seu caso.

Fine-tuning vs RAG vs Prompt Engineering: quando usar cada abordagem

Quando a IA “quase funciona” mas não funciona de verdade

As três abordagens fundamentais: o que são e como funcionam

Prompt Engineering: a arte de fazer boas perguntas

RAG (Retrieval-Augmented Generation): dar ao modelo o conhecimento que ele precisa

Fine-tuning: ensinar o modelo com seus dados

Comparação lado a lado: quando usar cada abordagem

Matriz de decisão rápida

Quando usar Prompt Engineering

Quando usar RAG

Quando usar Fine-tuning

Combinando abordagens: quando 1+1=3

RAG + Prompt Engineering: a combinação mais comum

Fine-tuning + RAG: especialização + conhecimento atualizado

Quando NÃO combinar (KISS principle)

Caso real: LegalTech escolhe entre as três abordagens

Problema inicial e tentativas

Teste sistematizado das três abordagens

Abordagem 1: Aprimorar prompt engineering (2 semanas)

Abordagem 2: Implementar RAG (4 semanas)

Abordagem 3: Fine-tuning (6 semanas)

Decisão final: RAG puro (com prompts otimizados)

Resultados após 6 meses de produção

Checklist: qual abordagem faz sentido para você?

Teste rápido de adequação

Framework de decisão passo a passo

Conclusão: escolha estratégica, não tática

Pronto para sair do manual?

Quando a IA “quase funciona” mas não funciona de verdade

As três abordagens fundamentais: o que são e como funcionam

Prompt Engineering: a arte de fazer boas perguntas

RAG (Retrieval-Augmented Generation): dar ao modelo o conhecimento que ele precisa

Fine-tuning: ensinar o modelo com seus dados

Comparação lado a lado: quando usar cada abordagem

Matriz de decisão rápida

Quando usar Prompt Engineering

Quando usar RAG

Quando usar Fine-tuning

Combinando abordagens: quando 1+1=3

RAG + Prompt Engineering: a combinação mais comum

Fine-tuning + RAG: especialização + conhecimento atualizado

Quando NÃO combinar (KISS principle)

Caso real: LegalTech escolhe entre as três abordagens

Problema inicial e tentativas

Teste sistematizado das três abordagens

Abordagem 1: Aprimorar prompt engineering (2 semanas)

Abordagem 2: Implementar RAG (4 semanas)

Abordagem 3: Fine-tuning (6 semanas)

Decisão final: RAG puro (com prompts otimizados)

Resultados após 6 meses de produção

Checklist: qual abordagem faz sentido para você?

Teste rápido de adequação

Framework de decisão passo a passo

Conclusão: escolha estratégica, não tática

Artigos Relacionados

Embeddings e vetores explicados para não-técnicos: a base da busca semântica

O que é temperature, top-p e outros parâmetros de LLM que você precisa entender

Como escolher entre GPT-4, Claude, Gemini: comparação prática para casos de uso B2B

Pronto para sair do manual?