Guia • RAG vs Busca Corporativa

Por que busca por palavra-chave deixou de ser suficiente.

Você não busca "manual_v3_final_USAR_ESTE.pdf" — você pergunta "como faço para abrir uma exceção de crédito acima de 500k?". A busca tradicional não responde isso. RAG (Retrieval-Augmented Generation) responde, e ainda mostra de onde tirou.

Leitura: 7 min Para: CTOs, líderes técnicos, knowledge managers Tópicos: RAG • Embeddings • Citações • pgvector
Comparativo

Lado a lado: o que cada um entrega.

Não é "novo é melhor que velho". É reconhecer que palavra-chave e busca semântica resolvem problemas diferentes — e empresas precisam dos dois.

Busca tradicional (keyword) RAG (busca semântica + LLM)
Entrada Palavras exatas; operadores booleanos. Pergunta em linguagem natural.
O que recupera Documentos cujo texto contém as palavras. Trechos com intenção semelhante, mesmo sem palavras iguais.
O que devolve Lista de links. Resposta sintetizada citando fonte original.
Forças Rápido. Determinístico. Bom para nomes próprios e códigos. Lida com sinônimos, paráfrases, intenções implícitas.
Fraquezas Não entende "como faço" sem você saber o termo. Pode alucinar se mal calibrado; precisa de citação obrigatória.
Caso ideal "Achar o contrato 2024-1182". "Quais nossas regras para férias coletivas?".
Por dentro

Como um RAG funciona.

Cinco etapas que acontecem em milissegundos. Entender o que cada uma faz ajuda a avaliar fornecedores — e identificar quem está vendendo "RAG" sem ter RAG.

  1. 1

    Chunking

    Documentos são quebrados em pedaços de ~500-1000 tokens com sobreposição.

  2. 2

    Embeddings

    Cada chunk vira um vetor de 1536 dimensões via modelo de embedding.

  3. 3

    Indexação

    Vetores guardados em pgvector com índice HNSW para busca rápida.

  4. 4

    Retrieval

    Pergunta também vira vetor. K-NN traz os trechos mais próximos por cosseno.

  5. 5

    Geração com fonte

    LLM sintetiza usando apenas os trechos recuperados. Citação obrigatória.

Citação não é detalhe — é o que impede alucinação

Sem citação obrigatória, RAG vira chatbot bonitinho que inventa. A regra é dura: se a LLM não consegue apontar o trecho da fonte que sustenta a frase, a frase não pode aparecer na resposta.

Três técnicas que separam um RAG sério de um RAG de demo:

  • Citação por trecho, não por documento. "Manual X, página 12, parágrafo 3" é diferente de "Manual X". O usuário precisa achar o ponto exato.
  • Score de confiança exposto. Resposta com 0.42 de cosseno tem cara diferente de resposta com 0.91. O usuário vê o número.
  • Handoff explícito. Confiança abaixo do limiar → sistema diz "não sei" e sugere especialista. Não inventa.
"A pergunta certa não é 'sua IA acerta?'. É 'sua IA sabe quando não sabe?'"
Híbrido

Quando usar cada um.

A boa busca corporativa moderna combina os dois. Cada modo tem um caso ideal — e o sistema decide qual rodar com base na pergunta.

Use keyword quando…

Quer o documento específico. Sabe o número do contrato, nome do projeto, SKU. Busca exata é mais rápida e mais barata.

Use RAG quando…

Tem uma dúvida, não um arquivo em mente. "Como faço…", "Quais nossas regras para…", "O que decidimos sobre…".

Use híbrido quando…

Pergunta tem termos técnicos + intenção. Sistema roda os dois em paralelo e consolida via re-ranking. É o padrão do Corptex.

Erros comuns ao implantar RAG

  • Chunking ruim. Partir documento no meio de uma frase quebra contexto. Sobreposição entre chunks resolve.
  • Embedding genérico. Modelo treinado em inglês para documentos em português performa mal. Use modelo multilíngue ou específico de domínio.
  • Sem filtro de visibilidade. RAG sem RBAC vaza informação entre setores. Visibilidade tem que ser parte da query, não filtro depois.
  • Sem avaliação contínua. Sem golden set de perguntas-resposta, você não sabe se trocou o modelo e piorou.
  • Latência ignorada. Embedding síncrono na hora da query mata UX. Pré-computar tudo no ingest.
Solicite uma apresentação

Veja RAG sério em produção.

Mostramos perguntas reais com citação, score de confiança e handoff para especialista quando a base não responde com segurança.

Quero ver a demonstração