O que é a geração aumentada via recuperação?
A geração aumentada via recuperação (RAG) é o processo de otimizar a saída de um grande modelo de linguagem, de forma que ele faça referência a uma base de conhecimento confiável fora das suas fontes de dados de treinamento antes de gerar uma resposta. Grandes modelos de linguagem (LLMs) são treinados em grandes volumes de dados e usam bilhões de parâmetros para gerar resultados originais para tarefas como responder a perguntas, traduzir idiomas e concluir frases. A RAG estende os já poderosos recursos dos LLMs para domínios específicos ou para a base de conhecimento interna de uma organização sem a necessidade de treinar novamente o modelo. É uma abordagem econômica para melhorar a produção do LLM, de forma que ele permaneça relevante, preciso e útil em vários contextos.
Por que a geração aumentada via recuperação é importante?
O LLM é uma tecnologia fundamental usada pela inteligência artificial (IA) que alimenta chatbots inteligentes e outras aplicações de processamento de linguagem natural (PLN). O objetivo é criar bots que possam responder às perguntas dos usuários em vários contextos, utilizando-se de fontes de conhecimento confiáveis. Infelizmente, a natureza da tecnologia LLM introduz imprevisibilidade nas respostas geradas pelo LLM. Além disso, os dados usados para treinar os LLMs são fixos, o que implica na existência de uma data limite para o conhecimento que podem fornecer.
Os LLMs enfrentam uma série de desafios atualmente, como os seguintes:
- Fornecer informações falsas quando não possuem uma resposta adequada.
- Oferecer informações desatualizadas ou genéricas quando os usuários solicitam respostas específicas e atualizadas.
- Gerar respostas baseadas em fontes não confiáveis.
- Criar respostas imprecisas devido à confusão terminológica, quando diferentes fontes de treinamento utilizam a mesma terminologia para descrever conceitos distintos.
Podemos entender o grande modelo de linguagem (LLM) como um funcionário recém-contratado que opta por ignorar as notícias atuais, mas mesmo assim responde a todas as perguntas com total convicção. Contudo, essa abordagem pode impactar negativamente a confiança dos usuários, o que não é desejável para seus chatbots!
A abordagem RAG pode ser usada para solucionar alguns desses desafios. Ela direciona o LLM a recuperar dados relevantes, provenientes de fontes de conhecimento confiáveis e previamente definidas. Dessa maneira, as organizações ganham mais controle sobre o texto gerado e os usuários entendem melhor sobre o processo de geração de respostas do LLM.
Quais são os benefícios da geração aumentada via recuperação?
O uso da tecnologia de RAG traz diversas vantagens para as iniciativas de IA generativa de uma organização.
Implementação econômica
Geralmente, a criação de chatbots começa com a utilização de um modelo de base. Os modelos de base (FMs) são modelos de ML treinados em um amplo espectro de dados generalizados e não rotulados. Os custos computacionais e financeiros que são necessários para atualizar os FMs com informações específicas da organização ou do domínio são altíssimos. A RAG oferece uma abordagem para incorporar novos dados no LLM que é mais viável economicamente. Isso faz com que a tecnologia de inteligência artificial generativa (IA generativa) seja mais acessível e aplicável em grande escala.
Informações atualizadas
Mesmo que as fontes de dados de treinamento originais de um LLM sejam adequadas às suas necessidades, a manutenção da sua relevância continua sendo desafiadora. A RAG possibilita que desenvolvedores forneçam dados de pesquisa, estatísticas ou notícias mais recentes diretamente aos modelos generativos. Através dessa abordagem, é possível conectar o LLM a feeds de mídia social ao vivo, sites de notícias ou outras fontes de informações atualizadas frequentemente de maneira direta. O LLM então pode fornecer as informações mais recentes aos usuários.
Maior confiança de usuários
Com a tecnologia de RAG, o LLM pode apresentar informações precisas com atribuição de fontes. O resultado pode conter citações ou referências às fontes utilizadas. Os usuários também podem consultar os documentos de origem, caso precisem de mais esclarecimentos ou detalhes. Isso pode aumentar a confiança e credibilidade na sua solução de IA generativa.
Maior controle na etapa de desenvolvimento
A tecnologia de RAG também permite que a equipe de desenvolvimento teste e aprimore os recursos de conversação ou chat de forma mais eficiente. É possível gerenciar e modificar as fontes de informação do LLM para adequá-las a necessidades mutáveis ou para uso multifuncional. A equipe de desenvolvimento tem a capacidade de limitar o acesso a informações sensíveis de acordo com níveis de autorização, assegurando que o LLM produza respostas adequadas. Além disso, podem intervir e realizar correções se o LLM referenciar fontes de informação incorretas para perguntas específicas. As organizações podem adotar a tecnologia de IA generativa com maior segurança para um leque mais vasto de aplicações.