RAG Multimodal na Prática com Modelos Open-source

nov 08, 2025

∙ Pago

No nosso último post, vimos sobre os modelos multimodais, que integram várias modalidades em uma única representação para realizar tarefas complexas.

Inclusive, se você é um assinante pago, teve acesso a um exemplo prático de como gerar imagens usando um modelo open-source no Google Colab.

No artigo de hoje, vamos ver como criar um sistema de RAG multimodal onde nosso assistente vai interagir com uma base de dados de imagens.

Para mais novidades de IA, me siga no Linkedin e no Instagram ❤

O que é RAG

O RAG tradicional é um processo que envolve:

Recuperação (Retrieval): o sistema busca informações relevantes em uma base de conhecimento (documentos, artigos, PDFs, etc.).
Geração (Generation): um modelo de linguagem usa essas informações como contexto para produzir uma resposta.

Essa abordagem permite que o modelo acesse informações atualizadas, sem depender apenas do que foi aprendido durante o treinamento (veja como criar um chatbot com RAG).

E o que muda no RAG Multimodal?

O RAG multimodal amplia essa ideia, permitindo buscar e raciocinar sobre diferentes tipos de dados, como imagens, sons e vídeos.

Imagine que você envie uma foto de uma radiografia e pergunte:

“O que essa imagem indica sobre o pulmão esquerdo?”

Um sistema RAG multimodal pode:

Usar um modelo de visão para entender a imagem;
Buscar em uma base de dados médica casos semelhantes;
E finalmente, gerar uma resposta textual explicativa, combinando o contexto recuperado com a análise visual.

Exemplo prático

Vamos colocar a mão na massa e criar nosso RAG multimodal!

O código completo que roda no Google Colab pode ser baixado na nossa página de Notebooks.

Nosso RAG multimodal vai ser construído combinando dois modelos:

Continue a ler com uma experiência gratuita de 7 dias

Subscreva a Explorando a Inteligência Artificial para continuar a ler este post e obtenha 7 dias de acesso gratuito ao arquivo completo de posts.