DeepSeek: O que é e por que está chamando tanta atenção?

Novo modelo chinês promete desempenho de ponta com custo reduzido em comparação a modelos proprietários

fev 01, 2025

∙ Pago

A área dos grandes modelos de linguagem (LLMs) tem evoluído rapidamente, aproximando-se cada vez mais de um nível avançado de inteligência.

Na semana passada, um novo modelo de IA ganhou muito destaque. DeepSeek-R1, desenvolvido pela startup chinesa DeepSeek, é um modelo inovador que fortalece suas capacidades de raciocínio através do aprendizado por reforço (RL), sem depender exclusivamente do ajuste fino supervisionado.

O modelo mantém performance comparável aos modelos mais avançados em tarefas complexas de raciocínio e codificação, como o OpenAI-o1, com um custo de treinamento muito menor.

Além disso, os modelos da empresa são de código aberto, democratizando o acesso à IA e abrindo portas para pesquisas e para pequenas empresas e pesquisa.

Afinal, o que é o DeepSeek?

O modelo que está se destacando nas mídias é o DeepSeek-R1, um modelo que tem como objetivo aprimorar a capacidade de raciocínio dos LLMs utilizando um treinamento em múltiplas etapas.

Seu predecessor, o DeepSeek-R1-Zero, foi treinado diretamente via aprendizado por reforço em larga escala RL, sem o ajuste fino supervisionado (SFT) como etapa preliminar, já demonstrando capacidades de raciocínio notáveis. Embora o DeepSeek-R1-Zero tenha desenvolvido comportamentos poderosos e intrigantes de raciocínio, apresentou desafios como baixa legibilidade e mistura de idiomas.

Para solucionar esses problemas e aprimorar ainda mais o desempenho do raciocínio, o DeepSeek-R1 introduziu uma abordagem refinada, incluindo um "cold start" com dados iniciais e um treinamento supervisionado intermediário.

Principais Diferenciais do DeepSeek-R1

A seguir, vamos ver as principais características do DeepSeek.

Aprendizado por Reforço Puro
- O DeepSeek-R1-Zero mostrou que um modelo pode desenvolver habilidades de raciocínio sem necessidade de ajuste fino supervisionado. Isso significa que o modelo aprende a pensar por conta própria, seguindo incentivos de recompensa.
Pipeline de Treinamento Multi-Estágios
- Já o DeepSeek-R1 inicia seu treinamento com um pequeno conjunto de dados de alta qualidade para evitar oscilações iniciais no RL. Em seguida, passa por múltiplos estágios de RL e ajuste fino supervisionado.
Distilação para Modelos Menores
- O DeepSeek-R1 também foi utilizado para destilação do seu conhecimento para modelos menores, como versões baseadas em Qwen e Llama. Isso possibilita modelos mais eficientes, sem perder a capacidade de raciocínio.

Resultados

Nos benchmarks de raciocínio, o DeepSeek-R1 atingiu resultados comparáveis ao OpenAI-o1-1217, demonstrando excelência em tarefas como matemática, codificação e conhecimento geral.

Ele também obteve 97,3% no MATH-500 e se destacou em competições de programação, superando 96,3% dos participantes no Codeforces.

Performance de benchmark do **DeepSeek-R1. Fonte: https://arxiv.org/pdf/2501.12948.**

Na figura acima, podemos ver o desempenho do DeepSeek-R1 em comparação com outros modelos em diversos benchmarks, onde podemos ver que obteve resultados similares ao modelo OpenAI-o1, com resultados melhores em 3 de 6 avaliações.

Já no ChatbotArena, uma plataforma na web onde podemos comparar vários LLMs em batalhas interativas, o DeepSeek-R1 aparece em 3o. lugar empatado com o ChatGPT-4o-latest (ficando atrás apenas dos poderosos Gemini-Exp da Google).

Como executar localmente o DeepSeek?

Para executar o DeepSeek no nosso computador, sem a necessidade de GPUs, podemos usar um modelo destilado com menos parâmetros.

Continue a ler com uma experiência gratuita de 7 dias

Subscreva a Explorando a Inteligência Artificial para continuar a ler este post e obtenha 7 dias de acesso gratuito ao arquivo completo de posts.