- Voltar ao menu
- Voltar ao menuPreços
- Voltar ao menuPesquisar
- Voltar ao menuConsenso
- Voltar ao menu
- Voltar ao menu
- Voltar ao menu
- Voltar ao menuWebinars e Eventos
O efeito DeepSeek-R1 e Web3-AI
Ao contrário da maioria dos avanços em IA generativa, o lançamento do DeepSeek-R1 traz implicações reais e oportunidades intrigantes para a Web3-AI.
O mundo da inteligência artificial (IA) foi tomado de assalto há alguns dias com o lançamento do DeepSeek-R1, um modelo de raciocínio de código aberto que corresponde ao desempenho dos principais modelos de base, ao mesmo tempo em que afirma ter sido construído usando um orçamento de treinamento notavelmente baixo e novas técnicas de pós-treinamento. O lançamento do DeepSeek-R1 não apenas desafiou a sabedoria convencional em torno das leis de escala dos modelos de base — que tradicionalmente favorecem orçamentos de treinamento massivos — mas o fez na área de pesquisa mais ativa no campo: raciocínio.
A natureza de pesos abertos (em oposição ao código aberto) do lançamento tornou o modelo prontamente acessível à comunidade de IA, levando a uma onda de clones em poucas horas. Além disso, o DeepSeek-R1 deixou sua marca na corrida de IA em andamento entre a China e os Estados Unidos, reforçando o que tem sido cada vez mais evidente: os modelos chineses são de qualidade excepcionalmente alta e totalmente capazes de impulsionar a inovação com ideias originais.
Ao contrário da maioria dos avanços em IA generativa, que parecem ampliar a lacuna entre Web2 e Web3 no reino dos modelos de fundação, o lançamento do DeepSeek-R1 traz implicações reais e apresenta oportunidades intrigantes para a Web3-AI. Para avaliar isso, precisamos primeiro dar uma olhada mais de perto nas principais inovações e diferenciadores do DeepSeek-R1.
Dentro do DeepSeek-R1
O DeepSeek-R1 foi o resultado da introdução de inovações incrementais em uma estrutura de pré-treinamento bem estabelecida para modelos de fundação. Em termos gerais, o DeepSeek-R1 segue a mesma metodologia de treinamento da maioria dos modelos de fundação de alto perfil. Essa abordagem consiste em três etapas principais:
- Pré-treinamento:O modelo é inicialmente pré-treinado para prever a próxima palavra usando grandes quantidades de dados não rotulados.
- Ajuste fino supervisionado (SFT):Esta etapa otimiza o modelo em duas áreas críticas: seguir instruções e responder perguntas.
- Alinhamento com as preferências Human : Uma fase final de ajuste fino é conduzida para alinhar as respostas do modelo com as preferências Human .
A maioria dos principais modelos de fundação – incluindo aqueles desenvolvidos pela OpenAI, Google e Anthropic – aderem a esse mesmo processo geral. Em um alto nível, o procedimento de treinamento do DeepSeek-R1 não parece significativamente diferente. Mas, em vez de pré-treinar um modelo base do zero, o R1 alavancou o modelo base de seu predecessor, o DeepSeek-v3-base, que ostenta impressionantes 617 bilhões de parâmetros.
Em essência, o DeepSeek-R1 é o resultado da aplicação do SFT ao DeepSeek-v3-base com um conjunto de dados de raciocínio em larga escala. A verdadeira inovação está na construção desses conjuntos de dados de raciocínio, que são notoriamente difíceis de construir.
Primeiro passo: DeepSeek-R1-Zero
Um dos aspectos mais importantes do DeepSeek-R1 é que o processo não produziu apenas um modelo, mas dois. Talvez a inovação mais significativa do DeepSeek-R1 tenha sido a criação de um modelo intermediário chamado R1-Zero, especializado em tarefas de raciocínio. Este modelo foi treinado quase inteiramente usando aprendizado por reforço, com dependência mínima de dados rotulados.
Aprendizagem por reforço é uma técnica na qual um modelo é recompensado por gerar respostas corretas, permitindo que ele generalize o conhecimento ao longo do tempo.
O R1-Zero é bastante impressionante, pois foi capaz de igualar o GPT-o1 em tarefas de raciocínio. No entanto, o modelo teve dificuldades com tarefas mais gerais, como responder a perguntas e legibilidade. Dito isso, o propósito do R1-Zero nunca foi criar um modelo generalista, mas sim demonstrar que é possível atingir capacidades de raciocínio de ponta usando apenas aprendizado por reforço – mesmo que o modelo não tenha um bom desempenho em outras áreas.
Segundo passo: DeepSeek-R1
O DeepSeek-R1 foi projetado para ser um modelo de propósito geral que se destaca no raciocínio, o que significa que ele precisava superar o R1-Zero. Para conseguir isso, o DeepSeek começou mais uma vez com seu modelo v3, mas, dessa vez, ele o ajustou em um pequeno conjunto de dados de raciocínio.
Conforme mencionado anteriormente, conjuntos de dados de raciocínio são difíceis de produzir. É aqui que o R1-Zero desempenhou um papel crucial. O modelo intermediário foi usado para gerar um conjunto de dados de raciocínio sintético, que foi então usado para ajustar o DeepSeek v3. Este processo resultou em outro modelo de raciocínio intermediário, que foi posteriormente submetido a uma extensa fase de aprendizado por reforço usando um conjunto de dados de 600.000 amostras, também gerado pelo R1-Zero. O resultado final deste processo foi o DeepSeek-R1.
Embora eu tenha omitido vários detalhes técnicos do processo de pré-treinamento R1, aqui estão as duas principais conclusões:
- R1-Zero demonstrou que é possível desenvolver capacidades de raciocínio sofisticadas usando aprendizado básico por reforço. Embora R1-Zero não fosse um modelo generalista forte, ele gerou com sucesso os dados de raciocínio necessários para R1.
- O R1 expandiu o pipeline de pré-treinamento tradicional usado pela maioria dos modelos de fundação ao incorporar o R1-Zero ao processo. Além disso, ele alavancou uma quantidade significativa de dados de raciocínio sintético gerados pelo R1-Zero.
Como resultado, o DeepSeek-R1 surgiu como um modelo que correspondia às capacidades de raciocínio do GPT-o1, ao mesmo tempo em que era construído usando um processo de pré-treinamento mais simples e provavelmente significativamente mais barato.
Todos concordam que o R1 marca um marco importante na história da IA generativa, um que provavelmente remodelará a maneira como os modelos de fundação são desenvolvidos. Quando se trata do Web3, será interessante explorar como o R1 influencia o cenário em evolução do Web3-AI.
DeepSeek-R1 e Web3-AI
Até agora, o Web3 tem lutado para estabelecer casos de uso convincentes que claramente adicionem valor à criação e utilização de modelos de fundação. Até certo ponto, o fluxo de trabalho tradicional para pré-treinamento de modelos de fundação parece ser a antítese das arquiteturas Web3. No entanto, apesar de estar em seus estágios iniciais, o lançamento do DeepSeek-R1 destacou várias oportunidades que poderiam se alinhar naturalmente com as arquiteturas Web3-AI.
1) Redes de ajuste fino de aprendizagem por reforço
R1-Zero demonstrou que é possível desenvolver modelos de raciocínio usando aprendizado de reforço puro. De um ponto de vista computacional, o aprendizado de reforço é altamente paralelizável, tornando-o bem adequado para redes descentralizadas. Imagine uma rede Web3 onde os nós são compensados para ajustar um modelo em tarefas de aprendizado de reforço, cada um aplicando estratégias diferentes. Essa abordagem é muito mais viável do que outros paradigmas de pré-treinamento que exigem topologias de GPU complexas e infraestrutura centralizada.
2) Geração de conjunto de dados de raciocínio sintético
Outra contribuição fundamental do DeepSeek-R1 foi mostrar a importância de conjuntos de dados de raciocínio gerados sinteticamente para tarefas cognitivas. Esse processo também é bem adequado para uma rede descentralizada, onde os nós executam trabalhos de geração de conjuntos de dados e são compensados conforme esses conjuntos de dados são usados para pré-treinamento ou ajuste fino de modelos de base. Como esses dados são gerados sinteticamente, toda a rede pode ser totalmente automatizada sem intervenção Human , tornando-a ideal para arquiteturas Web3.
3) Inferência descentralizada para pequenos modelos de raciocínio destilado
DeepSeek-R1 é um modelo massivo com 671 bilhões de parâmetros. No entanto, quase imediatamente após seu lançamento, uma onda de modelos de raciocínio destilados surgiu, variando de 1,5 a 70 bilhões de parâmetros. Esses modelos menores são significativamente mais práticos para inferência em redes descentralizadas. Por exemplo, um modelo R1 destilado de 1,5B–2B poderia ser incorporado em um protocolo DeFi ou implantado em nós de uma rede DePIN. Mais simplesmente, é provável que vejamos o surgimento de endpoints de inferência de raciocínio com boa relação custo-benefício alimentados por redes de computação descentralizadas. O raciocínio é um domínio em que a lacuna de desempenho entre modelos pequenos e grandes está diminuindo, criando uma oportunidade única para a Web3 alavancar com eficiência esses modelos destilados em configurações de inferência descentralizadas.
4) Raciocínio Proveniência dos dados
Uma das características definidoras dos modelos de raciocínio é sua capacidade de gerar rastros de raciocínio para uma determinada tarefa. O DeepSeek-R1 disponibiliza esses rastros como parte de sua saída de inferência, reforçando a importância da procedência e rastreabilidade para tarefas de raciocínio. A internet hoje opera principalmente em saídas, com pouca visibilidade nas etapas intermediárias que levam a esses resultados. A Web3 apresenta uma oportunidade de rastrear e verificar cada etapa do raciocínio, potencialmente criando uma "nova internet do raciocínio" onde transparência e verificabilidade se tornam a norma.
Web3-AI tem uma chance na era do raciocínio pós-R1
O lançamento do DeepSeek-R1 marcou um ponto de virada na evolução da IA generativa. Ao combinar inovações inteligentes com paradigmas de pré-treinamento estabelecidos, ele desafiou os fluxos de trabalho tradicionais de IA e abriu uma nova era na IA focada no raciocínio. Ao contrário de muitos modelos de fundação anteriores, o DeepSeek-R1 introduz elementos que aproximam a IA generativa da Web3.
Aspectos-chave do R1 – conjuntos de dados de raciocínio sintético, treinamento mais paralelizável e a crescente necessidade de rastreabilidade – alinham-se naturalmente com os princípios do Web3. Enquanto o Web3-AI tem lutado para ganhar tração significativa, esta nova era de raciocínio pós-R1 pode apresentar a melhor oportunidade até agora para o Web3 desempenhar um papel mais significativo no futuro da IA.
Nota: As opiniões expressas nesta coluna são do autor e não refletem necessariamente as da CoinDesk, Inc. ou de seus proprietários e afiliados.
Jesus Rodriguez
Jesus Rodriguez é o CEO e cofundador da IntoTheBlock, uma plataforma focada em habilitar inteligência de mercado e soluções DeFi institucionais para Mercados de Cripto . Ele também é o cofundador e presidente da Faktory, uma plataforma de IA generativa para aplicativos empresariais e de consumo. Jesus também fundou a The Sequence, uma das Newsletters de IA mais populares do mundo. Além de seu trabalho operacional, Jesus é palestrante convidado na Columbia University e na Wharton Business School e é um escritor e palestrante muito ativo.
