Partager cet article

L'effet DeepSeek-R1 et Web3-AI

Contrairement à la plupart des avancées en matière d’IA générative, la sortie de DeepSeek-R1 comporte de réelles implications et des opportunités intéressantes pour Web3-AI.

Le monde de l’intelligence artificielle (IA) a été pris d’assaut il y a quelques jours par la sortie de DeepSeek-R1, un modèle de raisonnement open source qui égale les performances des meilleurs modèles de base tout en prétendant avoir été construit à l’aide d’un budget de formation remarquablement faible et de nouvelles techniques de post-formation. La sortie de DeepSeek-R1 a non seulement remis en question les idées reçues concernant les lois d’échelle des modèles de base – qui favorisent traditionnellement des budgets de formation massifs – mais elle l’a fait dans le domaine de recherche le plus actif dans ce domaine : le raisonnement.

La nature open source de la version a rendu le modèle facilement accessible à la communauté de l’IA, ce qui a conduit à une vague de clones en quelques heures. De plus, DeepSeek-R1 a laissé son empreinte sur la course à l’IA en cours entre la Chine et les États-Unis, renforçant ce qui est de plus en plus évident : les modèles chinois sont d’une qualité exceptionnelle et parfaitement capables de stimuler l’innovation avec des idées originales.

La Suite Ci-Dessous
Ne manquez pas une autre histoire.Abonnez vous à la newsletter The Node aujourd. Voir Toutes les Newsletters

Contrairement à la plupart des avancées de l’IA générative, qui semblent creuser l’écart entre le Web2 et le Web3 dans le domaine des modèles fondamentaux, la sortie de DeepSeek-R1 comporte de réelles implications et présente des opportunités intéressantes pour l’IA Web3. Pour les évaluer, nous devons d’abord examiner de plus près les innovations et les différenciateurs clés de DeepSeek-R1.

À l'intérieur de DeepSeek-R1

DeepSeek-R1 est le résultat de l'introduction d'innovations progressives dans un cadre de pré-formation bien établi pour les modèles de base. En termes généraux, DeepSeek-R1 suit la même méthodologie de formation que la plupart des modèles de base de haut niveau. Cette approche comprend trois étapes clés :

  1. Pré-formation :Le modèle est initialement pré-entraîné pour prédire le mot suivant en utilisant des quantités massives de données non étiquetées.
  2. Réglage fin supervisé (SFT) :Cette étape optimise le modèle dans deux domaines critiques : suivre les instructions et répondre aux questions.
  3. Alignement avec les préférences Human : Une phase finale de réglage fin est menée pour aligner les réponses du modèle sur les préférences Human .

La plupart des principaux modèles de base, notamment ceux développés par OpenAI, Google et Anthropic, adhèrent à ce même processus général. À un niveau élevé, la procédure de formation de DeepSeek-R1 ne semble pas significativement différente. Cependant, plutôt que de pré-entraîner un modèle de base à partir de zéro, R1 a exploité le modèle de base de son prédécesseur, DeepSeek-v3-base, qui dispose d’un nombre impressionnant de 617 milliards de paramètres.

En substance, DeepSeek-R1 est le résultat de l'application de SFT à DeepSeek-v3-base avec un ensemble de données de raisonnement à grande échelle. La véritable innovation réside dans la construction de ces ensembles de données de raisonnement, qui sont notoirement difficiles à construire.

Première étape : DeepSeek-R1-Zero

ONEun des aspects les plus importants de DeepSeek-R1 est que le processus n’a pas produit un seul modèle, mais deux. L’innovation la plus significative de DeepSeek-R1 a peut-être été la création d’un modèle intermédiaire appelé R1-Zero, spécialisé dans les tâches de raisonnement. Ce modèle a été formé presque entièrement à l’aide de l’apprentissage par renforcement, avec une dépendance minimale aux données étiquetées.

L'apprentissage par renforcement est une technique dans laquelle un modèle est récompensé pour avoir généré des réponses correctes, lui permettant de généraliser ses connaissances au fil du temps.

R1-Zero est assez impressionnant, car il a pu égaler GPT-o1 dans les tâches de raisonnement. Cependant, le modèle a eu du mal à réaliser des tâches plus générales telles que la réponse aux questions et la lisibilité. Cela dit, l’objectif de R1-Zero n’a jamais été de créer un modèle généraliste, mais plutôt de démontrer qu’il est possible d’atteindre des capacités de raisonnement de pointe en utilisant uniquement l’apprentissage par renforcement – même si le modèle n’est pas très performant dans d’autres domaines.

Deuxième étape : DeepSeek-R1

DeepSeek-R1 a été conçu pour être un modèle polyvalent qui excelle dans le raisonnement, ce qui signifie qu'il devait surpasser R1-Zero. Pour y parvenir, DeepSeek a recommencé avec son modèle v3, mais cette fois, il l'a affiné sur un petit ensemble de données de raisonnement.

Comme mentionné précédemment, les ensembles de données de raisonnement sont difficiles à produire. C'est là que R1-Zero a joué un rôle crucial. Le modèle intermédiaire a été utilisé pour générer un ensemble de données de raisonnement synthétique, qui a ensuite été utilisé pour affiner DeepSeek v3. Ce processus a donné lieu à un autre modèle de raisonnement intermédiaire, qui a ensuite été soumis à une phase d'apprentissage par renforcement approfondie à l'aide d'un ensemble de données de 600 000 échantillons, également générés par R1-Zero. Le résultat final de ce processus a été DeepSeek-R1.

Bien que j’aie omis plusieurs détails techniques du processus de pré-formation R1, voici les deux principaux points à retenir :

  1. R1-Zero a démontré qu'il est possible de développer des capacités de raisonnement sophistiquées en utilisant l'apprentissage par renforcement de base. Bien que R1-Zero ne soit pas un modèle généraliste solide, il a réussi à générer les données de raisonnement nécessaires à R1.
  2. R1 a étendu le pipeline de pré-formation traditionnel utilisé par la plupart des modèles de base en incorporant R1-Zero dans le processus. De plus, il a exploité une quantité importante de données de raisonnement synthétique générées par R1-Zero.

En conséquence, DeepSeek-R1 est apparu comme un modèle correspondant aux capacités de raisonnement de GPT-o1 tout en étant construit à l’aide d’un processus de pré-formation plus simple et probablement beaucoup moins cher.

Tout le monde s’accorde à dire que R1 marque une étape importante dans l’histoire de l’IA générative, une ONE qui va probablement remodeler la manière dont les modèles de base sont développés. En ce qui concerne le Web3, il sera intéressant d’explorer comment R1 influence l’évolution du paysage de l’IA Web3.

DeepSeek-R1 et Web3-AI

Jusqu’à présent, Web3 a eu du mal à établir des cas d’utilisation convaincants qui ajoutent clairement de la valeur à la création et à l’utilisation des modèles de base. Dans une certaine mesure, le flux de travail traditionnel de pré-formation des modèles de base semble être l’antithèse des architectures Web3. Cependant, bien qu’il n’en soit qu’à ses débuts, la sortie de DeepSeek-R1 a mis en évidence plusieurs opportunités qui pourraient naturellement s’aligner sur les architectures Web3-AI.

1) Apprentissage par renforcement Réseaux de réglage fin

R1-Zero a démontré qu'il est possible de développer des modèles de raisonnement en utilisant l'apprentissage par renforcement pur. D'un point de vue informatique, l'apprentissage par renforcement est hautement parallélisable, ce qui le rend particulièrement adapté aux réseaux décentralisés. Imaginez un réseau Web3 dans lequel les nœuds sont rémunérés pour affiner un modèle sur des tâches d'apprentissage par renforcement, chacun appliquant des stratégies différentes. Cette approche est bien plus réalisable que d'autres paradigmes de pré-entraînement qui nécessitent des topologies GPU complexes et une infrastructure centralisée.

2) Génération d'un ensemble de données de raisonnement synthétique

Une autre contribution essentielle de DeepSeek-R1 a été de mettre en évidence l’importance des ensembles de données de raisonnement générés de manière synthétique pour les tâches cognitives. Ce processus est également bien adapté à un réseau décentralisé, où les nœuds exécutent des tâches de génération d’ensembles de données et sont rémunérés lorsque ces ensembles de données sont utilisés pour le pré-entraînement ou le réglage fin des modèles de base. Étant donné que ces données sont générées de manière synthétique, l’ensemble du réseau peut être entièrement automatisé sans intervention Human , ce qui en fait un choix idéal pour les architectures Web3.

3) Inférence décentralisée pour les petits modèles de raisonnement distillés

DeepSeek-R1 est un modèle massif avec 671 milliards de paramètres. Cependant, presque immédiatement après sa sortie, une vague de modèles de raisonnement distillés a émergé, allant de 1,5 à 70 milliards de paramètres. Ces modèles plus petits sont nettement plus pratiques pour l'inférence dans les réseaux décentralisés. Par exemple, un modèle R1 distillé de 1,5 à 2 milliards de paramètres pourrait être intégré dans un protocole DeFi ou déployé dans les nœuds d'un réseau DePIN. Plus simplement, nous sommes susceptibles d'assister à l'émergence de points de terminaison d'inférence de raisonnement rentables alimentés par des réseaux de calcul décentralisés. Le raisonnement est un domaine dans lequel l'écart de performance entre les petits et les grands modèles se réduit, créant une opportunité unique pour le Web3 d'exploiter efficacement ces modèles distillés dans des paramètres d'inférence décentralisés.

4) Raisonnement Provenance des données

ONEune des caractéristiques déterminantes des modèles de raisonnement est leur capacité à générer des traces de raisonnement pour une tâche donnée. DeepSeek-R1 met ces traces à disposition dans le cadre de ses résultats d'inférence, renforçant l'importance de la provenance et de la traçabilité pour les tâches de raisonnement. Aujourd'hui, Internet fonctionne principalement sur la base de résultats, avec peu de visibilité sur les étapes intermédiaires qui conduisent à ces résultats. Le Web3 offre la possibilité de suivre et de vérifier chaque étape de raisonnement, créant potentiellement un « nouvel Internet du raisonnement » où la transparence et la vérifiabilité deviennent la norme.

L'IA Web3 a une chance à l'ère du raisonnement post-R1

La sortie de DeepSeek-R1 a marqué un tournant dans l’évolution de l’IA générative. En combinant des innovations intelligentes avec des paradigmes de pré-formation établis, elle a remis en question les flux de travail de l’IA traditionnels et ouvert une nouvelle ère dans l’IA centrée sur le raisonnement. Contrairement à de nombreux modèles fondateurs précédents, DeepSeek-R1 introduit des éléments qui rapprochent l’IA générative du Web3.

Les aspects clés de R1 – les jeux de données de raisonnement synthétique, une formation plus parallélisable et le besoin croissant de traçabilité – s’alignent naturellement sur les principes du Web3. Alors que l’IA Web3 a du mal à gagner du terrain, cette nouvelle ère de raisonnement post-R1 pourrait représenter la meilleure opportunité pour le Web3 de jouer un rôle plus important dans l’avenir de l’IA.

Remarque : Les opinions exprimées dans cette colonne sont celles de l'auteur et ne reflètent pas nécessairement celles de CoinDesk, Inc. ou de ses propriétaires et affiliés.

Jesus Rodriguez