- Volver al menú
- Volver al menúPrecios
- Volver al menúInvestigación
- Volver al menú
- Volver al menú
- Volver al menú
- Volver al menúInvestigación
El efecto DeepSeek-R1 y Web3-AI
A diferencia de la mayoría de los avances en IA generativa, el lanzamiento de DeepSeek-R1 conlleva implicaciones reales y oportunidades intrigantes para Web3-AI.
El mundo de la inteligencia artificial (IA) fue arrasado hace unos días con el lanzamiento de DeepSeek-R1, un modelo de razonamiento de código abierto que iguala el rendimiento de los mejores modelos básicos y al mismo tiempo afirma haber sido creado utilizando un presupuesto de entrenamiento notablemente bajo y técnicas novedosas de post-entrenamiento. El lanzamiento de DeepSeek-R1 no solo desafió la sabiduría convencional en torno a las leyes de escala de los modelos básicos, que tradicionalmente favorecen presupuestos de entrenamiento masivos, sino que lo hizo en el área de investigación más activa en el campo: el razonamiento.
La naturaleza de pesos abiertos (en contraposición a la de código abierto) del lanzamiento hizo que el modelo fuera fácilmente accesible para la comunidad de IA, lo que llevó a una oleada de clones en cuestión de horas. Además, DeepSeek-R1 dejó su marca en la actual carrera de IA entre China y Estados Unidos, reforzando lo que ha sido cada vez más evidente: los modelos chinos son de una calidad excepcionalmente alta y totalmente capaces de impulsar la innovación con ideas originales.
A diferencia de la mayoría de los avances en IA generativa, que parecen ampliar la brecha entre la Web2 y la Web3 en el ámbito de los modelos básicos, el lanzamiento de DeepSeek-R1 conlleva implicaciones reales y presenta oportunidades interesantes para la Web3-IA. Para evaluarlas, primero debemos analizar más de cerca las innovaciones y los diferenciadores clave de DeepSeek-R1.
Dentro de DeepSeek-R1
DeepSeek-R1 fue el resultado de la introducción de innovaciones incrementales en un marco de preentrenamiento bien establecido para modelos básicos. En términos generales, DeepSeek-R1 sigue la misma metodología de entrenamiento que la mayoría de los modelos básicos de alto perfil. Este enfoque consta de tres pasos clave:
- Preentrenamiento:El modelo está inicialmente entrenado para predecir la siguiente palabra utilizando cantidades masivas de datos sin etiquetar.
- Ajuste fino supervisado (SFT):Este paso optimiza el modelo en dos áreas críticas: seguir instrucciones y responder preguntas.
- Alineación con las preferencias Human : Se lleva a cabo una fase final de ajuste para alinear las respuestas del modelo con las preferencias Human .
La mayoría de los modelos básicos más importantes, incluidos los desarrollados por OpenAI, Google y Anthropic, se adhieren a este mismo proceso general. A un alto nivel, el procedimiento de entrenamiento de DeepSeek-R1 no parece significativamente diferente. Sin embargo, en lugar de entrenar previamente un modelo base desde cero, R1 aprovechó el modelo base de su predecesor, DeepSeek-v3-base, que cuenta con unos impresionantes 617 mil millones de parámetros.
En esencia, DeepSeek-R1 es el resultado de aplicar SFT a DeepSeek-v3-base con un conjunto de datos de razonamiento a gran escala. La verdadera innovación radica en la construcción de estos conjuntos de datos de razonamiento, que son notoriamente difíciles de construir.
Primer paso: DeepSeek-R1-Zero
ONE de los aspectos más importantes de DeepSeek-R1 es que el proceso no produjo un único modelo, sino dos. Quizás la innovación más significativa de DeepSeek-R1 fue la creación de un modelo intermedio llamado R1-Zero, que está especializado en tareas de razonamiento. Este modelo se entrenó casi en su totalidad mediante aprendizaje de refuerzo, con una dependencia mínima de los datos etiquetados.
El aprendizaje por refuerzo es una técnica en la que se recompensa a un modelo por generar respuestas correctas, lo que le permite generalizar el conocimiento a lo largo del tiempo.
R1-Zero es bastante impresionante, ya que pudo igualar a GPT-o1 en tareas de razonamiento. Sin embargo, el modelo tuvo dificultades con tareas más generales, como la respuesta a preguntas y la legibilidad. Dicho esto, el propósito de R1-Zero nunca fue crear un modelo generalista, sino demostrar que es posible lograr capacidades de razonamiento de vanguardia utilizando solo el aprendizaje de refuerzo, incluso si el modelo no funciona bien en otras áreas.
Segundo paso: DeepSeek-R1
DeepSeek-R1 fue diseñado para ser un modelo de propósito general que se destaca en el razonamiento, lo que significa que necesitaba superar a R1-Zero. Para lograrlo, DeepSeek comenzó una vez más con su modelo v3, pero esta vez lo afinó en un pequeño conjunto de datos de razonamiento.
Como se mencionó anteriormente, los conjuntos de datos de razonamiento son difíciles de producir. Aquí es donde R1-Zero jugó un papel crucial. El modelo intermedio se utilizó para generar un conjunto de datos de razonamiento sintético, que luego se utilizó para ajustar DeepSeek v3. Este proceso dio como resultado otro modelo de razonamiento intermedio, que posteriormente se sometió a una extensa fase de aprendizaje de refuerzo utilizando un conjunto de datos de 600.000 muestras, también generado por R1-Zero. El resultado final de este proceso fue DeepSeek-R1.
Si bien he omitido varios detalles técnicos del proceso de preentrenamiento R1, aquí están las dos conclusiones principales:
- R1-Zero demostró que es posible desarrollar capacidades de razonamiento sofisticadas mediante el aprendizaje de refuerzo básico. Aunque R1-Zero no era un modelo generalista fuerte, generó con éxito los datos de razonamiento necesarios para R1.
- R1 amplió el proceso de preentrenamiento tradicional que utilizan la mayoría de los modelos básicos al incorporar R1-Zero al proceso. Además, aprovechó una cantidad significativa de datos de razonamiento sintético generados por R1-Zero.
Como resultado, DeepSeek-R1 surgió como un modelo que coincidía con las capacidades de razonamiento de GPT-o1 y al mismo tiempo se construyó utilizando un proceso de preentrenamiento más simple y probablemente significativamente más económico.
Todo el mundo está de acuerdo en que R1 marca un hito importante en la historia de la IA generativa, que probablemente cambiará la forma en que se desarrollan los modelos básicos. En lo que respecta a la Web3, será interesante explorar cómo R1 influye en el panorama cambiante de la IA generativa.
DeepSeek-R1 y Web3-AI
Hasta ahora, Web3 ha tenido dificultades para establecer casos de uso atractivos que agreguen valor claramente a la creación y utilización de modelos básicos. Hasta cierto punto, el flujo de trabajo tradicional para el preentrenamiento de modelos básicos parece ser la antítesis de las arquitecturas Web3. Sin embargo, a pesar de estar en sus primeras etapas, el lanzamiento de DeepSeek-R1 ha resaltado varias oportunidades que podrían alinearse naturalmente con las arquitecturas Web3-AI.
1) Redes de ajuste fino mediante aprendizaje de refuerzo
R1-Zero demostró que es posible desarrollar modelos de razonamiento utilizando aprendizaje de refuerzo puro. Desde un punto de vista computacional, el aprendizaje de refuerzo es altamente paralelizable, lo que lo hace adecuado para redes descentralizadas. Imagine una red Web3 donde los nodos reciben una compensación por ajustar un modelo en tareas de aprendizaje de refuerzo, y cada uno aplica estrategias diferentes. Este enfoque es mucho más factible que otros paradigmas de preentrenamiento que requieren topologías de GPU complejas e infraestructura centralizada.
2) Generación de conjuntos de datos de razonamiento sintético
Otra contribución clave de DeepSeek-R1 fue mostrar la importancia de los conjuntos de datos de razonamiento generados sintéticamente para las tareas cognitivas. Este proceso también es adecuado para una red descentralizada, donde los nodos ejecutan trabajos de generación de conjuntos de datos y reciben una compensación a medida que estos conjuntos de datos se utilizan para el preentrenamiento o el ajuste fino de los modelos de base. Dado que estos datos se generan sintéticamente, toda la red se puede automatizar por completo sin intervención Human , lo que la convierte en una opción ideal para las arquitecturas Web3.
3) Inferencia descentralizada para modelos de razonamiento destilados pequeños
DeepSeek-R1 es un modelo masivo con 671 mil millones de parámetros. Sin embargo, casi inmediatamente después de su lanzamiento, surgió una ola de modelos de razonamiento destilado, que van desde 1.5 a 70 mil millones de parámetros. Estos modelos más pequeños son significativamente más prácticos para la inferencia en redes descentralizadas. Por ejemplo, un modelo R1 destilado de 1.500 a 2.000 millones de parámetros podría integrarse en un protocolo DeFi o implementarse dentro de los nodos de una red DePIN. En términos más simples, es probable que veamos el surgimiento de puntos finales de inferencia de razonamiento rentables impulsados por redes informáticas descentralizadas. El razonamiento es un dominio en el que la brecha de rendimiento entre los modelos pequeños y grandes se está reduciendo, lo que crea una oportunidad única para que Web3 aproveche de manera eficiente estos modelos destilados en entornos de inferencia descentralizados.
4) Razonamiento de la procedencia de los datos
Una de las características que definen a los modelos de razonamiento es su capacidad de generar rastros de razonamiento para una tarea determinada. DeepSeek-R1 pone a disposición estos rastros como parte de su resultado de inferencia, lo que refuerza la importancia de la procedencia y la trazabilidad para las tareas de razonamiento. En la actualidad, Internet funciona principalmente con resultados, con poca visibilidad de los pasos intermedios que conducen a esos resultados. La Web3 presenta una oportunidad de rastrear y verificar cada paso del razonamiento, creando potencialmente una "nueva Internet del razonamiento" donde la transparencia y la verificabilidad se convierten en la norma.
Web3-AI tiene una oportunidad en la era del razonamiento posterior a R1
El lanzamiento de DeepSeek-R1 ha marcado un punto de inflexión en la evolución de la IA generativa. Al combinar innovaciones inteligentes con paradigmas de preentrenamiento establecidos, ha desafiado los flujos de trabajo de IA tradicionales y ha abierto una nueva era en la IA centrada en el razonamiento. A diferencia de muchos modelos básicos anteriores, DeepSeek-R1 introduce elementos que acercan la IA generativa a la Web3.
Los aspectos clave de R1 (conjuntos de datos de razonamiento sintético, entrenamiento más paralelizable y la creciente necesidad de trazabilidad) se alinean naturalmente con los principios de Web3. Si bien Web3-AI ha tenido dificultades para ganar tracción significativa, esta nueva era de razonamiento posterior a R1 puede presentar la mejor oportunidad hasta ahora para que Web3 desempeñe un papel más importante en el futuro de la IA.
Nota: Las opiniones expresadas en esta columna son las del autor y no necesariamente reflejan las de CoinDesk, Inc. o sus propietarios y afiliados.