Logo
Share this article

Ефект DeepSeek-R1 і Web3-AI

На відміну від більшості досягнень у генеративному штучному інтелекті, випуск DeepSeek-R1 має реальні наслідки та інтригуючі можливості для Web3-AI.

Світ штучного інтелекту (ШІ) був захоплений штурмом кілька днів тому з випуском DeepSeek-R1, моделі міркування з відкритим кодом, яка відповідає продуктивності найкращих базових моделей, але стверджує, що була створена з використанням надзвичайно низького бюджету на навчання та нові методики після тренування. Випуск DeepSeek-R1 не лише кинув виклик загальноприйнятій думці про закони масштабування базових моделей, які традиційно віддають перевагу великим бюджетам на навчання, але й зробив це в найбільш активній галузі досліджень у цій галузі: міркуванні.

Відкритий характер випуску (на відміну від відкритого вихідного коду) зробив модель легкодоступною для спільноти штучного інтелекту, що призвело до сплеску клонів протягом кількох годин. Крім того, DeepSeek-R1 залишив свій слід у поточній гонці ШІ між Китаєм і Сполученими Штатами, підкріплюючи те, що стає все більш очевидним: китайські моделі мають винятково високу якість і цілком здатні стимулювати інновації завдяки оригінальним ідеям.

STORY CONTINUES BELOW
Don't miss another story.Subscribe to the The Node Newsletter today. See all newsletters

На відміну від більшості досягнень у генеративному штучному інтелекті, які, здається, збільшують розрив між Web2 і Web3 у сфері базових моделей, випуск DeepSeek-R1 має реальні наслідки та відкриває інтригуючі можливості для Web3-AI. Щоб оцінити їх, ми повинні спочатку ближче розглянути ключові інновації та відмінності DeepSeek-R1.

Всередині DeepSeek-R1

DeepSeek-R1 став результатом впровадження поступових інновацій у добре налагоджену структуру попереднього навчання для основних моделей. У широкому сенсі DeepSeek-R1 використовує ту саму методику навчання, що й більшість популярних моделей основи. Цей підхід складається з трьох ключових кроків:

  1. Попередня підготовка: Модель спочатку попередньо навчена передбачати наступне слово, використовуючи величезну кількість немаркованих даних.
  2. Контрольована точна настройка (SFT): Цей крок оптимізує модель у двох критичних сферах: виконання інструкцій і відповіді на запитання.
  3. Узгодження з уподобаннями Human : Остання фаза тонкого налаштування проводиться для узгодження відповідей моделі з уподобаннями Human .

Більшість основних базових моделей, у тому числі розроблених OpenAI, Google і Anthropic, дотримуються цього самого загального процесу. На високому рівні процедура навчання DeepSeek-R1 суттєво не відрізняється. Але, однак, замість попереднього навчання базової моделі з нуля, R1 використав базову модель свого попередника, DeepSeek-v3-base, яка може похвалитися вражаючими 617 мільярдами параметрів.

По суті, DeepSeek-R1 є результатом застосування SFT до DeepSeek-v3-бази з великомасштабним набором даних. Справжня інновація полягає в побудові цих наборів даних міркувань, які, як відомо, важко створити.

Перший крок: DeepSeek-R1-Zero

ONE із найважливіших аспектів DeepSeek-R1 є те, що цей процес створив не лише одну модель, а дві. Мабуть, найбільш значущим нововведенням DeepSeek-R1 стало створення проміжної моделі під назвою R1-Zero, яка спеціалізується на завданнях міркування. Цю модель було навчено майже повністю за допомогою навчання з підкріпленням, з мінімальною опорою на позначені дані.

Навчання з підкріпленням — це техніка, за якої модель отримує винагороду за генерування правильних відповідей, що дає змогу узагальнювати знання з часом.

R1-Zero досить вражає, оскільки він зміг зрівнятися з GPT-o1 у завданнях на міркування. Однак модель не справлялася з більш загальними завданнями, такими як відповіді на запитання та читабельність. Тим не менш, мета R1-Zero не полягала в тому, щоб створити загальну модель, а скоріше продемонструвати, що можна досягти найсучасніших можливостей міркування, використовуючи лише навчання з підкріпленням, навіть якщо модель не працює добре в інших областях. .

Другий крок: DeepSeek-R1

DeepSeek-R1 був розроблений як модель загального призначення, яка відмінно підходить для аргументації, тобто вона повинна була перевершити R1-Zero. Щоб досягти цього, DeepSeek знову почав із своєї моделі v3, але цього разу він налаштував її на невеликому наборі даних.

Як згадувалося раніше, масиви даних міркувань створити важко. Саме тут R1-Zero відіграв вирішальну роль. Проміжну модель використовували для створення набору синтетичних міркувань, який потім використовувався для точного налаштування DeepSeek v3. Результатом цього процесу стала ще одна проміжна модель міркування, яка згодом була піддана фазі розгорнутого навчання підкріплення з використанням набору даних із 600 000 зразків, також згенерованих R1-Zero. Кінцевим результатом цього процесу став DeepSeek-R1.

Хоча я пропустив кілька технічних деталей процесу попереднього навчання R1, ось два основні висновки:

  1. R1-Zero продемонстрував, що можна розвинути складні навички міркування за допомогою базового навчання з підкріпленням. Незважаючи на те, що R1-Zero не була сильною загальною моделлю, вона успішно згенерувала дані міркування, необхідні для R1.
  2. R1 розширив традиційний конвеєр попереднього навчання, який використовується в більшості моделей основи, включивши в процес R1-Zero. Крім того, він використав значну кількість синтетичних даних міркувань, згенерованих R1-Zero.

У результаті DeepSeek-R1 з’явився як модель, яка відповідала можливостям міркування GPT-o1, будучи при цьому з використанням простішого та, ймовірно, значно дешевшого процесу попереднього навчання.

Усі погоджуються, що R1 знаменує важливу віху в історії генеративного ШІ, ONE , ймовірно, змінить спосіб розробки базових моделей. Коли справа доходить до Web3, буде цікаво дослідити, як R1 впливає на еволюцію Web3-AI.

DeepSeek-R1 і Web3-AI

До цього часу Web3 намагався створити переконливі сценарії використання, які явно додають цінність створенню та використанню базових моделей. Певною мірою традиційний робочий процес попереднього навчання базових моделей є антитезою архітектур Web3. Однак, незважаючи на те, що DeepSeek-R1 перебуває на ранніх стадіях, випуск DeepSeek-R1 висвітлив кілька можливостей, які могли б природно узгоджуватися з архітектурами Web3-AI.

1) Мережі тонкого налаштування навчання підкріплення

R1-Zero продемонстрував, що можна розробляти моделі міркувань, використовуючи чисте навчання з підкріпленням. З обчислювальної точки зору навчання з підкріпленням є дуже розпаралелюваним, що робить його добре придатним для децентралізованих мереж. Уявіть собі мережу Web3, де вузли отримують компенсацію за точне налаштування моделі для завдань навчання підкріплення, кожен із застосуванням різних стратегій. Цей підхід набагато більш здійсненний, ніж інші парадигми попереднього навчання, які вимагають складних топологій GPU та централізованої інфраструктури.

2) Генерація набору даних синтетичного міркування

Іншим ключовим внеском DeepSeek-R1 була демонстрація важливості синтетично згенерованих наборів даних міркування для когнітивних завдань. Цей процес також добре підходить для децентралізованої мережі, де вузли виконують завдання генерації набору даних і отримують компенсацію, оскільки ці набори даних використовуються для попереднього навчання або тонкого налаштування базових моделей. Оскільки ці дані генеруються синтетично, всю мережу можна повністю автоматизувати без втручання Human , що робить її ідеальною для архітектур Web3.

3) Децентралізований висновок для малих дистильованих моделей міркувань

DeepSeek-R1 — це масивна модель із 671 мільярдом параметрів. Однак майже відразу після його випуску з’явилася хвиля дистильованих моделей міркування, що варіюються від 1,5 до 70 мільярдів параметрів. Ці менші моделі значно більш практичні для висновків у децентралізованих мережах. Наприклад, дистильована модель R1 1,5B–2B може бути вбудована в протокол DeFi або розгорнута на вузлах мережі DePIN. Простіше кажучи, ми, ймовірно, побачимо зростання економічно ефективних кінцевих точок логічного висновку, які працюють від децентралізованих обчислювальних мереж. Міркування — це ONE з областей, де розрив у продуктивності між малими та великими моделями скорочується, створюючи унікальну можливість для Web3 ефективно використовувати ці дистильовані моделі в децентралізованих налаштуваннях висновку.

4) Походження даних міркування

ONE з визначальних особливостей моделей міркування є їх здатність генерувати сліди міркування для заданого завдання. DeepSeek-R1 робить ці трасування доступними як частину вихідних даних, що підсилює важливість походження та відстеження для завдань міркування. Сьогодні Інтернет в першу чергу працює на результатах, з невеликою видимістю проміжних кроків, які призводять до цих результатів. Web3 надає можливість відстежувати та перевіряти кожен крок міркування, потенційно створюючи «новий Інтернет міркувань», де прозорість і можливість перевірки стають нормою.

Web3-AI має шанси в епоху міркування після R1

Випуск DeepSeek-R1 ознаменував переломний момент в еволюції генеративного ШІ. Поєднавши розумні інновації з усталеними парадигмами попереднього навчання, він кинув виклик традиційним робочим процесам штучного інтелекту та відкрив нову еру штучного інтелекту, орієнтованого на міркування. На відміну від багатьох попередніх базових моделей, DeepSeek-R1 містить елементи, які наближають генеративний ШІ до Web3.

Ключові аспекти R1 – набори даних синтетичного міркування, більш розпаралелюване навчання та зростаюча потреба в відстежуваності – природно узгоджуються з принципами Web3. Незважаючи на те, що Web3-AI намагався отримати значну силу, ця нова ера міркувань після R1 може дати найкращу можливість для Web3 відіграти більш значну роль у майбутньому ШІ.

Note: The views expressed in this column are those of the author and do not necessarily reflect those of CoinDesk, Inc. or its owners and affiliates.

Jesus Rodriguez