Eine geschlossene Diskussionsrunde über DeepSeek (Teil 2)

Technische Details von DeepSeek

(1) SFT ist auf der Inferenzebene möglicherweise nicht mehr notwendig

Die größte Innovation von DeepSeek ist nicht das Open-Source-Konzept oder die niedrigen Kosten, sondern dass SFT auf der Inferenzebene nicht mehr benötigt wird.
Bedeutet das, dass eine neue Methode oder Architektur die Datennutzung effizienter macht und die Modelliteration beschleunigt?
SFT bleibt für bestimmte Aufgaben (z. B. Datengenerierung und Alignment) notwendig, aber es ist nicht mehr der einzige Weg, die Inferenzleistung zu verbessern.

(2) DeepSeek-R1 verwendet weiterhin SFT in bestimmten Schritten

R1 verzichtet nicht vollständig auf SFT, sondern nutzt im dritten Schritt SFT zur Distillation, bevor es mit RLHF (Reinforcement Learning from Human Feedback) abgestimmt wird.
R1 basiert immer noch auf einem durch SFT trainierten Modell, aber die verwendeten Daten wurden von einem durch RLHF trainierten Modell generiert.
Die Destillation gut kuratierter Daten durch SFT kann immer noch erhebliche Leistungssteigerungen bringen, aber möglicherweise sind keine komplexen RL-Methoden erforderlich.

(3) GRPO-Mechanismus (Reinforcement Learning mit Verifizierbarkeit)

Entscheidend ist, dass das Basismodell intelligent genug ist – eine Eingabeaufforderung (Prompt) wird bis zu 16-mal generiert, um eine qualitativ hochwertige Antwort zu finden.
Besonders geeignet für Mathematik und Programmierung, da diese leicht überprüfbar sind, aber theoretisch auf andere Bereiche übertragbar.
Dieser Prozess zeigt, dass das resultierende RL-Modell ein emergentes Rechenverfahren darstellt.

(4) Das Aufkommen von CoT (Chain-of-Thought)

R1-Zero zeigte CoT-Emergenz ohne SFT, was darauf hindeutet, dass CoT möglicherweise eine natürliche Eigenschaft von LLMs ist.
Eine unendlich lange CoT könnte LLMs eine Art Turing-Maschinen-Fähigkeit verleihen, aber im Wesentlichen ist es nur eine optimierte Suchstrategie.
Zwischen R1-Preview und R1 wurde das Kontextfenster vermutlich vergrößert, möglicherweise durch eine Long2Short-CoT-Optimierung.

DeepSeek legt großen Wert auf Datenannotation, sogar der Gründer Liang Wenfeng beteiligt sich selbst daran.
Die Datenqualität ist wichtiger als Algorithmen, ähnlich wie Teslas Strategie für autonomes Fahren.
Scale.AI hat weiterhin Marktchancen, insbesondere in Mathematik und Programmierung, die Expertenannotation erfordern.
Multimodale Daten zeigen derzeit keine signifikanten Effekte aufgrund hoher Trainingskosten, könnten aber in Zukunft Chancen bieten.

(1) Kurzfristige Vorteile der Distillation

Distillation ermöglicht es kleinen Modellen, von großen Modellen zu lernen, und kann signifikante Leistungssteigerungen bringen.
Kurzfristig bleibt Distillation eine wichtige Methode zur Leistungssteigerung kleiner Modelle, insbesondere für Startups.
DeepSeek hat mehrere kleinere Modellversionen entwickelt, die auf Mobilgeräten laufen können, was, falls erfolgreich, die Nutzbarkeit von KI-Anwendungen erheblich steigern könnte.

(2) Langfristige Probleme der Distillation

Reduzierte Modellvielfalt, was die obere Leistungsgrenze senken kann.
Einige RL-Hacks führen dazu, dass das Modell zunächst nutzlose Ideen generiert, bevor es plötzlich die richtige Antwort gibt, möglicherweise, weil es im Pretraining viele Fragen „auswendig gelernt“ hat, anstatt sie wirklich zu verstehen.
Ohne eine eigene Datenpipeline könnte die Abhängigkeit von Distillation zu langfristigen Einschränkungen führen.

(3) Mögliche zukünftige Verbesserungen

Zukünftige Modelle könnten Reinforcement Learning mit verifizierbaren Belohnungen (RLVR) verwenden, um sicherzustellen, dass sie wirklich verstehen, anstatt nur Antworten zu memorieren.
OpenAI verlässt sich nicht auf Distillation – wer OpenAI übertreffen will, sollte das möglicherweise auch nicht tun.
R1-Zero könnte der richtige Ansatz sein, indem von Grund auf trainiert wird, anstatt sich auf bestehende O1-Daten zu stützen.
Zukünftige LLMs müssen lernen, „Sprünge“ in Antworten zu machen, um ihre Leistung innerhalb fester Kontextlängen zu maximieren.

Process Reward: „Die Obergrenze der Prozessüberwachung ist der Mensch, die Obergrenze der Ergebnisüberwachung ist das Modell“

(1) Prozessbasierte Belohnung (Process Reward) hat potenzielle Probleme

Process Reward ist nicht unbedingt nutzlos, aber es kann leicht zu Reward Hacking führen – das Modell lernt nichts Sinnvolles, kann aber hohe Belohnungen erreichen.
Beispiel Mathematik: Ein Modell generiert 1000 Lösungen, aber keine ist korrekt. Mit RLVR kann es nichts lernen. Ein schwaches Process Reward könnte jedoch helfen, in die richtige Richtung zu gehen.
Wie nützlich Process Reward ist, hängt von der Komplexität der Aufgabe und der Verlässlichkeit der Bewertung ab.

(2) Herausforderungen der Prozessbewertung (Process Reward Model, PRM)

Falls die Bewertung im PRM eine systematische Verzerrung enthält, wird sie leicht ausgenutzt (Reward Hacking).
Prozessüberwachung ist theoretisch möglich, aber es gibt derzeit keine robuste Methode, um sicherzustellen, dass sie nicht manipuliert wird.
Ergebnisbasierte Überwachung erfolgt durch Matching mit extrahierten Antworten, aber es gibt keine ausgereifte Methode, mit der Modelle sich selbst bewerten können, ohne zu hacken.
Prozessbewertung ist technisch umsetzbar, da sie systematisch aufgezählt werden kann, aber sie wurde bisher kaum erforscht – möglicherweise ein vielversprechender Ansatz.

(3) Die Obergrenze der Prozess- vs. Ergebnisüberwachung

Die Obergrenze der Prozessüberwachung ist der Mensch – Menschen können sich viele Lösungen nicht vorstellen.
Die Obergrenze der Ergebnisüberwachung ist das Modell selbst, da es neue, unvorhergesehene Lösungen finden kann.

(4) Vergleich mit AlphaZero: Warum es funktioniert

AlphaZero ist effektiv, weil Schach- und Go-Partien eine eindeutige Gewinn-/Verlustbewertung haben und die Belohnung durch Siegquote berechnet werden kann.
LLMs haben dieses klare Signal nicht – sie generieren unendlich viele Antworten, ohne zu wissen, ob sie eine Lösung liefern.
Ähnlich wie genetische Algorithmen könnte das Modell durch viele Iterationen zu besseren Antworten gelangen, aber es besteht die Gefahr des Reward Hackings.

(5) Prozess- und Regelvalidierung in Math & Coding

Der Vorteil von Mathematik und Programmierung ist, dass sie überprüfbare Regeln haben, weshalb viele RL-Ansätze hier starten.
Wenn die Regeln nicht klar definiert sind, wird das Modell versuchen, sie zu „hacken“, indem es formell korrekte, aber inhaltlich falsche Antworten generiert.
Eine robuste Bewertungsmethode ist entscheidend für die Qualität des Reinforcement Learnings.