Eine geschlossene Diskussionsrunde über DeepSeek (Teil I)

DeepSeek-R1: Ein plötzlicher globaler Hype in der KI-Community

DeepSeek-R1 hat mit unerwarteter Geschwindigkeit eine weltweite Begeisterung in der KI-Community ausgelöst, doch qualitativ hochwertige Informationen über DeepSeek sind relativ rar. Am 26. Januar 2025 organisierte Li Guangmi, Gründer und CEO von Shixiang, eine geschlossene Diskussionsrunde über DeepSeek. Unter den Teilnehmern befanden sich Dutzende von führenden KI-Forschern, Investoren und erstklassigen KI-Praktikern. Sie diskutierten über technische Details von DeepSeek, die Unternehmenskultur sowie die kurz-, mittel- und langfristigen Auswirkungen nach dem plötzlichen Durchbruch des Projekts

Es ist wichtig zu betonen, dass dieses Treffen eine inoffizielle technische Diskussion war und keine bestimmten individuellen oder institutionellen Standpunkte widerspiegelt. Der bekannte Silicon-Valley-Investor Marc Andreessen beschrieb DeepSeek-R1 als „ein tiefgreifendes Geschenk an die Welt als Open-Source-Projekt“ (As open source, a profound gift to the world). Daher haben sich auch die Teilnehmer dieser Diskussionsrunde dazu entschieden, in Anlehnung an den Open-Source-Geist von DeepSeek ihre gemeinsamen Überlegungen öffentlich zu machen.

Im Folgenden ist eine Zusammenfassung der wichtigsten Punkte des Treffens. 

Das Mysterium DeepSeek

„Das Wichtigste für DeepSeek ist es, Intelligenz voranzutreiben.“

  1. Der Gründer und CEO Liang Wenfeng ist die zentrale Figur von DeepSeek. Er ist nicht mit Sam Altman vergleichbar – er ist technisch sehr versiert.
  2. DeepSeek genießt einen guten Ruf, weil es als erstes MoE und o1 erfolgreich repliziert hat. Der Erfolg basiert darauf, früh gestartet zu sein. Ob DeepSeek langfristig die beste Lösung liefern kann, bleibt offen. Die größte Herausforderung liegt in den begrenzten Ressourcen, sodass das Unternehmen seinen Fokus auf die vielversprechendsten Bereiche legen muss. Das Forschungsteam sowie die Unternehmenskultur sind jedoch sehr stark. Mit zusätzlichen 100.000 bis 200.000 GPUs könnte es noch bessere Ergebnisse liefern.
  3. DeepSeek hat seine Langkontext-Fähigkeiten in kurzer Zeit stark verbessert. Schon mit konventionellen Methoden erreicht es eine Long-Context-Verarbeitung von 10K.
  4. Der CEO von Scale.ai behauptete, DeepSeek verfüge über 50.000 GPUs, was jedoch übertrieben ist. Öffentliche Informationen deuten darauf hin, dass DeepSeek etwa 10.000 ältere A100-GPUs und möglicherweise 3.000 H800-GPUs (vor dem US-Embargo) besitzt. DeepSeek legt großen Wert auf Compliance und hat keine nicht zugelassenen GPUs gekauft, weshalb die Anzahl begrenzt sein dürfte. Im Gegensatz dazu geht die US-KI-Industrie mit GPU-Ressourcen verschwenderischer um.
  5. DeepSeek konzentriert sich ausschließlich auf einen engen Bereich und verzichtet bewusst auf viele andere Entwicklungen, wie z. B. multimodale Modelle. Es geht nicht nur darum, menschliche Bedürfnisse zu bedienen, sondern primär um die Entwicklung von Intelligenz an sich. Dieser Fokus könnte ein entscheidender Erfolgsfaktor sein.
  6. Quantifizierung könnte in gewisser Weise als das Geschäftsmodell von DeepSeek betrachtet werden. Liang Wenfengs anderes Unternehmen, Qifan (eine quantitative Investmentfirma), war ein Produkt der letzten Machine-Learning-Generation. Für DeepSeek ist das wichtigste Ziel, Intelligenz voranzutreiben – Geld und Monetarisierung haben eine geringe Priorität. China braucht führende KI-Labore, die an Lösungen arbeiten, die OpenAI übertreffen könnten. Die Entwicklung von Intelligenz ist ein langfristiger Prozess, und dieses Jahr wird die Branche weiter diversifizieren – es müssen neue Technologien entstehen.
  7. Aus technischer Sicht fungiert DeepSeek als „Kaderschmiede“, die Talente ausbildet und weiterverbreitet.
  8. Auch in den USA sind die Geschäftsmodelle für KI-Labore nicht nachhaltig. Derzeit gibt es kein wirklich funktionierendes Geschäftsmodell für KI. In Zukunft muss sich dies ändern. Liang Wenfeng verfolgt ehrgeizige Ziele – DeepSeek legt sich nicht auf eine bestimmte Form fest, sondern bewegt sich entschlossen in Richtung AGI.
  9. Ein Blick in die DeepSeek-Forschungsarbeiten zeigt, dass viele der Innovationen darauf abzielen, Hardwarekosten zu sparen. Bei mehreren wichtigen Skalierungsansätzen helfen DeepSeeks Techniken, die Kosten zu senken.
  10. Langfristig wird sich dies nicht stark auf die Rechenkapazität auswirken, aber kurzfristig wird der Fokus darauf liegen, KI effizienter zu gestalten. Der Bedarf bleibt hoch, da Rechenressourcen überall knapp sind.
  11. DeepSeeks Organisation und Unternehmenskultur
  1. a) Bei Investitionen werden meist die besten Talente ausgewählt, doch DeepSeek verfolgt ein anderes Modell. Das Team besteht aus klugen, jungen Absolventen chinesischer Universitäten. Ihre Zusammenarbeit und Entwicklung könnten langfristig ebenso starke Ergebnisse liefern wie etablierte Elite-Teams. Einzeltalente abzuwerben, könnte daher nicht unbedingt den entscheidenden Vorteil bringen.
  2. b) Geld ist im Markt reichlich vorhanden, doch der Schlüssel bei DeepSeek ist die Organisationskultur. Die Research-Kultur ähnelt der von ByteDance – sie ist essenziell und fokussiert. Eine gute Unternehmenskultur zeichnet sich durch finanzielle Stabilität und langfristige Ausrichtung aus. Unternehmen mit starken Geschäftsmodellen können sich solche Kulturen leisten – sowohl DeepSeek als auch ByteDance erfüllen diese Bedingungen.
  3. Warum kann DeepSeek so schnell aufholen?
  4. a) Reasoning-Modelle (Modelle für logisches Schlussfolgern) erfordern qualitativ hochwertige Daten und Training. Die Nachbildung eines Closed-Source-Modells ist besonders schwierig, wenn es um lange Texte oder multimodale Modelle geht. Reine Reasoning-Modelle hingegen haben keine revolutionären Architekturveränderungen erfahren, was sie leichter reproduzierbar macht.
  5. b) DeepSeek-R1 konnte sich schnell entwickeln, weil die Anforderungen nicht extrem komplex waren. Reinforcement Learning (RL) diente lediglich dazu, die Modellentscheidungen zu verfeinern. R1 hat nicht die Effizienz von Consensus 32 übertroffen, sondern stattdessen 32-fache Rechenleistung aufgewendet, um eine explorative Strategie sequentiell umzusetzen. Dies hat die Intelligenzgrenze nicht verschoben, sondern lediglich die Umsetzung erleichtert.

Entdecker vs. Aufholer: „KI ähnelt einer Sprungfunktion – Aufholer benötigen 10-mal weniger Rechenleistung“

  1. KI verhält sich wie eine Sprungfunktion: Der Rechenleistungsbedarf für Aufholer ist heute zehnmal geringer. Aufholer haben historisch gesehen niedrigere Rechenkosten, während Entdecker eine Vielzahl von Modellen trainieren müssen. Die Erforschung neuer Algorithmen und Architekturen wird jedoch niemals aufhören. Hinter jeder technologischen Sprungfunktion steckt eine enorme Investition an Ressourcen. Daher wird der Bedarf an Rechenleistung weiterhin steigen, ebenso wie die Investitionen in produktbezogene Anwendungen. Neben Reasoning-Modellen gibt es viele weitere Bereiche, die enorme Rechenkapazitäten erfordern. Oft bleibt der immense Rechenaufwand der Entdecker unsichtbar – doch ohne diese Investitionen gäbe es keine weiteren technologischen Sprünge. Zudem gibt es zahlreiche Forscher, die mit bestehenden Architekturen und RL-Methoden unzufrieden sind und kontinuierlich neue Entwicklungen vorantreiben.
  2. Mehr Rechenleistung führt nicht zwangsläufig zu besseren Ergebnissen, aber es gibt eine Mindestanforderung. Der Unterschied zwischen 10.000 und 1.000 GPUs mag nicht signifikant sein, doch mit nur 100 GPUs wäre es höchstwahrscheinlich unmöglich, ein konkurrenzfähiges Modell zu entwickeln. Der Hauptgrund dafür ist die lange Dauer einer Iteration – mit zu wenigen Ressourcen wird der Fortschritt stark gebremst.
  3. Der Fortschritt in der Physik wird von zwei Gruppen angetrieben: akademische Forscher und industrielle Labore. Erstere konzentrieren sich auf die Erkundung verschiedener Richtungen, ohne sich um unmittelbare wirtschaftliche Rentabilität zu sorgen. Letztere fokussieren sich auf Effizienzsteigerung und praxisorientierte Anwendungen.
  4. Unterschiedliche Herangehensweisen für Entdecker und Aufholer:
  • Kleine Unternehmen mit begrenzten Rechenressourcen müssen besonders auf Effizienz achten.
  • Große Unternehmen hingegen optimieren ihre Strategie darauf, Modelle so schnell wie möglich zu entwickeln.
  • Methoden, die Effizienz in Clustern mit 2.000 GPUs steigern, funktionieren oft nicht in Umgebungen mit Zehntausenden GPUs – hier zählt Stabilität mehr als Optimierung.
  1. Die CUDA-Ökosystemvorteile und Chinas Aufholstrategie:
  • CUDA hat einen Vorteil durch seine große und vollständige Operator-Bibliothek.
  • Chinesische Unternehmen wie Huawei setzen bei ihrem technologischen Durchbruch auf eine selektive Optimierung häufig genutzter Operatoren – eine späteinstiegende Vorteilstrategie.
  • Angesichts der hohen Kosten, als führendes Unternehmen Innovationen voranzutreiben, ist das effizientere Modell für viele, als Aufholer zu agieren.
  1. Was wird das nächste große Aufhol-Ziel in China sein?

Multimodale KI könnte ein vielversprechendes Feld sein, da GPT-5 aus dem Westen bislang auf sich warten lässt.

PHP Code Snippets Powered By : XYZScripts.com