Letzte Woche kam ich gar nicht mehr damit hinterher, die ganzen News aus der KI-Bubble zu lesen und nachzuvollziehen, was da grade passiert ist. Selbst im Trubel um die Bundestagsabstimmung über Migration, die die CDU gemeinsam mit der AfD gewinnen konnte, schaffte es die Meldung über DeepSeek in die Tagesschau. https://www.tagesschau.de/multimedia/sendung/tagesschau_20_uhr/video-1427880.html
Ich schreibe nun diesen Artikel, weil ich selbst verstehen will: Was ist da in den letzten zwei Wochen passiert und warum ist das so krass? Aus reinem Reflex halte ich Schlagzeilen über neue KI-Modelle erst einmal für überbewertet – ist das hier auch so?
➡️ Hat sich wirklich etwas Grundlegendes in der globalen KI-Szene verändert?
Um zu verstehen, warum dieses neue Modell so besonders ist, muss man eine zentrale Regel der KI-Entwicklung kennen: Mehr Rechenleistung bedeutet bessere Modelle. Es gibt zwar immer mal wieder Meldungen, dass Hersteller auch kleinere, energieeffizientere Modelle entwickelt haben (wie zum Beispiel Mistral mit “Ministraux” https://mistral.ai/news/ministraux/), doch in Leistungstests – den sogenannten Benchmarks – konnten sie bisher selten mit den großen mithalten.
Gleichzeitig ging auch die Befürchtung einher, dass der große Hype um KI bald vorbei sein würde – nämlich dann, wenn es keine Rechenpower mehr gäbe oder die Energie knapp würde, um Server und Kühlanlagen zu betreiben. Künstliche Intelligenz – ein Hype-Train, der auf die absehbare Klippe zusteuert.
Dieser Hype-Train befeuerte bislang auch den Aktienmarkt. Unternehmen wie Nvidia profitieren davon ungemein, denn die Weiterentwicklung von KI ging immer mit größeren Rechenzentren und leistungsfähigeren Servern einher. Doch dann kam DeepSeek – und stellte alles auf den Kopf.
➡️ Wieso wurde DeepSeek nicht so trainiert wie die anderen Modelle?
Seit einiger Zeit untersagen die USA den Export leistungsstarker GPUs nach China, weil die USA unter anderem genau die Befürchtung hatte, dass China nachziehen könnte, was KI und LLMs angeht. Dieses Verbot wurde im noch im Januar unter Biden verschärft, mit dem Argument dadurch die Entwicklung von feindlicher KI für militärische oder geheimdienstliche Zwecke verhindern zu wollen.
Durch diesen Engpass an Ressourcen passierte anscheinend allerdings das Gegenteil: Entwickler:innen mussten sich mit weniger Rechenleistung zufrieden geben und wurden zu kreativen Lösungen gezwungen, wenn sie mit wenig Ressourcen trotzdem gute Modelle bauen und betreiben wollten – und das haben sie auch geschafft.
➡️ Wie konnten sie mit ihrem Modell so gute Ergebnisse erzielen?
Die ausführliche Erklärung lässt sich hier nachlesen oder im Paper selbst (Link ganz unten) https://iaee.substack.com/p/deepseek-r1-intuitively-and-exhaustively
Zusammengefasst: Ein Basis-Modell wurde mit Reinforcement Learning und ausgewählten Reasoning-Beispielen so spezialisiert, dass es in den jeweiligen Kontexten zum “Experten” wurde, zum Beispiel für bestimmte Kontexte, Aufgaben oder Datentypen. Diese Experten werden dann in einer Architektur zusammengefasst, der “Mixture of Experts” (MoE), die sich wie ein Schwarm kleinerer Modelle verhält, die jeweils nur aktiviert werden, wenn ihre Expertise benötigt wird. Das spart Rechenleistung, weil immer nur ein Teil des Netzwerks arbeitet. Wenn ein Fehler erkannt wird, wird die Korrektur gezielt nur auf die relevanten Experten-Modelle angewendet – anstatt das gesamte Netzwerk umzulernen. Dadurch bleibt das System stabil und effizient.
“R1 specifically has 671 billion parameters across multiple expert networks, but only 37 billion of those parameters are required in a single “forward pass,” which is when an input is passed through the model to generate an output.” Darum ist die Benutzung des Modells auch so viel effizienter (mehr dazu später).
https://builtin.com/artificial-intelligence/deepseek-r1
➡️ Warum, in aller Welt, hat das so hohe Wellen geschlagen?
Die Aussicht, dass GPUs vielleicht doch gar nicht so wichtig sind wie erwartet, sorgte erst einmal dafür, dass die Nvidia-Aktie einbrach:
“Der Nasdaq fiel um 200 Punkte, NVIDIA verlor 17 % seines Werts – das entspricht 600 Milliarden US-Dollar an Marktkapitalisierung. Der größte Tagesverlust in der US-Börsengeschichte – JEMALS! Und das alles wegen eines chinesischen Open-Source-Modells.”
https://www.aipeanuts.com/p/deepseek-open-source-und-der-tag-an-dem-alles-anders-wurde
Auch wenn sich der Markt seitdem wieder erholt hat, so sind die langfristigen Auswirkungen doch gravierend: Mit einem Drittel des weltweiten Venture-Kapitals, das 2024 in KI-Startups floss, sind die Erwartungen an die Branche gigantisch – doch DeepSeek könnte die Spielregeln verändern.
Allerdings könnten sich der Blick der Geldgeber verlagern – allein dadurch, dass das Modell aus China so unvorhersehbar kam und nahezu jeden überrascht hat. Nun stehen viele Start-ups, die wohl gerade erst viel Geld von Investoren zum Trainieren von Modellen eingesammelt haben, vor der Herausforderung, ihren Investoren zu erklären, warum sie nicht genauso effizient arbeiten können wie DeepSeek.
https://news.crunchbase.com/ai/chinas-deepseek-tech-openai-nvda
Nicht nur für Chiphersteller und Start-Ups sieht nach der DeepSeek-Veröffentlichung die Welt etwas anders aus. Auch die großen Tech-Firmen wie Meta, OpenAI und Co., die eine zentrale Rolle bei der Entwicklung bisheriger Modelle gespielt haben, reagieren prompt. Meta startet mehrere “War Rooms”, OpenAI erkennt die Leistungen des Wettbewerbers an und sogar President Trump kommentiert den Release als “wake-up call”, nachdem gerade erst das große “Stargate Project” verkündet wurde.
https://the-decoder.com/openai-ceo-sam-altman-weighs-in-on-deepseek-models-market-impact
In diesem Joint Venture mit OpenAI, SoftBank, Oracle und MGX, das als Prestigeprojekt des Weißen Hauses unter Trump gilt, sollte die nächste Stufe von KI-Modellen erreicht werden.
https://www.crunchbase.com/organization/the-stargate-project
➡️ Warum sind Meta, OpenAI und Co. so gestresst?
Eigentlich hätten die großen Player nichts zu befürchten, wäre da nicht (neben der Qualität und Effizienz des neuen Modells) die Art und Weise, wie das Modell veröffentlicht wurde. DeepSeek wurde als Open-Source-Modell veröffentlicht und kann kostenlos genutzt werden, was die Argumentation der USA-Riesen zunichte macht, für KI-Angebote große Summen zu verlangen. Diese hatten sie sich erst zuvor über Monate erkämpft. Jede Preiserhöhung löste erst Empörung aus, wurde dann aber akzeptiert – schlicht, weil niemand mehr auf diese Modelle verzichten wollte. Doch DeepSeek könnte diesen Kreislauf durchbrechen.

Das hat einerseits sicherlich Marketinggründe, denn kostenlos ist das Betreiben des Modells auch für DeepSeek nicht. Allerdings nennen Quellen eine Reduzierung der Betriebskosten des Modells auf 3-5% der Kosten, die die vergleichbaren Modelle von OpenAI im Betrieb kosten. Diese drastische Kostenersparnis könnte viele Geschäftsmodelle ins Wanken bringen, die auf teure KI-Nutzung gesetzt hatten.
https://www.bigtechnology.com/p/notes-on-deepseek-generative-ai-is
Am Ende bleibt doch das Gesetz des Internets: Vieles gibt es günstig oder sogar kostenlos – aber am Ende zahlst du immer mit deinen Daten. Ein Modell, das nicht (mehr) genutzt wird, wird sich nicht mehr weiterentwickeln. Sollte OpenAI’s ChatGPT mittelfristig viele User verlieren, könnte das Unternehmen dadurch eventuell den Anschluss verlieren.
Gestärkt werden durch den Erfolg von DeepSeek auf jeden Fall die Ansätze, Modelle Open Source zu veröffentlichen. Der Chief AI Scientist von Meta, Yann LeCun, freut sich darüber, dass DeepSeek von bisherigen Open Source Veröffentlichungen, wie PyTorch oder Llama von Meta, profitieren konnten. Jetzt können andere auf der Arbeit von DeepSeek aufbauen und wiederum Größeres schaffen. “That is the power of open research and open source”, LeCun wörtlich. “Open source models are surpassing proprietary ones.”
➡️ Was bleibt von all dem?
“Die Frage ist nicht mehr, wer die größte Rechenpower hat.
Die Frage ist: Wer baut die besten Produkte?”
https://www.aipeanuts.com/p/deepseek-open-source-und-der-tag-an-dem-alles-anders-wurde
Und was sind Nutzer bereit, dafür zu zahlen?
Gute Modelle wird es in Zukunft nicht nur von einem Hersteller geben, sondern von vielen verschiedenen. Vielleicht auch mit ihren eigenen Stärken und Schwächen. Entscheidend ist, was daraus entsteht: Welche Ideen verwirklicht werden, welche Produkte überzeugen – und was Nutzer:innen bereit sind, dafür zu zahlen.
Der Flaschenhals dabei wird auf kurze Sicht die Rechenkapazität von Modellherstellern bleiben, solange bis sich die Methode von DeepSeek verbreitet hat. Doch mit größerer Effizienz wächst oft auch die Nachfrage – ein klassisches Beispiel für das Jevons-Paradox. Selbst wenn KI-Modelle sparsamer werden, könnten die Gesamtkosten weiter steigen. Auch deshalb erholte sich der Aktienmarkt auch für Nvidia recht schnell, doch der Schock wird allen Beteiligten im Gedächtnis bleiben.
https://en.wikipedia.org/wiki/Jevons_paradox
https://the-decoder.com/openai-ceo-sam-altman-weighs-in-on-deepseek-models-market-impact
Die anderen Modellhersteller werden nachziehen müssen, was die Kosten angeht – und Nutzer:innen werden am Ende durch mehr Optionen noch genauer entscheiden müssen, wo die eigenen Daten hingehen sollen.
Vielleicht wird der KI-Boom doch nicht ganz so energiehungrig, wie viele befürchtet haben. Hoffen wir das Beste – und bleiben neugierig! 🙂
Und für alle, die es interessiert:
https://github.com/deepseek-ai/DeepSeek-V3/blob/main/DeepSeek_V3.pdf
1 Comment