Nach dem Ursachen Schockwellen mit einem KI -Modell Mit den Fähigkeiten, die mit den Kreationen von Google und Openai konkurrieren, steht Chinas Deepseek mit Fragen, ob seine mutigen Behauptungen zur Kontrolle stehen.
Die auf Hangzhou ansässige Startnachricht, die R1 für einen Bruchteil der Kosten der neuesten Modelle von Silicon Valley entwickelte, erhöhte sofort Annahmen über die Dominanz der Vereinigten Staaten in der KI und die steigenden Marktbewertungen seiner Top-Technologieunternehmen.
Einige Skeptiker haben jedoch Deepseeks Bericht über die Arbeit an einem Schuhbudget in Frage gestellt, was darauf hindeutet, dass das Unternehmen wahrscheinlich Zugang zu fortgeschritteneren Chips und mehr Finanzmitteln hatte, als es erkannt hat.
„Es ist eine offene Frage, ob Deepseeks Behauptungen zum Nennwert aufgenommen werden können. Die KI -Community wird sich mit ihnen befassen, und wir finden es heraus “, sagte Pedro Domingos, emeritierter Professor für Informatik und Technik an der University of Washington, gegenüber Al Jazeera.
„Für mich ist es plausibel, dass sie ein Modell mit 6 Millionen US -Dollar trainieren können“, fügte Domingos hinzu.
„Aber es ist auch sehr möglich, dass es nur die Kosten für Feinabstimmungen und Veredelungsmodelle sind, die mehr kosten, dass Deepseek es nicht hätte tun können, ohne auf teureren Modellen anderer aufzubauen.“
In einem in der vergangenen Woche veröffentlichten Forschungsdokument gab das Deepseek -Entwicklungsteam bekannt, dass sie 2.000 NVIDIA H800 GPUs verwendet habe – einen weniger fortschrittlichen Chip, der ursprünglich die Exportkontrolle entspricht – und 5,6 Millionen US -Dollar ausgegeben hat. Um das Grundmodell von R1 zu trainieren, v3.
Sam Altman, CEO von OpenAI, hat berichtet, dass es mehr als 100 Millionen US -Dollar gekostet hat. Um seinen Chatbot GPT-4 zu trainieren, haben Analysten geschätzt, dass das Modell bis zu 25.000 fortschrittlichere H100-GPUs verwendet hat.
Die Ankündigung von Deepseek, die bis Ende 2023 von Serienunternehmer Liang Wenfeng gegründet wurde .
Es warf auch Fragen zur Wirksamkeit der Bemühungen Washingtons, den Chinas KI -Sektor durch Verbot des Exports der fortschrittlichsten Chips zu begrenzen.
Die in Kalifornien ansässige NVIDIA, die am Montag fast ein Monopol für das Angebot an GPUs wie Power Generative AI hat, fiel von Schweden um 17 Prozent zurück.
Während es ein breiter Konsens darüber gibt, dass Deepseeks -Freisetzung von R1 zumindest eine erhebliche Leistung darstellt, haben einige prominente Beobachter davor gewarnt, seine Forderungen nach Nennwert zu stellen.
Palmer Luckey, der Gründer der Virtual -Reality -Firma Oculus VR, bemerkte am Mittwoch, dass Deepseeks das Budget als „falsch“ angeblich behauptete, und beschuldigte zu viele „nützliche Idioten“, sich in „chinesische Propaganda“ zu verlieben.
„Es wird von einem chinesischen Hedgefonds gedrängt, die Investitionen in US -KI -Startups zu verlangsamen, ihre eigenen Shorts gegen amerikanische Titanen wie Nvidia und Sanktionen zu bedienen“, sagte Luckey in einem Posten auf X.
„Amerika ist ein fruchtbares Bett für solche Psychoops, weil unser Medienapparat unsere Technologieunternehmen hasst und Präsident Trump fehlschlägt.“
In einem Interview mit CNBC in der vergangenen Woche sammelte Alexandr Wang, CEO von Skal AI Kontrollen.
Wang hatte keinen Beweis für seine Behauptung.
Der technische Milliardär Elon Musk, einer von US -amerikanischer Präsident Donald Trumps engster Vertrauter, unterstützte Deepseeks -Skeptiker und schrieb „offensichtlich“ während eines Postens über Wangs Behauptung.
Deepseek antwortete nicht auf Anfragen nach Kommentaren.
Aber Zihan Wang, Ph.D. -Candidate, der an einem ehemaligen Deepseek -Modell arbeitete, traf die Kritiker des Startups zurück und sagte: „Reden ist billig.“
„Es ist leicht zu kritisieren“, sagte er bei X als Antwort auf Fragen von Al Jazeera über den Vorschlag, dass Deepseeks Behauptungen nicht zum Nennwert genommen werden sollten.
„Wenn sie mehr Zeit damit verbringen wollten, an dem Code zu arbeiten und die Deepseek -Idee zu reproduzieren, wird es besser sein, als auf dem Papier zu sprechen“, sagte Zihan Wang mit einer englischen Übersetzung einer chinesischen Form für Menschen, die an inaktiven Sprache teilnehmen.
Er beantwortete nicht direkt die Frage, ob er dachte, Deepseek habe weniger als 6 Millionen US -Dollar ausgegeben und weniger fortschrittliche Chips verwendet, um das Grundmodell von R1 zu trainieren.
In einem Interview von 2023 mit chinesischen Medienwellen sagte Liang, sein Unternehmen habe 10.000 NVIDIA-A100-Chips gespeichert, die älter sind als die Verwaltung der H800-Führung des damaligen US-Präsidenten Joe Biden, verboten ihre Exporte.
Benutzer von R1 weisen auch auf Einschränkungen hin, denen es aufgrund seines Ursprungs in China, nämlich der Zensur der von Peking angesehenen Gegenstände, einschließlich des Massakers von 1989 auf dem Tiananmen -Platz und des Status von Taiwan, verweisen.
In einem Zeichen, dass die ursprüngliche Panik von Deepseeks potenziellem Einfluss auf den US -Technologiesektor begonnen hatte, in den Ruhestand zu gehen, reichte der Aktienkurs von NVIDIA am Dienstag fast 9 Prozent ein.
Der technisch-feavy Nasdaq 100 stieg um 1,59 Prozent, nachdem er am Vortag um mehr als 3 Prozent verloren hatte.
Tim Miller, ein Professor, der sich auf KI an der Universität von Queensland spezialisiert hatte, sagte, es sei schwierig zu sagen, wie viel Aktien die Behauptungen von Deepseek geltend machen sollten.
„Das Modell selbst verschenkt ein paar Details darüber, wie es funktioniert, aber die Kosten für die wichtigsten Änderungen, die sie behaupten – die ich verstehe – nicht“ erscheinen im Modell selbst „, sagte Miller gegenüber Al Jazeera.
Miller sagte, er habe keine „Alarmglocken“ gesehen, aber es gibt vernünftige Argumente sowohl für als auch gegen das Vertrauen des Forschungsdokuments.
„Der Durchbruch ist unglaublich – fast ein“ zu gut, um wahr „-Stil zu sein. Die Kostensteilung ist unklar “, sagte Miller.
Andererseits, sagte er, ereignen sich gelegentlich durch Durchbrüche in der Informatik.
„Diese massiven Modelle sind ein sehr jüngstes Phänomen, daher gibt es Effizienz“, sagte Miller.
„Angesichts der Tatsache, dass sie wussten, dass dies für andere vernünftigerweise unkompliziert sein würde, hätten sie gewusst, dass sie dumm aussehen würden, wenn sie jeder b ******************************************************************************************************************************************************************************************************************************************************* heißen. Es gibt ein Team, das bereits versuchen muss, die Arbeit zu reproduzieren. „
Fallende Kosten
Lucas Hansen, Mitbegründer von gemeinnütziger Organisation-Civai, sagte zwar schwer zu wissen, ob Deepseek US-Exportkontrollen umging, das angebliche Bildungsbudget des Startup .
„GPT-4 hat das Training Ende 2022 abgeschlossen. Seit 2022 gab es viele Algorithmic- und Hardwareverbesserungen, die die Kosten für die Bildung eines GPT-4-Klasse-Modells gesenkt haben. Eine ähnliche Situation ereignete sich für GPT-2. Zu dieser Zeit war es ein ernstes Geschäft zu trainieren, aber jetzt können Sie es in 90 Minuten für 20 US -Dollar trainieren “, sagte Hansen zu Al Jazeera.
„Deepseek hat R1 gemacht, indem er ein grundlegendes Modell einnahm – in diesem Fall V3 – und einige intelligente Methoden verwendet, um dieses grundlegende Modell zu lehren, um sorgfältiger nachzudenken“, fügte Hansen hinzu.
„Dieser Unterrichtsprozess ist im Vergleich zum Ausbildungspreis des Basismodells relativ günstig. Jetzt, da Deepseek Details darüber veröffentlicht hat, wie man ein Basismodell in einem Denkmodell Bootstrap startet, werden wir eine große Anzahl neuer Gedankenmodelle sehen. „