Start IT/Tech Deepseek besagt, dass sein Modell der „Argumentation“ Open in bestimmten Benchmarks O1...

Deepseek besagt, dass sein Modell der „Argumentation“ Open in bestimmten Benchmarks O1 übersteigt

17
0
Binary code in blue with little yellow locks in between to illustrate data protection.

AI Lab Chinese Deepseek hat eine offen O1 In bestimmten AI -Benchmarks.

Der R1 ist auf der AI Dev -Plattform erhältlich, die das Gesicht unter einer MIT -Lizenz umarmt, was bedeutet, dass er kommerziell ohne Einschränkungen verwendet werden kann. Laut Deepsek verwertet R1 O1 in den Benchmarks Aime, Math-500 und Swe-Banco. Aime verwendet andere Modelle, um die Leistung eines Modells zu bewerten, während der Math-500 eine Sammlung von Wortproblemen ist. In der Zwischenzeit überprüfte Swe-Banch Programmieraufgaben.

Als Argumentationsmodell quietscht der R1 effektiv, was Hilft, einige der Fallen zu vermeiden, die normalerweise auf Modellen stolpern. Die Argumentationsmodelle dauern etwas länger – normalerweise Sekunden bis Minuten mehr -, um Lösungen zu erreichen, im Vergleich zu einem typischen Nichtbeachtungsmodell. Der Vorteil ist, dass sie in Bereichen wie Physik, Naturwissenschaften und Mathematik tendenziell zuverlässiger sind.

R1 enthält 671 Milliarden Parameter, Deepseek in a enthüllt Technischer Bericht. Die Parameter entsprechen ungefähr einem Modell Problemlösungsfähigkeiten, und Modelle mit mehr Parametern funktionieren normalerweise besser als solche mit weniger Parametern.

Tatsächlich sind 671 Milliarden Parameter riesig, aber Deepseek veröffentlichte auch „destillierte“ Versionen von R1, die zwischen 1,5 Milliarden Parametern bis 70 Milliarden Parametern liegen. Der kleinste kann in einem Laptop laufen. Was den vollständigen R1 betrifft, erfordert es robustere Hardware, aber aber Und Erhältlich von der Deepseek API bei 90% -95% billiger als O1 offen.

Clem überlegte, der CEO, der sein Gesicht umarmte, sagte in a Post in x Am Montag erstellten die Entwickler der Plattform mehr als 500 „abgeleitete“ Modelle von R1, die 2,5 Millionen kombinierte Downloads angesammelten – das Fünffache der Anzahl der Downloads, die der offizielle R1 erhielt.

Es gibt einen Nachteil für R1. Ein chinesisches Modell zu sein, unterliegt dem Benchmarking nach Chinas Internetregulierungsbehörde, um sicherzustellen, dass ihre Antworten „die wichtigsten sozialistischen Werte umfassen“. R1 beantwortet beispielsweise keine Fragen zum Tiananmen Square oder die Autonomie Taiwans.

R1 -Filterung in Aktion. Bildnachweis:Deepseek

Viele Chinesische KI -Systemeeinschließlich Andere ArgumentationsmodelleSo was, Abfall auf Themen zu reagieren, die den Zorn der Aufsichtsbehörden im Land erhöhen können, wie z. B. Spekulationen über die Xi Jinping Regime.

R1 kommt Tage nach der Verwaltung der Biden -Ausgabe an vorgeschlagen hart -Wing Exportregeln und Beschränkungen für KI -Technologien für chinesische Unternehmen. China -Unternehmen wurden bereits daran gehindert, fortschrittliche KI -Chips zu kaufen. Wenn die neuen Regeln jedoch wie geschrieben in Kraft treten, werden Unternehmen sowohl in der Halbleitertechnologie als auch in den Modellen, die zur Initialisierung von ausgefeilten KI -Systemen erforderlich sind, ausgesetzt sind.

In einem Richtliniendokument Letzte Woche forderte Openai die US -Regierung auf, die Entwicklung von uns, KI, zu unterstützen, damit chinesische Modelle sie nicht in Kapazität entsprechen oder überwinden. In einem Interview Mit den Informationen hob Chris Lehane, Vizepräsident von OpenAI, von Politik, Chris Lehane, als besondere Unternehmensorganisation hervor.

Bisher mindestens drei chinesische Labors – Deepseek, Alibaba und AlsChinesisches Einhorn Mooshot ai – Sie produzierten Modelle, von denen sie den Rivalen O1 behaupten. (Hinweis, Deepseek war der erste – angekündigt eine Vorschau von R1 Ende November.) In a veröffentlichen In X sagte Dean Ball, AI -Forscher an der George Mason University, der Trend deutet darauf hin, dass die chinesischen AI -Laboratorien „schnelle Anhänger“ bleiben werden.

„Die beeindruckende Leistung von Deepseeks destillierten Modellen (…) bedeutet, dass die sehr fähigen Motive weiterhin weit verbreitet sind und in lokalen Hardware ausführbar sind“, schrieb Ball, „weit entfernt von den Augen eines Top -Down -Kontrollregimes“.

Diese Geschichte wurde ursprünglich am 20. Januar veröffentlicht und wurde am 27. Januar mit weiteren Informationen aktualisiert.

TechCrunch hat einen Newsletter, der sich auf KI konzentriert! Abonnieren Sie hier Um es jeden Mittwoch in Ihren Eingangsbox zu bringen.



Quelle link