Start IT/Tech Diese Woche bei AI: Vielleicht sollten wir die KI -Benchmarks vorerst ignorieren

IT/Tech

Diese Woche bei AI: Vielleicht sollten wir die KI -Benchmarks vorerst ignorieren

Von

19 Februar 2025

Nun -die AI TechCrunch AI AI BINDERMACHT! Wir sind in einer kleinen Lücke, aber Sie finden alle unsere KI -Berichterstattung, einschließlich meiner Kolumnen, unserer täglichen Analyse und der letzten Nachrichten bei TechCrunch. Wenn Sie diese Geschichten und mehr jeden Tag in Ihrem Posteingang in Ihrem Posteingang wollen, melden Sie sich für unsere Daily Newsletters an Hier.

Diese Woche hat AIs Startup von Milliardär Elon Musk, Xai, sein neuestes KI -Modell gestartet. Grok 3Dadurch werden die Grok Chatbot -Anwendungen des Unternehmens gefüttert. Das Modell wurde in etwa 200.000 GPUs ausgebildet und übertrifft mehrere andere Hauptmodelle, darunter von OpenAI, in Mathematik, Programmierbenchmarks und vielem mehr.

Aber was sagen uns diese Benchmarks wirklich?

Hier bei CT berichten wir normalerweise widerwillig Referenznummern, da sie eine der (relativ) standardisierten Arten sind, in denen die KI -Industrie die Modellverbesserungen misst. Beliebte IA -Benchmarks testen tendenziell Esoterisches Wissen und aggregierte Werte geben In den Aufgaben, mit denen sich die meisten Menschen interessieren.

Wie Professor Wharton Ethan Mollick darauf hinwies Eine Reihe von Beiträgen in x Nach der Offenbarung von GROK 3 am Montag besteht ein dringender Bedarf an besseren Testbatterien und unabhängigen Testbehörden „. KI-Unternehmen verziehen die Ergebnisse häufiger, wie Mollick erwähnte, und es wird noch schwieriger, diese Ergebnisse durch den nominalen Wert zu akzeptieren.

„Öffentliche Benchmarks sind ‚meh‘ und gesättigt und lassen viele IA -Tests als Lebensmittelkritik auf der Grundlage von Geschmack“, schrieb Mollick. „Wenn KI für die Arbeit von grundlegender Bedeutung ist, brauchen wir mehr.“

Es gibt keinen Mangel an unabhängig Testen Und Organisationen Schlagen Sie neue Benchmarks für KI vor, aber sein relatives Verdienst ist in der Branche weit davon entfernt, ein gelöstes Thema zu sein. Einige IMA -Kommentatoren und Experten schlagen vor Ausrichten von Benchmarks mit wirtschaftlichen Auswirkungen Um seine Nützlichkeit zu gewährleisten, während Andere argumentieren, dass Adoption und Nützlichkeit Sie sind die letzten Benchmarks.

Diese Debatte kann bis zum Ende der Zeit wütend sein. Vielleicht sollten wir stattdessen, Wie der Benutzer des Benutzer vorschreibtAchten Sie nur weniger auf neue Modelle und Benchmarks, mit Ausnahme der wichtigsten technischen Fortschritte von AI. Für unsere kollektive Gesundheit ist dies möglicherweise nicht die schlimmste Idee, auch wenn sie ein gewisses Maß an KI induziert.

Wie oben erwähnt, ist diese Woche bei IA eine Pause. Vielen Dank, dass Sie bei uns, Leser, durch diese Achterbahn einer Reise geblieben sind. Bis zum nächsten Mal.

Nachricht

Bildnachweis:Nathan Laine / Bloomberg / Getty Bilder

Openai versucht „unterer“ Chatgpt: Max schrieb darüber, wie Openai seinen KI -Entwicklungsansatz verändert, um explizit „intellektuelle Freiheit“ zu akzeptieren, so herausfordernd oder kontrovers, dass es ein Thema ist.

Das neue Startup von Mira: Mira Mira Mira Muratis neues Startup, GedankenmaschinenlaborSie möchten Tools erstellen, um „KI für die einzigartigen Bedürfnisse und Ziele der Menschen zu machen“.

Grok 3 kommt: Das KI -Start von Elon Musk, Xai, startete sein neuestes KI -Modell GROK 3 und enthüllte neue Funktionen für GROK -Apps für iOS und das Web.

Eine sehr lamakonferenz: Das Ziel wird seine erste Entwicklerkonferenz veranstalten, die der generativen KI im Frühjahr gewidmet ist. Die Konferenz nennt Lamacon nach der Familie der allgemeinen Modelle für Modelle und ist für den 29. April geplant.

Dort und die digitale Souveränität Europas: Paul profilierte OpenEurollm, eine Zusammenarbeit zwischen rund 20 Organisationen, um „eine Reihe transparenter AI -Fundierungsmodelle in Europa“ aufzubauen, die die „sprachliche und kulturelle Vielfalt“ aller EU -Sprachen bewahrt.

Suchdokument der Woche

Die auf einem Laptop -Bildschirm angezeigte OpenAI -Chatgpt -Website wird in diesem Illustrationsfoto angezeigt. — **Bildnachweis:**Jakub Porzycki / Nurphoto / Getty Bilder

OpenAI -Forscher haben einen neuen KI -Benchmark geschaffen, Swe-LancerDies zielt darauf ab, die kodierenden Fähigkeiten leistungsfähiger KI -Systeme zu bewerten. Benchmark besteht aus über 1.400 Aufgaben für freiberufliche Software -Engineering, die von Fehlerkorrekturen und Ressourcenimplementierung bis hin zu Vorschlägen für die technische Implementierung auf „Manager“ -Stufe reichen.

Laut OpenAI erhält das am besten leistungsstarke KI-Modell, Anthropic Claude 3,5 Sonette, 40,3% in der vollständigen Swe-Lancer-Benchmark, die AI einen Weg vor sich hat. Es ist erwähnenswert, dass die Forscher neuere Modelle wie OpenAI nicht verglichen haben O3-mini oder chinesische KI -Firma R1 Deepseek.

Modell der Woche

Eine chinesische KI -Firma namens Stepfun hat ein „offenes“ Modell auf den Markt gebracht. AudioschrittDies kann verstehen und über mehrere Sprachen sprechen. Step-Audio unterstützt Chinesisch, Englisch und Japanisch und ermöglicht es den Benutzern, die Emotionen und sogar den synthetischen Audio-Dialekt anzupassen, das es erstellt, einschließlich des Singens.

Stepfun ist eines von mehreren gut finanzierten chinesischen IA -Startups, die Modelle im Rahmen einer zulässigen Lizenz veröffentlichen. Im Jahr 2023 gegründet, Stepfun Angeblich vor kurzem geschlossen Eine Finanzierungsrunde im Wert von mehreren hundert Millionen Dollar von einer Reihe von Investoren, zu denen Private -Equity -Unternehmen für die chinesische Staatsanlage gehören.

Greifen

Nous Forschung Deephers — **Bildnachweis:**Nous Forschung

Nous Research, eine AI -Forschungsgruppe, hat gestartet Was erklärt, ist eines der ersten KI -Modelle, das Argumentation und „intuitive Ressourcen des Sprachmodells“ vereint.

Das Modell Deephermes-3-Vorschau kann Feature-Ketten aktivieren und ausschalten, um die Genauigkeit auf Kosten eines rechnerischen Gewichts zu verbessern. Im „Argumenting“ -Modus, der Vorschau Dephermes-3, ähnlich wie bei anderen Argumentationsmodellen KI „, denkt“ länger bis zu schwierigeren Problemen und zeigt seinen Denkprozess, um die Antwort zu erreichen.

Angeblich Pläne, bald ein architektonisch ähnliches Modell zu startenUnd Openai sagte, dieses Modell sei in Ihrem kurzfristigen Skript.

Quelle link

Nachricht

Suchdokument der Woche

Modell der Woche

Greifen

Verwandte ArtikelMehr vom Autor

Wie KI die Verteidigung und Investitionsmöglichkeiten für Tiefsee verändert

AI -Revolution: Wie neue Innovationen die Markt- und Anlagestrategien umformieren

Amazon -Aktien steigen! Entdecken Sie den nächsten großen Tech -Schicht

Kategorie

Verwandte Artikel Mehr vom Autor