AI Lab Chinese Deepseek wird diese Woche möglicherweise den größten Teil der Technologieindustrie auf sich ziehen. Aber einer seiner wichtigsten häuslichen Konkurrenten, Alibaba, sitzt nicht umsonst.
Das Alibaba Qwen -Team am Montag gestartet Eine neue Familie von AI-Modellen, QWEN2.5-VL, die verschiedene Text- und Bildanalyseaufgaben ausführen kann. Modelle können Dateien analysieren, Videos verstehen und Objekte in den Bildern zählen und einen PC steuern – ähnlich dem Modell, das die kürzlich veröffentlichten OpenAI füttert Operator.
Laut dem QWEN-Team-Benchmarking gewinnt das beste Modell QWEN2.5-VL OpenAIs Gpt-4oAnthropisch Claude 3.5 Sonetteund Google Gemini 2.0 Blitz In einer Vielzahl von Videoverständnissen, Mathematik, Dokumentanalyse und Fragen von Antworten auf Fragen.
QWEN2.5-VL, das zum Testen auf Alibaba’s verfügbar ist Qwen Chat Anwendung und für herunterladen Aus der AI Dev -Plattform, die das Gesicht umfasst, können Sie Diagramme und Diagramme analysieren, Datenscanning -Daten und -Formen extrahieren und mehrere Stunden von mehreren Stunden „verstehen“, sagt das QWEN -Team. QWEN2.5-VL kann „IPs aus der Film- und Fernsehserie sowie eine Vielzahl von Produkten“ auch erkennen. nach Team – Vorschläge, dass die Modelle teilweise in urheberrechtlich geschützten Werken geschult werden können.
QWEN2.5-VL, der von einem chinesischen Unternehmen entwickelte KI, hat bestimmte Einschränkungen zu Themen, die weniger in Chat Qwen diskutieren werden. Als ich das größte und fähigste von QWEN2.5-VL fragte, das QWEN2.5-VL-72B-Modell, um über „Xi Jinping-Fehler“ zu sprechen, hat Qwen Chat eine Fehlermeldung veröffentlicht.
China Internet Regulierungsbehörde Benchmarks Viele im Land entwickelte Modelle, um sicherzustellen, dass ihre Antworten „die wichtigsten sozialistischen Werte umfassen“. Viele Chinesische KI -Systeme Abfall Reagieren Sie auf Themen, die den Zorn der Aufsichtsbehörden wie die Autonomie Taiwans erhöhen können.
Eine der interessantesten Funktionen von QWEN2.5-VL ist die Fähigkeit, sowohl mit PC-Software als auch mit mobilen Geräten zu interagieren. Ein Video, das auf X von Philipp Schmid, einem technischen Leiter bei Hugging Face, veröffentlicht wurde, qwen2.5-VL veröffentlichen die Booking.com für Android und reserviert einen Chongqing-Flug nach Peking.
Verpassen Sie nicht @Alibaba_qwen 2.5 VL! Trotz aller Hype Deepseek hat Qwen gerade das beste offene Multimodal gestartet! Qwen 2.5 VL ist ein Vision -Sprachmodell, das Ihren Computer steuern kann, ähnlich wie @Openai Operator, strukturierte Diagramminformationen extrahieren und mehr !!
Tl;
3️⃣… pic.twitter.com/geegvdl0ti– Philipp Schmid (@_Philschmid) 27. Januar 2025
Im folgenden Video steuert ein QWEN2.5-VL-Modell Anwendungen auf einem Linux-Mam-Desktop nicht weit über die Führer hinaus. Vielleicht zeigt Qwens Benchmarking auf aufschlussreiche Weise Qwen2.5-VL-Wert auf Osworld, eine Referenz, die versucht, eine echte Computerumgebung nachzuahmen.
LMAO QWEN 2.5 VL kann die Verwendung von Computer außerhalb der Schachtel ausführen, sofern der Frontoperator! 🐐 pic.twitter.com/lwmecxznsu
– Vaibhav (VB) Srivastav (@reach_vb) 27. Januar 2025
Die beiden kleineren und weniger ausgefeilten Modelle im QWEN2.5-VL, QWEN2.5-VL-3B und QWEN2.5-VL-7B-Serie sind im Rahmen einer zulässigen Lizenz verfügbar. Das Haupt-QWEN2.5-VL-72B steht jedoch unter der personalisierten Lizenz von Alibaba, nach der Unternehmen und Entwickler mit über 100 Millionen aktiven Benutzern die Berechtigung von QWEN/Alibaba anfordern müssen, bevor das Modell kommerziell bereitgestellt wird.