Start IT/Tech DeepL führt DeepL Voice ein, textbasierte Echtzeitübersetzungen von Stimmen und Videos

IT/Tech

DeepL führt DeepL Voice ein, textbasierte Echtzeitübersetzungen von Stimmen und Videos

Von

13 November 2024

DeepL hat sich mit Online-Textübersetzungen einen Namen gemacht, die angeblich subtiler und genauer sind als Dienste wie Google – ein Vorschlag, der das deutsche Startup zu einem katapultiert hat Bewertung von 2 Milliarden US-Dollar und mehr als 100.000 zahlende Kunden. Da die Begeisterung für KI-Dienste nun weiter wächst, wird die Plattform um einen weiteren Modus erweitert: Audio. Benutzer können nun mit DeepL Voice jemandem zuhören, der in einer Sprache spricht, und diese automatisch in Echtzeit in eine andere übersetzen.

Englisch, Deutsch, Japanisch, Koreanisch, Schwedisch, Niederländisch, Französisch, Türkisch, Polnisch, Portugiesisch, Russisch, Spanisch und Italienisch sind die gesprochenen Sprachen, die DeepL heute „hören“ kann. Mittlerweile sind übersetzte Untertitel für alle 33 Sprachen verfügbar, die derzeit vom DeepL Translator unterstützt werden.

Bildnachweis:DeepL unter a Lizenz.

DeepL Voice ist derzeit nicht in der Lage, das Ergebnis als Audio- oder Videodatei zu liefern: Der Dienst ist auf Echtzeit-Live-Gespräche und Videokonferenzen ausgerichtet und wird als Text und nicht als Audio übertragen.

Im ersten Schritt können Sie Ihre Übersetzungen so einrichten, dass sie als „Spiegel“ auf einem Smartphone erscheinen – die Idee besteht darin, das Telefon zwischen Ihnen auf einen Besprechungstisch zu legen, sodass beide Seiten die übersetzten Wörter sehen – oder als Transkription dass du Seite an Seite mit jemandem teilst. Der Videokonferenzdienst sieht Übersetzungen als Untertitel.

Dies könnte sich im Laufe der Zeit ändern, schlug Jarek Kutylowski, der Gründer und CEO des Unternehmens (Bild oben), in einem Interview vor. Dies ist das erste Sprachprodukt von DeepL, aber es wird wahrscheinlich nicht das letzte sein. „(Voice) ist der Ort, an dem die Übersetzung nächstes Jahr stattfinden wird“, fügte er hinzu.

Es gibt weitere Beweise, die diese Behauptung stützen. Google – einer der größten Konkurrenten von DeepL – hat ebenfalls damit begonnen, in Echtzeit übersetzte Untertitel in seinen Videokonferenzdienst Meet zu integrieren. Und es gibt eine Vielzahl von KI-Startups, die Sprachübersetzungsdienste entwickeln. Dazu gehören Bemühungen des KI-Sprachspezialisten Eleven Labs (Synchronisation von Elf Laboratorien) und andere mögen Panjaiadas Übersetzungen mit „Deepfake“-Stimmen und Videos erstellt, die zum Audio passen. Letzteres nutzt die Eleven Labs API und laut Kutylowski nutzt Eleven Labs selbst Technologie von – Sie haben es erraten – DeepL, um seinen Übersetzungsdienst zu betreiben.

Die Audioausgabe ist nicht das Einzige, was noch nicht veröffentlicht wurde.

Auch für das Voice-Produkt gibt es derzeit keine API. Das Kerngeschäft von DeepL konzentriert sich auf B2B und Kutylowski sagte, das Unternehmen arbeite direkt mit Partnern und Kunden zusammen, um es zu nutzen.

Es gibt auch keine große Vielfalt an Integrationen: Der einzige Videoanrufdienst, der derzeit DeepL-Untertitel unterstützt, ist Teams, das „die Mehrheit unserer Kunden abdeckt“, sagte Kutylowski. Kein Wort darüber, wann und ob Zoom oder Google Meet in Zukunft DeepL Voice integrieren werden.

Das Produkt wird für DeepL-Benutzer lange auf sich warten lassen, nicht nur, weil wir mit einer Fülle anderer auf Übersetzungen ausgerichteter KI-Sprachdienste überschwemmt werden. Kutylowski sagte, dies sei die häufigste Anfrage von Kunden seit 2017, dem Jahr, in dem DeepL eingeführt wurde.

Ein Grund für das Warten liegt zum Teil darin, dass DeepL bei der Entwicklung seines Produkts einen sehr bewussten Ansatz gewählt hat. Im Gegensatz zu vielen anderen in der Welt der KI-Anwendungen, die sich auf die großen Sprachmodelle anderer Unternehmen stützen und diese optimieren, besteht das Ziel von DeepL darin, seinen Service von Grund auf aufzubauen. Im Juli das Unternehmen freigegeben ein neues, für Übersetzungen optimiertes LLM, das seiner Meinung nach GPT-4, Google und Microsoft übertrifft, insbesondere weil sein Hauptziel die Übersetzung ist. Darüber hinaus wurde auch die Qualität der schriftlichen Ausgabe und des Glossars weiter verbessert.

Ebenso ist eines der Alleinstellungsmerkmale von DeepL Voice, dass es in Echtzeit funktioniert, was wichtig ist, da viele „KI-Übersetzungs“-Dienste auf dem Markt derzeit mit Verzögerungen arbeiten, was ihre Verwendung im Live-Betrieb erschwert/unmöglich macht Situationen. Dies ist der Anwendungsfall, den DeepL speziell anspricht. Kutylowski deutete an, dass dies ein weiterer Grund sei, warum sich dieses neue Sprachverarbeitungsprodukt auf textbasierte Übersetzungen konzentriert: Sie können sehr schnell berechnet und erstellt werden, während die Verarbeitung und die KI-Architektur noch einen langen Weg vor sich haben, bis sie dazu in der Lage sind Audio zu produzieren. und Video am schnellsten.

Während man sich vielleicht vorstellen kann, dass Videokonferenzen und Meetings wahrscheinlich Anwendungsfälle für DeepL Voice sind, bemerkte Kutylowski, dass ein weiterer großer Anwendungsfall, den das Unternehmen sich vorstellt, im Dienstleistungssektor liegt, wo Mitarbeiter an vorderster Front, beispielsweise in Restaurants, den Dienst nutzen könnten, um bei der Kommunikation zu helfen . einfacher mit Kunden in Kontakt treten.

Das kann hilfreich sein, verdeutlicht aber auch einen der schwierigsten Punkte des Dienstes. In einer Welt, in der wir uns plötzlich alle viel stärker des Datenschutzes und der Sorge darüber bewusst sind, wie neue Dienste und Plattformen private oder proprietäre Informationen kooptieren, bleibt abzuwarten, wie interessiert die Menschen daran sein werden, dass ihre Stimmen erfasst und dabei verwendet werden Weg.

Kutylowski bestand darauf, dass, obwohl Stimmen zur Übersetzung zu seinen Servern übertragen werden (die Verarbeitung findet nicht auf dem Gerät statt), nichts von seinen Systemen gespeichert oder zum Trainieren seiner LLMs verwendet wird und dass es letztendlich mit seinen Kunden zusammenarbeiten wird, um sicherzustellen, dass Make Stellen Sie sicher, dass sie nicht gegen die DSGVO oder andere Datenschutzbestimmungen verstoßen.

Quelle link

Verwandte ArtikelMehr vom Autor

Illumen Capital verdoppelt die Unterstützung für unterrepräsentierte Fonds

Brauchen Sie einen neuen Computermonitor? Vor dem Black Friday 2024 sind viele davon im Angebot.

Gilroy, ehemaliger Fintech-Chef bei Coatue, und Angel-Investor Rajaram gründen Risikokapitalfirma

Kategorie

Verwandte Artikel Mehr vom Autor