Im Jahr 2016 dachten Hammad Syed und Mahmoud Felfel, ein ehemaliger WhatsApp-Ingenieur, dass es cool wäre, eine Text-to-Speech-Chrome-Erweiterung für Medium-Artikel zu entwickeln. Die Erweiterung, die jede Medium-Story vorlesen konnte, wurde auf Product Hunt vorgestellt. Ein Jahr später entstand daraus ein ganzes Unternehmen.
„Wir sahen eine größere Chance darin, Einzelpersonen und Organisationen dabei zu helfen, realistische Audioinhalte für ihre Anwendungen zu erstellen“, sagte Syed gegenüber TechCrunch. „Ohne die Notwendigkeit, ein eigenes Modell zu erstellen, könnten sie schneller als je zuvor Spracherlebnisse in menschlicher Qualität bereitstellen.“
Syed und Felfels Firma, PlayAI (ehemals PlayHT) präsentiert sich als „KI-Sprachschnittstelle“. Kunden können aus mehreren vordefinierten Stimmen wählen oder eine Stimme klonen und die PlayAI-API verwenden, um Text-to-Speech in ihre Anwendungen zu integrieren.
Mithilfe von Umschaltern können Benutzer die Intonation, Kadenz und den Tenor von Stimmen anpassen.
PlayAI bietet außerdem einen „Spielplatz“, auf dem Benutzer eine Datei hochladen können, um eine Vorleseversion zu erstellen, sowie ein Dashboard zum Erstellen verfeinerter Voiceovers und Audio-Voiceovers. Vor Kurzem ist das Unternehmen in die „KI-Agenten„Spielen Sie mit Tools, mit denen sich Aufgaben wie die Beantwortung von Kundenanrufen in einem Unternehmen automatisieren lassen.
Eines der interessantesten Experimente von PlayAI ist PlayNote, das PDFs, Videos, Fotos, Musik und andere Dateien in Sendungen im Podcast-Stil, Vorlesezusammenfassungen, Einzelgespräche und sogar Kindergeschichten umwandelt. Wie bei Google NotebookLMPlayNote generiert aus einer hochgeladenen Datei oder URL ein Skript und leitet es an eine Sammlung von KI-Modellen weiter, die zusammen das Endprodukt erstellen.
Ich habe es versucht und die Ergebnisse waren nicht so schlecht. Die „Podcast“-Einstellung von PlayNote erzeugt Clips, die qualitativ in etwa der von NotebookLM entsprechen, und die Fähigkeit des Tools, Fotos und Videos aufzunehmen, sorgt für einige faszinierende Kreationen. Angesichts eines Fotos eines Maulwurfshuhngerichts, das ich kürzlich gegessen habe, hat PlayNote ein fünfminütiges Podcast-Skript darüber geschrieben. Tatsächlich leben wir in der Zukunft.
Es stimmt, dass das Tool, wie alle KI-Tools, seltsame Artefakte erzeugt und Halluzinationen Manchmal. Und während PlayNote sein Bestes tut, um eine Datei an das von Ihnen gewählte Format anzupassen, erwarten Sie nicht, sagen wir, einen trockenen Rechtsweg, um das beste Quellmaterial zu erhalten. Siehe: die Musk v. OpenAI-Prozess als Gute-Nacht-Geschichte gerahmt:
Das Podcast-Format von PlayNote wird durch das neueste Modell von PlayAI, PlayDialog, ermöglicht, das laut Syed den „Kontext und Verlauf“ einer Konversation nutzen kann, um Sprache zu generieren, die den Gesprächsfluss widerspiegelt. „PlayDialog nutzt den historischen Kontext eines Gesprächs, um Prosodie, Emotionen und Tempo zu steuern und liefert ein Gespräch mit natürlicher Darbietung und angemessenem Ton“, fuhr er fort.
PlayAI, ein enger Konkurrent von ElevenLabs, war es kritisiert in der Vergangenheit für seinen laissez-faire-Ansatz in Sachen Sicherheit bekannt. Das Tool des Unternehmens zum Klonen von Stimmen erfordert, dass Benutzer ein Kästchen ankreuzen, das angibt, dass sie „über alle erforderlichen Rechte oder Einwilligungen verfügen“, um eine Stimme zu klonen – es gibt jedoch keinen Durchsetzungsmechanismus. Ich hatte kein Problem damit, aus einer Aufnahme einen Klon der Stimme von Kamala Harris zu erstellen.
Das ist besorgniserregend, wenn man bedenkt Betrugspotenzial Und Deepfakes.
PlayAI behauptet außerdem, dass es „sexuelle, beleidigende, rassistische oder bedrohliche Inhalte“ automatisch erkennt und blockiert. Aber das war bei meinen Tests nicht der Fall. Ich habe den Harris-Klon verwendet, um eine Zeile zu generieren, die ich hier ehrlich gesagt nicht einfügen kann, und ich habe nie eine Warnmeldung gesehen.
Mittlerweile verfügt das PlayNote-Community-Portal, das mit öffentlich generierten Inhalten gefüllt ist, über Dateien mit explizite Titel wie „Frau beim Oralsex“.
Syed erzählte mir, dass PlayAI auf Berichte über das Klonen von Stimmen ohne Zustimmung reagiert. so wasBlockieren des verantwortlichen Benutzers und sofortiges Entfernen der geklonten Stimme. Er argumentiert außerdem, dass PlayAIs Sprachklone mit höherer Wiedergabetreue, die 20 Minuten Sprachproben erfordern, teurer sind (49 US-Dollar pro Monat bei jährlicher Abrechnung oder 99 US-Dollar pro Monat), als die meisten Betrüger zu zahlen bereit sind.
„PlayAI verfügt über mehrere ethische Sicherheitsvorkehrungen“, sagte Syed. „Wir haben robuste Mechanismen implementiert, um beispielsweise zu erkennen, ob eine Stimme mit unserer Technologie synthetisiert wurde. Wenn ein Missbrauch gemeldet wird, überprüfen wir unverzüglich die Quelle des Inhalts und ergreifen entschlossene Maßnahmen, um die Situation zu korrigieren und weitere ethische Verstöße zu verhindern.“
Ich hoffe auf jeden Fall, dass das der Fall ist – und dass PlayAI davon abweicht Marketingkampagnen mit toten Tech-Prominenten. Wenn die Moderation von PlayAI nicht robust ist, könnte es rechtliche Herausforderungen geben TennesseeDort gibt es ein Gesetz, das Plattformen daran hindert, KI zu hosten, um unbefugte Aufnahmen der Stimme einer Person anzufertigen.
Der Ansatz von PlayAI zum Trainieren seiner Stimme-Klon-KI ist ebenfalls etwas unklar. Woher das Unternehmen die Daten für seine Modelle bezieht, verrät das Unternehmen offenbar aus Wettbewerbsgründen nicht.
„PlayAI verwendet hauptsächlich offene Datensätze (sowie lizenzierte Daten) und proprietäre Datensätze, die intern erstellt werden“, sagte Syed. „Wir verwenden weder Daten von Produktbenutzern für Schulungen noch von Entwicklern, um Modelle zu trainieren. Unsere Modelle sind auf Millionen von Stunden realer menschlicher Sprache trainiert und liefern männliche und weibliche Stimmen in mehreren Sprachen und Akzenten.“
Die meisten KI-Modelle werden auf öffentlichen Webdaten trainiert – einige davon können urheberrechtlich geschützt sein oder einer restriktiven Lizenz unterliegen. Viele KI-Anbieter argumentieren, dass die faire Nutzung Die Doktrin schützt sie vor Urheberrechtsansprüchen. Aber das hat Dateneigentümer nicht davon abgehalten von Sammelklagen einreichen, in denen behauptet wird, dass Anbieter Ihre Daten ohne Erlaubnis verwendet haben.
PlayAI wurde nicht verarbeitet. Allerdings gelten Ihre Nutzungsbedingungen vorschlagen Dies hat keine Auswirkungen auf Benutzer, wenn sie einer rechtlichen Bedrohung ausgesetzt sind.
Plattformen zum Klonen von Stimmen wie PlayAI werden von Schauspielern kritisiert, die befürchten, dass die Spracharbeit am Ende durch KI-generierten Gesang ersetzt wird und dass Schauspieler kaum Kontrolle darüber haben, wie ihre digitalen Doubles verwendet werden.
Die Hollywood-Schauspielergewerkschaft SAG-AFTRA hat mit einigen Start-ups, darunter dem Online-Talentmarktplatz Narrativ und Replica Studios, Verträge über das abgeschlossen, was sie als „faire“ und „ethische“ Stimmenklonungsverträge bezeichnet. Aber auch diese Verbindungen wurden beschädigt intensive Prüfungeinschließlich der SAG-AFTRA-Mitglieder selbst.
In Kalifornien verlangen die Gesetze von Unternehmen, die sich auf die digitale Replik des Künstlers (z. B. eine geklonte Stimme) verlassen, eine Beschreibung des beabsichtigten Verwendungszwecks der Replik bereitzustellen und mit dem Rechtsbeistand des Künstlers zu verhandeln. Sie verlangen außerdem von Arbeitgebern im Unterhaltungsbereich, dass sie die Zustimmung des Nachlasses eines verstorbenen Künstlers einholen, bevor sie einen digitalen Klon dieser Person verwenden.
Syed behauptet, dass PlayAI „garantiert“, dass jeder über seine Plattform generierte Sprachklon exklusiv dem Ersteller gehört. „Diese Exklusivität ist für den Schutz der kreativen Rechte der Nutzer von entscheidender Bedeutung“, fügte er hinzu.
Die wachsende rechtliche Belastung ist eine Hürde für PlayAI. Ein weiterer Grund ist der Wettbewerb. Pappbecher, Tiefgründige Synchronisation, Acapella, VertreterUnd Voz.aisowie die großen Technologieunternehmen Amazon, Microsoft und Google bieten KI-Synchronisierungs- und Sprachklonungstools an. Angeblich handelt es sich dabei um das bereits erwähnte Unternehmen ElevenLabs, einen der bekanntesten Anbieter für das Klonen von Stimmen Aufstand neue Fonds mit einer Bewertung von über 3 Milliarden US-Dollar.
PlayAI hat jedoch keine Schwierigkeiten, Investoren zu finden. In diesem Monat schloss das von Y Combinator unterstützte Unternehmen eine von Kindred Ventures angeführte Seed-Runde in Höhe von 20 Millionen US-Dollar ab, wodurch sich das Gesamtkapital auf 21 Millionen US-Dollar erhöhte. Auch Race Capital und 500 Global beteiligten sich.
„Das neue Kapital wird verwendet, um in unsere generativen KI-Sprachmodelle und unsere Sprachagentenplattform zu investieren und die Zeit zu verkürzen, die Unternehmen für die Entwicklung menschlicher Spracherlebnisse benötigen“, sagte Syed und fügte hinzu, dass PlayAI plant, seine Belegschaft auf 40 Mitarbeiter zu erweitern . .