MLCommons, eine nicht profitierende AI -Sicherheitsgruppe, hat sich der KI -Plattform angeschlossen und umarmt das Gesicht, um eine der weltweit größten Sammlungen von öffentlich -domänenübergreifenden Sprachaufzeichnungen für die KI -Forschung zu starten.
Der Datensatz, genannt Rede von nicht überprüften MenschenEs enthält mehr als eine Million Audio, die mindestens 89 verschiedene Sprachen abdeckt. MLCommons sagt, es sei motiviert, es durch den Wunsch zu schaffen, F & E in „verschiedenen Bereichen der Sprachtechnologie“ zu unterstützen.
„Die Unterstützung einer breiteren Forschung für natürliche Sprachverarbeitung für andere Sprachen als Englisch hilft, mehr Menschen weltweit Kommunikationstechnologien zu bringen“, schrieb die Organisation in a Blog -Beitrag Donnerstag. „Wir planen mehrere Möglichkeiten, dass die Forschungsgemeinschaft weiter aufgebaut und entwickelt wird, insbesondere in den Bereichen der Verbesserung der Sprachmodelle mit niedrigem Ressourcen, einer Verbesserung der Spracherkennung in verschiedenen Akzenten und Dialekten und neuen Anwendungen in der Sprachsynthese.“
Es ist sicher ein bewundernswertes Ziel. KI -Datensätze wie nicht überprüfte Menschendiskurs können jedoch Forschern, die sie verwenden, Risiken eingehen.
EMPERSCHAFTE DATEN ist eines dieser Risiken. Aufzeichnungen im Diskurs von nicht überprüften Personen stammten von archive.org, der nicht -profitischen Organisation, die möglicherweise besser für das Wayback -Maschinen -Web -Archiv -Tool bekannt ist. Weil viele von Archive.org Mitarbeitern englisch und-amerikanisch sind, sprechte alle Aufnahmen in der Rede von nicht überprüften Menschen mit einem amerikanischen Löwen in englischer Sprache. Laut Readme auf der offiziellen Seite des Projekts.
Dies bedeutet, dass IA -Systeme in Spracherkennung und Sprachsynthesizer ohne sorgfältige Filterung, die in der Rede von Unpisors ausgebildet sind, einige der gleichen Vorurteile anzeigen können. Sie können zum Beispiel kämpfen, um Englisch zu transkribieren, die von einem nicht einheimischen Sprecher gesprochen werden, oder Schwierigkeiten haben, synthetische Stimmen in anderen Sprachen als Englisch zu generieren.
Nicht überprüfte Sprache kann auch Aufzeichnungen von Menschen enthalten, ohne zu wissen, dass ihre Stimmen für KI -Forschungszwecke verwendet werden – einschließlich kommerzieller Anwendungen. Laut MLCommons sind alle Aufzeichnungen im Datensatz öffentlich oder unter Creative Commons verfügbar, aber die Möglichkeiten der Möglichkeit wurden gemacht.
Nach einer Analyse des MITHunderte von AI -Schulungsdatensätzen, die öffentlich keine Lizenzinformationen verfügbar sind, und Fehler enthalten. Die Befürworter des Schöpfers, einschließlich Ed Newton-Rex, dem CEO der gemeinnützigen Organisation, der sich auf AI-Ethik konzentriert Laden Sie.
„Viele Schöpfer (zum Beispiel Squarespace -Benutzer) haben keine wesentliche Möglichkeit, sich zu entscheiden, zu gehen“, “ Newton-Rex schrieb In einem X -Post im Juni letzten Jahres. „Für Schöpfer, die er kann Option, es gibt mehrere überlappende Optionsmethoden, die (1) unglaublich verwirrt und (2) in ihrer Abdeckung leider unvollständig sind. Selbst wenn es eine perfekte universelle Option gäbe, wäre es äußerst unfair, die Ausgrenzung der Schöpfer zu belasten, da die generative KI ihre Arbeit verwendet, um mit ihnen zu konkurrieren, einfach nicht erkennen, dass sie sich dafür entscheiden könnten, nicht teilzunehmen. ”
MLCommons sagt, dass es sich zur Aktualisierung, Aufrechterhaltung und Verbesserung der Qualität der nicht überprüften Sprache einsetzt. Angesichts potenzieller Misserfolge wäre es jedoch notwendig, Entwickler zu entwickeln, um schwerwiegende Vorsicht zu wechseln.