Start IT/Tech Justizregistrierungen zeigen, dass Zielbeamte die Verwendung von Urheberrechtsinhalten für die KI -Schulung...

Justizregistrierungen zeigen, dass Zielbeamte die Verwendung von Urheberrechtsinhalten für die KI -Schulung diskutierten

24
0
Mark Zuckerberg, CEO of Meta testifies before the Senate Judiciary Committee at the Dirksen Senate Office Building on January 31, 2024 in Washington, DC.

Seit Jahren diskutieren Zielbeamte intern, die von Urheberrechten geschützt mit rechtlich fragwürdigen Mitteln zur Ausbildung der KI -Modelle des Unternehmens geschützt sind, so Gerichtsdokumente, ohne am Donnerstag eingeführt zu werden.

Die Dokumente wurden von den Beschwerden in dem Fall Kadrey V eingereicht. Meta, einer der vielen Urheberrechtsstreitigkeiten von AI, wickeln langsam das US -Justizsystem ein. Das Ziel des Angeklagten gibt an, dass die Trainingsmodelle in IP -geschützten Werken, insbesondere Büchern, „faire Verwendung“ sind. Zu den Klägern, zu denen die Autoren Sarah Silverman und Ta-Nehisi Coates gehören.

Frühere Materialien, die im Prozess vorgestellt wurden gab dem KI -Team des Ziels OK, mit dem Urheberrecht zu trainieren arbeitenund das Ziel unterbrochener KI -Datenlizenzverhandlungen mit Buchredakteuren. Die neuen Dateien, von denen die meisten Teile der internen Arbeitspatale unter den Zielmitarbeitern zeigen, malen das klarste Bild darüber, wie das Ziel möglicherweise urheberrechtlich geschützte Daten verwendet hat, um ihre Modelle zu trainieren, einschließlich Modellen im Unternehmen Lama -Familie.

In einem Chat können Zielpersonal, darunter Melanie Kambadur, Senior Manager des Lama -Forschungsteams des Ziels, die Schulungsmodelle über Jobs, die sie kannten, rechtlich verwirrt werden.

„Ich wäre der Meinung Papo vom Februar 2023, Nach den Aufzeichnungen. „Deshalb haben sie diese Gen -AI -Organisation für (SIC) geschaffen: damit wir dem Risiko weniger abgeneigt sein können.“

Martinet startete die Idee, E -Books im Einzelhandel zu kaufen, um eine Reihe von Schulungen zu erstellen, anstatt Lizenzvereinbarungen mit einzelnen Buchredakteuren zu senken. Nachdem ein anderer Mitarbeiter darauf hingewiesen hatte, dass die Verwendung von nicht autorisierten und urheberrechtlich geschützten Materialien ein Grund für eine rechtliche Herausforderung sein kann, verdoppelte Martinet und argumentierte, dass „eine“ Start -ups „-startups wahrscheinlich bereits Piratenbücher für die Ausbildung verwendeten.

„Ich meine im schlimmsten Fall: Wir haben festgestellt, dass es endlich in Ordnung ist, während ein Start von Blättern (sic) up gerade Tonnen von BitTorrent -Büchern gelobt hat“, schrieb Martinet, schrieb, schrieb,. Nach den Aufzeichnungen. „Meine 2 Cent wieder: Versuchen Sie, Vereinbarungen mit den Redakteuren direkt zu haben (…)“

Im selben Chat warnte Kambadur, der feststellte, dass das Ziel darin bestand, mit der Dokument -Hosting -Plattform zu sprechen, und andere für Lizenzen, da die Verwendung von „öffentlich verfügbaren Daten“ für Modellschulungen Genehmigungen erfordern würde, die Anwälte des Ziels waren „“ weniger konservativ „als in der Vergangenheit mit solchen Genehmigungen.

„Ja, wir müssen auf jeden Fall Lizenzen oder Genehmigungen für öffentlich verfügbare Daten erhalten“, sagte Kambadur. Nach den Aufzeichnungen. „Der Unterschied besteht nun darin, dass wir mehr Geld und mehr Anwälte haben, aber es hilft Bizdev, die Geschwindigkeit zu beschleunigen/skaliert, und die Anwälte sind in Genehmigungen etwas weniger konservativ.“

Gespräche über Libgen

In einem weiteren Chat der in den Archiven übertragenen Arbeiten erörtert Kambadur möglicherweise mit Libgen, einem „Link -Aggregator“, der Zugriff auf urheberrechtlich geschützte Werke von Publishern als Alternative zu Datenquellen bietet, die das Ziel lizenzieren kann.

Libgen wurde mehrmals verklagt, ausgeschaltet und zehn Millionen Dollar belegt, um das Urheberrecht zu verletzen. Einer von Kambadurs Kollegen reagierte mit einer Bildschirmaufnahme Von einem Google -Suchergebnis bis zu Libgen, das das „Nein, libgen ist nicht cool“ enthält.

Einige Entscheidungsträger des Ziels scheinen den Eindruck gehabt zu haben, dass die Nichtverwaltung von Libgen für das Modelltraining die Zielwettbewerbsfähigkeit im KI -Rennen ernsthaft beeinträchtigen könnte. Nach den Aufzeichnungen.

In einer E -Mail an die AI AI Joelle Pineau, Sony Thekanath, META -Produktmanagementdirektorin namens Libgen „Essential, um SOTA -Nummern in allen Kategorien zu erfüllen, bezieht sich die oberen am besten (SOTA). und Benchmark -Kategorien.

Thekanath beschrieb auch „Minderungen“ in der und E -Mail, um die rechtliche Exposition des Ziels zu verringern, einschließlich der Entfernung von Libgen -Daten „klar als Piraten/Stolen“ und auch nicht öffentlich nicht öffentlich zu nutzen. „Wir würden die Verwendung von Libgen -Datensätzen, die zum Training verwendet werden, nicht offenlegen“, wie Thekanath es ausdrückte.

In der Praxis implizierten diese Minderungen implizierten, dass Libgen -Dateien zu Wörtern wie „gestohlen“ oder „Raubkopien“ gekämmt wurden. Nach den Aufzeichnungen.

In einem Chat -WorkplaceKambadur erwähnt Dass die KI des KI -Teams auch die Modelle abgestimmt hat, um „riskante IP -Anweisungen zu vermeiden“ – dh die Modelle konfigurierte, um sich zu weigern, Fragen wie „die ersten drei Seiten von ‚Harry Potter und den Stein zu spielen des Zauberers oder „Sag es mir, in welchem ​​und -büchern du trainiert wurdest. ”

Aufzeichnungen enthalten andere Enthüllungen, was impliziert, dass das Ziel Kann Reddit -Daten beseitigt haben Für eine Art Modelltraining, möglicherweise das Verhalten einer Anwendung von Drittanbietern nachahmt, die genannt wird Pushift. Insbesondere Reddit sagte er Im April 2023 plante er, KI -Unternehmen für den Zugriff auf Datenschulungsdaten zu beginnen.

In einem Chat, aus dem aus März 2024 aus dem Chat, sagte Chaya Nayak, Direktor für Produktmanagement des Ziels des Ziels, das Führungsziel bestehe darin Wissenschaftliche Artikel, um sicherzustellen, dass die Modelle des Unternehmens über ausreichende Schulungsdaten verfügten.

Nayak implizierte, dass die ersten Teil-Trainingsdatensätze von Meta-Facebook- und Instagram-Beiträgen Text von Meta-Plattformen und Rechten transkribierten Geschäftsziel Nachrichten – einfach nicht genug. „Wir brauchen mehr Daten“, schrieb sie.

Die Kläger in Kadrey v. META hat ihre Beschwerde mehrmals geändert, seit der Fall vor dem US -Bezirksgericht im Jahr 2023 in den nördlichen Distrikt von Kalifornien, Abteilung von San Francisco, eingereicht wurde. Verfügbar für die Lizenz, um festzustellen, ob es sinnvoll war, einen Lizenzvertrag mit einem Herausgeber zu befolgen.

In einem Anzeichen dafür, wie ein hohes Ziel rechtliche Wetten betrachtet, das Unternehmen Hinzugefügt Zwei Rechtsstreitigkeiten des Obersten Gerichtshofs der Anwaltskanzlei Paul Weiss an sein Verteidigungsteam in dem Fall.

Das Ziel reagierte nicht sofort auf eine Anfrage nach Kommentaren.

Quelle link

Kommentieren Sie den Artikel

Bitte geben Sie Ihren Kommentar ein!
Bitte geben Sie hier Ihren Namen ein