KI-Trainingsdaten hat einen hohen Preisam besten geeignet für Technologieunternehmen mit großen Ressourcen. Deshalb die Harvard University plant den Start Ein Datensatz, der fast 1 Million gemeinfreie Bücher verschiedener Genres, Sprachen und Autoren umfasst, darunter Dickens, Dante und Shakespeare, die aufgrund ihres Alters nicht mehr urheberrechtlich geschützt sind.
Der neue Datensatz ist noch nicht verfügbar und es ist unklar, wann und wie er veröffentlicht wird. Es enthält jedoch Bücher, die aus Googles ehemaligem Buchdigitalisierungsprojekt stammen. Google Bücherund so wird Google daran beteiligt sein, „diesen verborgenen Schatz überall“ bekannt zu machen.
Harvard hat das zuerst provoziert Institutionelle Dateninitiative (IDI) zurück im MärzDarin erläutert es seine Pläne zur Schaffung einer „vertrauenswürdigen juristischen Datenpipeline für KI“. Bis zu seinem Tod hörte man jedoch wenig von ihm heute offizieller Startmit der Bestätigung, dass die IDI finanzielle Unterstützung von Microsoft und OpenAI beinhaltet.
Der Geschäftsführer von IDI Greg Leppert sagt, der Datensatz sei darauf ausgelegt, „gleiche Wettbewerbsbedingungen“ zu schaffen, indem ein so großer Datensatz für alle geöffnet wird – von Forschungslabors bis hin zu KI-Startups –, die ihre großen Sprachmodelle (LLMs) trainieren möchten.