So wie ChatGPT die menschliche Sprache versteht, erfasst ein neues KI-Modell, das von Computational-Biologen der Columbia University entwickelt wurde, die Sprache von Zellen, um ihre Aktivitäten genau vorherzusagen.
Mithilfe einer neuen Methode der künstlichen Intelligenz können Forscher am Vagelos College of Physicians and Surgeons der Columbia University die Aktivität von Genen in jeder menschlichen Zelle genau vorhersagen und so im Wesentlichen die inneren Mechanismen der Zelle aufdecken. Das System, beschrieben in der aktuellen Ausgabe von Naturkönnte die Art und Weise verändern, wie Wissenschaftler arbeiten, um alles von Krebs bis hin zu genetischen Krankheiten zu verstehen.
„Prädiktive verallgemeinerbare Rechenmodelle ermöglichen die schnelle und genaue Aufdeckung biologischer Prozesse. Mit diesen Methoden können groß angelegte Rechenexperimente effektiv durchgeführt werden, wodurch traditionelle experimentelle Ansätze gefördert und geleitet werden“, sagt Raul Rabadan, Professor für Systembiologie und leitender Autor des neuen Buches Papier.
Traditionelle Forschungsmethoden in der Biologie können gut aufdecken, wie Zellen ihre Aufgaben erfüllen oder auf Störungen reagieren. Sie können jedoch keine Vorhersagen darüber treffen, wie Zellen funktionieren oder wie Zellen auf Veränderungen reagieren, beispielsweise auf eine krebserregende Mutation.
„Die Fähigkeit, die Aktivitäten einer Zelle genau vorherzusagen, würde unser Verständnis grundlegender biologischer Prozesse verändern“, sagt Rabadan. „Es würde die Biologie von einer Wissenschaft, die scheinbar zufällige Prozesse beschreibt, zu einer Wissenschaft machen, die die zugrunde liegenden Systeme vorhersagen kann, die das Zellverhalten steuern.“
In den letzten Jahren hat die Ansammlung riesiger Datenmengen aus Zellen und leistungsfähigere KI-Modelle begonnen, die Biologie in eine vorausschauendere Wissenschaft zu verwandeln. Der Nobelpreis für Chemie 2024 wurde an Forscher für ihre bahnbrechende Arbeit beim Einsatz von KI zur Vorhersage von Proteinstrukturen verliehen. Der Einsatz von KI-Methoden zur Vorhersage der Aktivitäten von Genen und Proteinen in Zellen hat sich jedoch als schwieriger erwiesen.
Neue KI-Methode sagt die Genexpression in jeder Zelle voraus
In der neuen Studie versuchten Rabadan und seine Kollegen, mithilfe von KI vorherzusagen, welche Gene in bestimmten Zellen aktiv sind. Solche Informationen über die Genexpression können Forschern Aufschluss über die Identität der Zelle und darüber geben, wie die Zelle ihre Funktionen ausführt.
„Frühere Modelle wurden auf Daten bestimmter Zelltypen trainiert, normalerweise Krebszelllinien oder etwas anderes, das wenig Ähnlichkeit mit normalen Zellen hat“, sagt Rabadan. Xi Fu, ein Doktorand in Rabadans Labor, entschied sich für einen anderen Ansatz und trainierte ein maschinelles Lernmodell anhand von Genexpressionsdaten aus Millionen von Zellen, die aus normalen menschlichen Geweben gewonnen wurden. Die Eingaben bestanden aus Genomsequenzen und Daten, die zeigen, welche Teile des Genoms zugänglich sind und exprimiert werden.
Der Gesamtansatz ähnelt der Funktionsweise von ChatGPT und anderen beliebten „Stiftungs“-Modellen. Diese Systeme verwenden eine Reihe von Trainingsdaten, um zugrunde liegende Regeln und die Grammatik der Sprache zu identifizieren und diese abgeleiteten Regeln dann auf neue Situationen anzuwenden. „Hier ist es genau das Gleiche: Wir lernen die Grammatik in vielen verschiedenen Zellzuständen, und dann geraten wir in einen bestimmten Zustand – es kann ein kranker oder ein normaler Zelltyp sein – und wir können versuchen herauszufinden, wie das geht.“ Nun, wir sagen anhand dieser Informationen Muster voraus“, sagt Rabadan.
Fu und Rabadan engagierten bald ein Team von Mitarbeitern, darunter die Co-Erstautoren Alejandro Buendia, heute Doktorand an der Stanford University und früher im Rabadan-Labor, und Shentong Mo von der Carnegie Mellon, um das neue Modell zu trainieren und zu testen.
Nach dem Training mit Daten von mehr als 1,3 Millionen menschlichen Zellen wurde das System genau genug, um die Genexpression in Zelltypen vorherzusagen, die es noch nie gesehen hatte, und lieferte Ergebnisse, die weitgehend mit experimentellen Daten übereinstimmten.
Neue KI-Methoden enthüllen Ursachen für eine Krebserkrankung bei Kindern
Als nächstes zeigten die Forscher die Leistungsfähigkeit ihres KI-Systems, als sie es aufforderten, die noch verborgene Biologie erkrankter Zellen, in diesem Fall einer vererbten Form von Kinderleukämie, aufzudecken.
„Diese Kinder erben ein mutiertes Gen, und es war unklar, was genau diese Mutationen bewirken“, sagt Rabadan, der auch das Krebsgenomik- und Epigenomik-Forschungsprogramm am Herbert Irving Comprehensive Cancer Center in Kolumbien mitleitet.
Mit KI sagten die Forscher voraus, dass die Mutationen die Interaktion zwischen zwei verschiedenen Transkriptionsfaktoren stören, die das Schicksal von Leukämiezellen bestimmen. Laborexperimente bestätigten die Vorhersage der KI. Das Verständnis der Wirkung dieser Mutationen deckt spezifische Mechanismen auf, die diese Krankheit auslösen.
KI könnte „dunkle Materie“ im Genom aufdecken
Die neuen Berechnungsmethoden sollten es Forschern auch ermöglichen, die Rolle der „dunklen Materie“ des Genoms – ein aus der Kosmologie entlehnter Begriff, der sich auf den Großteil des Genoms bezieht, der keine bekannten Gene kodiert – bei Krebs und anderen Krankheiten zu erforschen.
„Die überwiegende Mehrheit der bei Krebspatienten gefundenen Mutationen liegt in sogenannten dunklen Regionen des Genoms. Diese Mutationen haben keinen Einfluss auf die Funktion eines Proteins und sind größtenteils unerforscht geblieben“, sagt Rabadan. „Die Idee ist, dass wir mithilfe dieser Modelle.“ kann Mutationen untersuchen und diesen Teil des Genoms beleuchten.
Rabadan arbeitet bereits mit Forschern an der Columbia University und anderen Universitäten zusammen und erforscht verschiedene Krebsarten, von Gehirn- bis Blutkrebs, lernt die Grammatik der Regulation in normalen Zellen und wie sich Zellen im Prozess der Krebsentstehung verändern.
Die Arbeit eröffnet auch neue Wege zum Verständnis vieler Krankheiten über Krebs hinaus und zur potenziellen Identifizierung von Angriffspunkten für neue Behandlungen. Durch die Darstellung neuartiger Mutationen im Computermodell können Forscher nun tiefe Einblicke und Vorhersagen darüber gewinnen, wie sich diese Mutationen genau auf eine Zelle auswirken.
Rabadan sieht die Arbeit im Anschluss an andere aktuelle Fortschritte in der künstlichen Intelligenz für die Biologie als Teil eines großen Trends: „Es ist wirklich eine neue Ära in der Biologie, die äußerst aufregend ist; die Umwandlung der Biologie in eine prädiktive Wissenschaft.“