Start IT/Tech Mit generativer KI berechnen Chemiker schnell 3D -Genomstrukturen

Mit generativer KI berechnen Chemiker schnell 3D -Genomstrukturen

5
0
Leicht, flexibel und strahlungsbeständig: Organische Solarzellen für den Weltraum

Jede Zelle in Ihrem Körper enthält die gleiche genetische Sequenz, doch jede Zelle exprimiert nur eine Untergruppe dieser Gene. Diese zellspezifischen Genexpressionsmuster, die sicherstellen, dass sich eine Gehirnzelle von einer Hautzelle unterscheidet, werden teilweise durch die dreidimensionale Struktur des genetischen Materials bestimmt, die die Zugänglichkeit jedes Gens steuert.

MIT -Chemiker haben nun eine neue Möglichkeit entwickelt, diese 3D -Genomstrukturen unter Verwendung generativer künstlicher Intelligenz zu bestimmen. Ihre Technik kann in nur wenigen Minuten Tausende von Strukturen vorhersagen, was es viel schneller macht als vorhandene experimentelle Methoden zur Analyse der Strukturen.

Mit dieser Technik könnten Forscher leichter untersuchen, wie die 3D -Organisation des Genoms die Genexpressionsmuster und -funktionen der einzelnen Zellen beeinflusst.

„Unser Ziel war es, die dreidimensionale Genomstruktur aus der zugrunde liegenden DNA-Sequenz vorherzusagen“, sagt Bin Zhang, Associate Professor für Chemie und leitender Autor der Studie. „Jetzt, da wir das tun können, was diese Technik mit den modernen experimentellen Techniken ausmacht, kann sie viele interessante Möglichkeiten eröffnen.“

MIT -Doktoranden Greg Schuette und Zhuohan Lao sind die Hauptautoren des Papiers, das heute in erscheint Wissenschaft Fortschritte.

Von der Sequenz zur Struktur

Innerhalb des Zellkerns bilden DNA und Proteine ​​einen Komplex namens Chromatin, der mehrere Organisationsniveaus aufweist, sodass Zellen 2 Meter DNA in einen Kern zusammenbrechen können, der nur ein Hundertstel Millimeter im Durchmesser entspricht. Lange DNA -Stränge winden sich um Proteine, die Histone genannt werden, und führen zu einer Struktur, die ähnlich wie Perlen auf einer Schnur.

Chemische Tags, die als epigenetische Modifikationen bekannt sind, können an bestimmten Stellen an DNA angehängt werden, und diese Tags, die je nach Zelltyp variieren, beeinflussen die Faltung des Chromatins und die Zugänglichkeit in der Nähe von Genen. Diese Unterschiede in der Chromatinkonformation helfen zu bestimmen, welche Gene in verschiedenen Zelltypen oder zu unterschiedlichen Zeiten innerhalb einer bestimmten Zelle exprimiert werden.

In den letzten 20 Jahren haben Wissenschaftler experimentelle Techniken zur Bestimmung von Chromatinstrukturen entwickelt. Eine weit verbreitete Technik, bekannt als HI-C, arbeitet durch Verknüpfung benachbarter DNA-Stränge im Zellkern. Forscher können dann bestimmen, welche Segmente sich in der Nähe voneinander befinden, indem die DNA in viele winzige Teile zerlegt und sequenziert wird.

Diese Methode kann bei großen Populationen von Zellen verwendet werden, um eine durchschnittliche Struktur für einen Abschnitt von Chromatin oder für einzelne Zellen zu berechnen, um Strukturen in dieser spezifischen Zelle zu bestimmen. Hi-C und ähnliche Techniken sind jedoch arbeitsintensiv, und es kann ungefähr eine Woche dauern, bis Daten aus einer Zelle generiert werden.

Um diese Einschränkungen zu überwinden, entwickelten Zhang und seine Schüler ein Modell, das die jüngsten Fortschritte in der generativen KI nutzt, um eine schnelle und genaue Möglichkeit zu schaffen, Chromatinstrukturen in einzelnen Zellen vorherzusagen. Das von ihnen entworfene KI -Modell kann DNA -Sequenzen schnell analysieren und die Chromatinstrukturen vorhersagen, die diese Sequenzen in einer Zelle produzieren könnten.

„Deep Learning ist wirklich gut in der Mustererkennung“, sagt Zhang. „Es ermöglicht uns, sehr lange DNA -Segmente, Tausende von Basispaaren, zu analysieren und herauszufinden, was die wichtigen Informationen in diesen DNA -Basenpaaren kodieren.“

Chromogen, das Modell, das die Forscher erstellt haben, hat zwei Komponenten. Die erste Komponente, ein Deep-Learning-Modell, das das Genom „lesen“, analysiert die Informationen, die in den zugrunde liegenden DNA-Sequenz- und Chromatin-Zugänglichkeitsdaten codiert sind, wobei letztere weit verbreitet und zelltypspezifisch sind.

Die zweite Komponente ist ein generatives KI -Modell, das physikalisch genaue Chromatinkonformationen vorhersagt, nachdem sie auf mehr als 11 Millionen Chromatinkonformationen geschult wurden. Diese Daten wurden aus Experimenten unter Verwendung von Dip-C (eine Variante von Hi-C) an 16 Zellen aus einer Linie menschlicher B-Lymphozyten erzeugt.

Bei der Integration informiert die erste Komponente das generative Modell, wie die zelltypspezifische Umgebung die Bildung verschiedener Chromatinstrukturen beeinflusst, und dieses Schema erfasst Sequenzstrukturbeziehungen effektiv. Für jede Sequenz verwenden die Forscher ihr Modell, um viele mögliche Strukturen zu generieren. Das liegt daran, dass DNA ein sehr ungeordnetes Molekül ist, daher kann eine einzelne DNA -Sequenz viele verschiedene mögliche Konformationen hervorrufen.

„Ein wichtiger komplizierender Faktor für die Vorhersage der Struktur des Genoms ist, dass es keine einzige Lösung gibt, die wir anstreben. Es gibt eine Verteilung von Strukturen, egal welchen Teil des Genoms Sie sich ansehen. Komplizierte, hochdimensionale statistische Verteilung ist etwas, das unglaublich schwierig zu tun ist “, sagt Schuette.

Schnelle Analyse

Nach dem Training kann das Modell Vorhersagen auf einer viel schnelleren Zeitskala erzeugen als Hi-C oder andere experimentelle Techniken.

„Während Sie möglicherweise sechs Monate mit Experimenten verbringen, um ein paar Dutzend Strukturen in einem bestimmten Zelltyp zu erhalten, können Sie in 20 Minuten bei nur einer GPU tausend Strukturen in einem bestimmten Bereich mit unserem Modell erzeugen“, sagt Schuette.

Nach dem Training ihres Modells verwendeten die Forscher es, um Strukturvorhersagen für mehr als 2.000 DNA -Sequenzen zu erzeugen, und verglichen sie dann mit den experimentell bestimmten Strukturen für diese Sequenzen. Sie fanden heraus, dass die vom Modell erzeugten Strukturen denselben oder sehr ähnlich waren wie in den experimentellen Daten.

„Wir betrachten normalerweise Hunderte oder Tausende von Konformationen für jede Sequenz, und das gibt Ihnen eine vernünftige Darstellung der Vielfalt der Strukturen, die eine bestimmte Region haben kann“, sagt Zhang. „Wenn Sie Ihr Experiment mehrmals in verschiedenen Zellen wiederholen, werden Sie sehr wahrscheinlich eine ganz andere Konformation haben. Das ist es, was unser Modell vorhersagen will.“

Die Forscher fanden außerdem, dass das Modell genaue Vorhersagen für Daten von anderen Zelltypen als die, an denen es trainiert wurde, genaue Vorhersagen machen könnte. Dies legt nahe, dass das Modell nützlich sein könnte, um zu analysieren, wie sich Chromatinstrukturen zwischen den Zelltypen unterscheiden und wie sich diese Unterschiede auf ihre Funktion auswirken. Das Modell könnte auch verwendet werden, um verschiedene Chromatinzustände zu untersuchen, die innerhalb einer einzelnen Zelle existieren können, und wie diese Veränderungen die Genexpression beeinflussen.

Eine andere mögliche Anwendung wäre, zu untersuchen, wie Mutationen in einer bestimmten DNA -Sequenz die Chromatinkonformation verändern, was beleuchten könnte, wie solche Mutationen Krankheiten verursachen können.

„Es gibt viele interessante Fragen, von denen ich denke, dass wir diese Art von Modell besprechen können“, sagt Zhang.

Die Forscher haben alle Daten und das Modell anderen zur Verfügung gestellt, die sie verwenden möchten.

Die Forschung wurde von den National Institutes of Health finanziert.

Quelle link

Kommentieren Sie den Artikel

Bitte geben Sie Ihren Kommentar ein!
Bitte geben Sie hier Ihren Namen ein