In den letzten Jahren haben Forscher erhebliche Fortschritte bei der Einzelzelltechnologie gemacht. Dadurch ist es möglich, Gewebe anhand einzelner Zellen zu untersuchen und einfach die verschiedenen Funktionen der einzelnen Zelltypen zu bestimmen. Mithilfe der Analyse lässt sich beispielsweise durch Vergleiche mit gesunden Zellen herausfinden, wie Rauchen, Lungenkrebs oder eine COVID-Infektion einzelne Zellstrukturen in der Lunge verändern.
Gleichzeitig fallen durch die Analyse immer größere Datenmengen an. Mithilfe von Methoden des maschinellen Lernens wollen die Forscher den Prozess unterstützen, bestehende Datensätze neu zu interpretieren, aus den Mustern schlüssige Aussagen abzuleiten und die Ergebnisse auf andere Bereiche zu übertragen.
Selbstüberwachtes Lernen als neuer Ansatz
Fabian Theis ist Inhaber des Lehrstuhls für Mathematische Modellierung biologischer Systeme an der TUM. Mit seinem Team hat er untersucht, ob sich selbstüberwachtes Lernen besser für die Analyse großer Datenmengen eignet als andere Methoden. Die Studie wurde kürzlich in Nature Machine Intelligence veröffentlicht. Diese Form des maschinellen Lernens arbeitet mit unbeschrifteten Daten. Es sind keine klassifizierten Probendaten vorab erforderlich. Das bedeutet, dass eine vorherige Zuordnung der Daten zu bestimmten Gruppen nicht erforderlich ist. Unbeschriftete Daten stehen in großen Mengen zur Verfügung und ermöglichen die robuste Darstellung enormer Datenmengen.
Selbstüberwachtes Lernen basiert auf zwei Methoden. Beim maskierten Lernen wird – wie der Name schon sagt – ein Teil der Eingabedaten maskiert und das Modell trainiert, um die fehlenden Elemente rekonstruieren zu können. Darüber hinaus wenden die Forscher kontrastives Lernen an, bei dem das Modell lernt, ähnliche Daten zu kombinieren und unterschiedliche Daten zu trennen.
Mit beiden Methoden des selbstüberwachten Lernens testete das Team mehr als 20 Millionen einzelne Zellen und verglich diese mit den Ergebnissen klassischer Lernmethoden. Bei der Bewertung der verschiedenen Methoden konzentrierten sich die Forscher auf Aufgaben wie die Vorhersage von Zelltypen und die Rekonstruktion der Genexpression.
Perspektiven für die Entwicklung virtueller Zellen
Die Ergebnisse der Studie zeigen, dass selbstüberwachtes Lernen die Leistung insbesondere bei Transferaufgaben verbessert – also bei der Analyse kleinerer Datensätze, die auf Erkenntnissen aus einem größeren Hilfsdatensatz basieren. Darüber hinaus sind auch die Ergebnisse von Zero-Shot-Zellvorhersagen – also Aufgaben, die ohne Vortraining durchgeführt werden – vielversprechend. Der Vergleich zwischen maskiertem und kontrastivem Lernen zeigt, dass maskiertes Lernen besser für Anwendungen mit großen Einzelzellendatensätzen geeignet ist.
Die Forscher nutzen die Daten, um an der Entwicklung virtueller Zellen zu arbeiten. Hierbei handelt es sich um umfassende Computermodelle, die die Vielfalt von Zellen in verschiedenen Datensätzen widerspiegeln. Diese Modelle sind vielversprechend für die Analyse zellulärer Veränderungen, wie sie beispielsweise bei Krankheiten auftreten. Die Ergebnisse der Studie bieten wertvolle Erkenntnisse, wie solche Modelle effizienter trainiert und weiter optimiert werden könnten.