Fehlerbehebung in der Einzelzelltranskriptomik

Wie der Algorithmus fehlerhafte von richtigen Messungen unterscheidet

  • Diese Heatmaps zeigen 3 aufeinander folgende Matrizen, von oben nach unten: Originaldaten, mit simulierten Rauschen und nach dem Entrauschen mit DCA.Diese Heatmaps zeigen 3 aufeinander folgende Matrizen, von oben nach unten: Originaldaten, mit simulierten Rauschen und nach dem Entrauschen mit DCA.
  • Diese Heatmaps zeigen 3 aufeinander folgende Matrizen, von oben nach unten: Originaldaten, mit simulierten Rauschen und nach dem Entrauschen mit DCA.
  • Abb.1: Adaptiert von Eraslan et al. 2019 [2].
  • Abb.2: Adaptiert von Eraslan et al. 2019 [2].

Das Transkriptom, die Gesamtheit der abgelesenen Gene, bestimmt die Funktion einzelner Zellen. Technologischer Fortschritt ermöglicht es seit kurzem, das Transkriptom von Millionen einzelner Zellen in einem einzigen Experiment zu messen. Allerdings sind diese sehr feinen Messungen fehleranfällig. Mit Hilfe von künstlicher Intelligenz kann man diese fehlerhaften Messungen erkennen und zum Teil korrigieren.

Mehr Datenpunkte dank neuer Einzelzelltechnologien

Durch das Messen des Transkriptoms können Forscher herausfinden, welche Gene aktiv abgelesen werden. Zum Beispiel können sie durch Gegenüberstellung der Transkriptionsprofile von Patienten und gesunden Menschen herausfinden, welche Gene durch ihre Aktivierung eine Rolle im Krankheitsverlauf spielen. Allerdings basieren traditionelle Transkriptom-Daten auf den Mittelwerten von Hunderttausenden von Zellen. Durch eine Kombination aus Fortschritten in der Mikrofluidik und des Barcodings wurden Einzelzell-Methoden entwickelt, die es möglich machen, die Genexpression sehr vieler einzelner Zellen in einem einzigen Experiment zu erfassen. Dieser Ansatz erlaubt es seltene Zelltypen zu erkennen, die sich vom Großteil der Population unterscheiden und hat die Analysemöglichkeiten der Forscher in verschiedensten Gebieten grundlegend verändert. Zum Beispiel lassen sich die Genexpressionsveränderungen während der Differenzierung von Stammzellen mit nie zuvor dagewesener Auflösung studieren [3]. Auch in der statistischen Auswertung ergeben sich neue Modellierungsmöglichkeiten. Im Vergleich zu den traditionellen Transkriptomdaten besitzen die Genexpressionstabellen von Einzelzellexperimenten viel mehr Datenpunkte. Diese “Big Data” erlauben nun den Einsatz von Algorithmen der Künstlichen Intelligenz [1].

Große Datenmengen ermöglichen die Anwendung von künstlicher Intelligenz

Da sich die Messungen einzelner Zellen im Femtoliterbereich bewegen sind technische Störfaktoren erhöht und die erhaltenen Expressionswerte verrauscht. Zum Beispiel kommt in manchen Einzelzelltechnologien der sogenannte “Dropout” Effekt vor: Ein mRNA-Molekül wird aus technischen Gründen nicht erfasst und dadurch entsteht eine “falsche” Null in der Genexpressionsmatrix.

Da in einer einzelnen Zelle zu einem bestimmten Zeitpunkt nicht alle Gene aktiv sind gibt es jedoch auch “richtige” Nullwerte. Um die fehlerhaften Messungen von richtigen zu unterscheiden haben wir einen Machine Learning Algorithmus entwickelt, den sogenannten Deep Count Autoencoder [2]. Dieser beruht auf dem Prinzip des Deep Learning, das Lernprozesse simuliert, wie sie auch beim Menschen vorkommen. Künstliche neuronale Netze verarbeiten Eingabe-Signale durch die Verknüpfung von vielen Schichten und einfachen lokalen Rechnungen, um bestimmte Muster zu lernen, so wie es auch Neuronen im Gehirn machen. Diese tiefen neuronalen Netze haben bei Bild- und Spracherkennung in den letzten Jahren enorme Erfolge gefeiert.

Hier wendeten wir eine spezielle Form dieser Methodik an, den sogenannten Autoencoder. Ein Autoencoder ist ein künstliches neuronales Netz, das aus mehreren Schichten besteht: (1) der Input Schicht, eine unterschiedlich große Mittelschicht, die sich auf eine (2) ‘Bottleneck’ genannte Schicht verkleinert und dann wieder größer wird bis zur (3) Output Schicht (Abb. 1).

In einem Autoencoder haben die Input und Output Schichten die gleiche Dimension. In jeder Epoche rekonstruiert der Algorithmus die Eingangsdaten nach Kompression in der Bottleneck  Schicht und gleicht die Rekonstruktion aus der Output Schicht mit den Ursprungsdaten aus der Input Schicht ab. Um zu evaluieren wie nah die Rekonstruktion an den Ursprungsdaten ist, benutzt ein gewöhnlicher Autoencoder den Mean-Squared-Error (MSE; dt.: die mittlere Fehlerquadratsumme) als Maß. Dieses Maß entspricht ebenfalls der Kostenfunktion des neuronalen Netzes. Das heißt, das neuronale Netz versucht diese Funktion zu minimieren indem es iterativ die Gewichtungen des Netzes lernt. Da die Mittelschicht auf vergleichsweise wenige Neuronen begrenzt ist, ist der Algorithmus gezwungen eine möglichst effiziente Komprimierung der Daten zu lernen.

Dieses Prinzip kann man anhand des folgenden Beispiels erklären: Man nehme eine numerische Matrix mit 100 Spalten und 100 Reihen. Diese Matrix besteht aus Nullen und einer monoton steigenden Zahlenfolge in der Diagonalen. Um den Datensatz zu lernen, könnte man sich jedes der 10.000 einzelnen Elemente merken. Allerdings wäre das aufgrund der Redundanz in den Daten eine sehr ineffiziente Speicherung der Information. Deshalb merkt man sich nur zwei Informationen, die das Muster beschreiben: 1) die monoton steigende Diagonale und 2) die restlichen Nullen. Der menschliche Geist, analog dem Autoencoder, erkennt das Muster der Daten, um somit weniger Informationen speichern zu müssen.

Die Verteilung der Daten spielt eine entscheidende Rolle

Wie kann man damit fehlerhafte von richtigen Messungen unterscheiden? Da der Algorithmus das Datenmuster erlernt hat, kann er nun errechnen, ob einzelne Datenpunkte von diesem Muster abweichen (Abb. 2).

Durch ein Wahrscheinlichkeitsmodell kann man ermitteln, ob die Abweichung von einer fehlerhaften Lesung kommt. Die Wahl des Wahrscheinlichkeitsmodells spielt in diesem Fall eine entscheidende Rolle. Da Einzelzell-Daten zählen wie oft ein Gen abgelesen wird, handelt es sich um eine diskrete Verteilung. Im Gegensatz dazu liegt die stetige Normalverteilung dem Prinzip des MSE zu Grunde. Um den Autoencoder auf Einzelzell-Daten zu spezialisieren, implementierten wir eine neue Kostenfunktion. Diese beruht auf einer diskreten Verteilung, der sogenannten negativen Binomialverteilung. Mit dem Beispiel des Dropout Effekts kann man anschaulich erklären, was in dem Autoencoder vorgeht: Der Algorithmus ermittelt die Wahrscheinlichkeit, ob eine Null dem Datenmuster entspricht oder eine starke Abweichung zugrunde liegt. Liegt eine starke Abweichung zugrunde, schätzt der Algorithmus einen korrigierten Expressionswert basierend auf ähnlichen Zellen und Genen. In der Originalpublikation zeigten wir, dass sich mit den korrigierten Daten biologische Prozesse besser modellieren lassen. Zum Beispiel ist die Korrelation zwischen bekannten Regulatoren in den korrigierten Daten erhöht und subtile zelluläre Subtypen leichter zu erkennen. Da künstliche Intelligenz Algorithmen auf große Datenmengen spezialisiert sind, skaliert der Deep Count Autoencoder im Gegensatz zu anderen Korrekturmethoden auf Datensätze mit Millionen von Zellen.

Autoren
Lukas Simon1, Anna Sacher1, Fabian Theis1,2

Zugehörigkeiten
1 Institute of Computational Biology, Helmholtz Zentrum München, Deutschland
2 Fakultät für Mathematik, Technische Universität München, Deutschland

Kontakt
Prof. Dr. Dr. Fabian Theis

Institutsdirektor
Institute of Computational Biology
Helmholtz Zentrum München
München, Deutschland
fabian.theis@helmholtz-muenchen.de
www.comp.bio
 

Mehr Artikel zu Mikroplastik!

 

Literatur
[1] Angerer, Philipp, Lukas Simon, Sophie Tritschler, F. Alexander Wolf, David Fischer, and Fabian J. Theis. 2017. “Single Cells Make Big Data: New Challenges and Opportunities in Transcriptomics.” Current Opinion in Systems Biology 4: 85–91.
[2] Eraslan, Gökcen, Lukas M. Simon, Maria Mircea, Nikola S. Mueller, and Fabian J. Theis. 2019. “Single-Cell RNA-Seq Denoising Using a Deep Count Autoencoder.” Nature Communications 10 (1): 390.
[3] Moignard, Victoria, Steven Woodhouse, Laleh Haghverdi, Andrew J. Lilly, Yosuke Tanaka, Adam C. Wilkinson, Florian Buettner, et al. 2015. “Decoding the Regulatory Network of Early Blood Development from Single-Cell Gene Expression Measurements.” Nature Biotechnology 33 (3): 269–76.

Kontaktieren

Helmholtz Zentrum München


Jetzt registrieren!

Die neusten Informationen direkt per Newsletter.

To prevent automated spam submissions leave this field empty.