Künstliche Intelligenz für die biomedizinische Bildgebung

Das Wissen über den Datenerzeugungsprozess ist von großer Bedeutung

  • Abb. 1: A) CAD Zeichnung des Mikrofluidik-Chips für die Generierung von Pikoliter-Tropfen. B) Schnappschuss der Einspritzung kodierter Tropfen in den Mikrofluidik-Chip. C) Vier mikroskopische Aufnahmen von kodierten Tropfen, für die die Farben der Kügelchen mittels Künstlicher Intelligenz bestimmt werden.Abb. 1: A) CAD Zeichnung des Mikrofluidik-Chips für die Generierung von Pikoliter-Tropfen. B) Schnappschuss der Einspritzung kodierter Tropfen in den Mikrofluidik-Chip. C) Vier mikroskopische Aufnahmen von kodierten Tropfen, für die die Farben der Kügelchen mittels Künstlicher Intelligenz bestimmt werden.
  • Abb. 1: A) CAD Zeichnung des Mikrofluidik-Chips für die Generierung von Pikoliter-Tropfen. B) Schnappschuss der Einspritzung kodierter Tropfen in den Mikrofluidik-Chip. C) Vier mikroskopische Aufnahmen von kodierten Tropfen, für die die Farben der Kügelchen mittels Künstlicher Intelligenz bestimmt werden.
  • Abb. 2: Maschinelles Lernen wird oft wie eine „Wundertüte“ für verschiedene Datentypen angewandt. Auch wenn der Algorithmus bekannt ist (z.B. Random Forest), so bleiben die individuellen Entscheidungsgründe im Dunkeln.
  • Abb. 3: Der obere Tropfen stellt das Ergebnis nach Klassifizierung jedes einzelnen Kügelchens mittels Random Forest dar. Falls der Code aus experimentellen Gründen unmöglich oder höchst unwahrscheinlich ist, wird mittels Bayes’scher Inferenz ermittelt (siehe mittlere Reihe von Tropfen), welcher der zu erwartenden Codes mit höchster Wahrscheinlich zugrunde liegt.
Moderne experimentelle Methoden erzeugen in kürzester Zeit enorme Datenmengen. Sowohl die Komplexität als auch die Menge an Daten machen es in den meisten Fällen unmöglich, diese manuell zu analysieren. Die Verwendung von Methoden des maschinellen Lernens erfreut sich wachsender Popularität bei der Konstruktion von Analyse-Pipelines für komplexe Daten. Aber maschinelles Lernen bedeutet nicht einfach das Verschieben von Daten in eine Blackbox zur Lösung einer Aufgabe. Vielmehr ist häufig auch hier zunächst eine Vorverarbeitung der Daten und anschließend eine genaue Analyse der generierten Ausgabe notwendig, um sinnvolle Zusammenhänge in den Daten zu entdecken.
 
In einer kürzlich durchgeführten Studie haben wir maschinelles Lernen auf mikroskopische Bilddaten von winzigen Pikoliter-Tröpfchen in einer mikrofluidischen Plattform angewendet (Abb. 1). Die Tropfen enthalten Kügelchen in verschiedenen Farbkombinationen, wobei jede Farbkombination für eine andere experimentelle Bedingung kodiert, wie beispielsweise ein spezielles Antibiotikum. Die Aufgabe bestand darin, die unterschiedlichen experimentellen Bedingungen durch Ablesen der Farben der Kügelchen zu bestimmen. Um diese Aufgabe zu lösen, haben wir traditionelle Bildanalysewerkzeuge wie die Vorverarbeitung, das maschinelle Lernen für die Farbklassifizierung der Kügelchen und die Bayes‘sche Inferenz miteinander kombiniert [1]. Diese Arbeit ist ein Paradebeispiel dafür, wie wichtig es ist, die Daten selbst zu verstehen und dafür, wie ein erfolgreicher Algorithmus basierend auf maschinellem Lernen generiert und implementiert werden kann (Abb. 2).
 
Datenvorverarbeitung
Es kann eine enorme Herausforderung darstellen, eine genügend große Menge an annotierten Daten für das Training eines maschinellen Lernmodells zu erhalten. Typischerweise muss ein Experte für die den Daten zugrundeliegenden Experimente viel wertvolle Zeit für das manuelle Annotieren von Daten aufwenden. Da Menschen jedoch leicht zu Fehlern neigen und verschiedene Personen Daten unterschiedlich interpretieren können, wäre es ideal, wenn die Daten von mehreren Personen annotiert würden, um solche Ungenauigkeiten zu vermeiden [2].

Einige Algorithmen für maschinelles Lernen können unbeaufsichtigt arbeiten; d.h. sie gruppieren Daten in Klassen auf der Grundlage von Ähnlichkeiten bestimmter Merkmale selbständig und ohne manuelle Zuweisungen. Beispiele für solche Algorithmen basieren auf „Gaussian-Mixture“-Modellen, wie sie etwa bei der Identifizierung von fluoreszenzmarkierten zirkulierenden Tumorzellen angewandt wurden [3].

Im Projekt zur Dekodierung von Mikrofluidik-Tröpfchen existiert eine Fülle von annotierten Daten, da wir während der Codegenerierung Tausende von Tröpfchen unter kontrollierten Bedingungen aufzeichnen können; z.B. mit Codes, die aus Kügelchen mit identischer Farbe bestehen. Die meiste Zeit wird beim Trainieren eines Modells für maschinelles Lernen typischerweise für die Vorbereitung der Daten aufgewandt. Algorithmen für maschinelles Lernen sind von Natur aus datenhungrig und tendieren dazu, sich am offensichtlichsten Merkmal für eine gute Klassifizierung zu orientieren. Dies bedeutet, dass die Trainingsdaten dieselbe Verteilung haben sollten wie die Daten, die dem Algorithmus bei der zukünftigen Anwendung präsentiert werden. Es ist natürlich schwer, die zukünftige Datenlage vorherzusagen, aber es sollte zumindest sichergestellt werden, dass eine ausreichende Variation von Beispieldaten präsentiert wird, anstatt nur solche Bilddaten zu präsentieren, die wir als Menschen für die besten Beispiele eines Falls halten. Für die Dekodierung von Tröpfchen ist es beispielsweise wichtig, beim Trainieren des Algorithmus auch solche Tröpfchen zu präsentieren, in denen die farbigen Kügelchen leicht unscharf oder verklumpt vorkommen.
Ein weiteres Problem, mit dem viele Modelle des maschinellen Lernens zu kämpfen haben, ist die Transformation von Datenpunkten. Objekte sollen erkannt und klassifiziert werden unabhängig davon, wo sie sich im Bild befinden, oder ob sie in Größe oder Form geringfügig variieren. Eine moderne Entwicklung, die zumindest das Problem der Translation von Objekten löst, sind Convolutional Neural Networks (CNNs), welche das gesamte Bild nach wichtigen Merkmalen durchsuchen [4]. Die Nachteile sind, dass noch mehr annotierte Daten zur Verfügung gestellt werden müssen und der Rechenaufwand entsprechend hoch ist. Mit zunehmender Rechenleistung und leistungsstärkeren Grafikkarten, die mittlerweile auch in Standard-Laptops verbaut werden, wird der Einsatz von CNNs aber in naher Zukunft wahrscheinlich weiter zunehmen.
Ein weiterer gängiger Ansatz, den wir auch für die Klassifizierung der farbigen Kügelchen in Mikrofluidik-Tröpfchen verwendet haben, besteht darin, interessierende Regionen mithilfe traditioneller Bildanalyseansätze zu segmentieren und dann Merkmale aus den Regionen zu extrahieren. Da die Kügelchen mit relativ konstanter Größe gefertigt werden, können wir dies bei der Verwendung von Gradientenfiltern in Kombination mit Schwellenwert- und Schablonenanpassung ausnutzen, um die Mitte jedes Kügelchens zu finden. Diese werden dann durch in einem Vektor von Farbwerten erfasst.
 
Trainieren und Testen von Klassifikatoren
Unabhängig davon, welchen Typ von Klassifikator man verwendet, ist es notwendig, einen Teil der Daten während des Trainings vor diesem verborgen zu halten. Dieser Teil, der als Test- oder Validierungssatz bezeichnet wird, wird dem Klassifikator erst nach dem Training vorgelegt, um dessen Leistung objektiv bewerten zu können. Die meisten Klassifikatoren können sich an die Trainingsdaten anpassen und dann sehr gut mit den Testdaten umgehen. Wenn dies jedoch nicht der Fall ist, dann muss der Klassifikator als überangepasst an die Trainingsdaten eingestuft und entsprechend modifiziert werden.
In unserer Studie zur Tröpfchenkodierung haben wir einen Random-Forest-Klassifikator verwendet, um die Farbe der einzelnen Kügelchen zu bestimmen. Random Forests bestehen aus einer Ansammlung – d.h. einem Wald – von Entscheidungsbäumen, bei denen jeder Entscheidungsbaum nur einen zufällig gewählten Teil aller Merkmale verwendet. Die Klassifizierungsergebnisse der Bäume wird anschließend für die Ermittlung des Gesamtergebnisses durch Abstimmung herangezogen [5]. Random Forests sind einfach zu implementieren und anzupassen, da nur wenige Hyperparameter festgelegt werden müssen (d.h. die Anzahl der Bäume, die Baumgröße und die Teilungsbedingungen) und das Ergebnis nicht sehr empfindlich auf die exakte Wahl der Parameterwerte reagiert. Andere Algorithmen für maschinelles Lernen, wie eine Support-Vektor-Maschine, können bei optimaler Abstimmung möglicherweise eine etwas bessere Leistung erzielen, sind jedoch auch anfälliger für das Risiko einer Überanpassung. Ein Beispiel, bei dem Random-Forest-Klassifikatoren die Support-Vektor-Maschinen deutlich übertreffen ist im Fall von fehlerhaften Annotationen in den Trainingsdaten gegeben, z. B. durch menschliches Versagen verursacht, da die verallgemeinernden Random-Forest-Klassifikatoren solche Artefakte besser ignorieren [2].
 
Umgang mit Unsicherheit im Klassifizierungsprozess
 
Selbst der beste Klassifikator macht Fehler. Aber in bestimmten Fällen kann das Wissen über den Datenerzeugungsprozess zur Verbesserung der Vorhersagen verwendet werden. Unser Random-Forest-Klassifikator, der zur Klassifizierung der farbigen Kügelchen verwendet wurde, lieferte in ungefähr 97% der Fälle korrekte Ergebnisse. Da sich jedoch im Durchschnitt 30 Kügelchen in jedem Tröpfchen befinden, hat also jedes dritte Tröpfchen ein Kügelchen, welches falsch klassifiziert wird und daher mit hoher Wahrscheinlichkeit zu einem falschen Code für den Tropfen beitragen wird.
Als Entwickler der Codierungsstrategie verfügen wir jedoch über einige zusätzliche Informationen, die der Random-Forest-Klassifikator nicht kennt. So wissen wir, welche Codes überhaupt im Datensatz vorhanden sind. Nach dem Training des Random Forests präsentierten wir dem Klassifikator unseren Validierungssatz an Kügelchen und konnten die Wahrscheinlichkeit ermitteln, dass der Klassifikator, dem eine bestimmte Farbe CT präsentiert worden war, die Farbe CD als erkannt zurückgibt. Schließlich wissen wir darüber hinaus, dass wir bei der Codegenerierung die Farben, aus denen ein Code besteht, zu gleichen Teilen gemischt hatten. Dies bedeutet automatisch, dass es sehr unwahrscheinlich ist, dass wir eine sehr ungleichmäßige Verteilung an Kügelchenfarben innerhalb eines einzelnen Tropfens finden werden. Mit diesem zusätzlichen Wissen können wir mithilfe der Bayes‘schen Inferenz prüfen (Abb. 3), ob der wahrscheinlichste Code dem erkannten Code oder einem anderen Code durch Fehlklassifizierungen entspricht [1]. Allein basierend auf dem Klassifikator hätten wir erwartet, dass wir für fast ein Drittel der Tröpfchen den falschen Code erhalten, aber die Bestimmung des wahrscheinlichsten Codes ergibt am Ende den richtigen Code für >99% der Tröpfchen.
 
Abschließende Gedanken
Der Einsatz von maschinellem Lernen zur Analyse biologischer Daten hat in den vergangenen Jahren deutlich zugenommen. Mittlerweile stehen Tools zur Verfügung, mit denen jeder Anwender mit Programmierkenntnissen die Daten mittels Methoden des maschinellen Lernens – wie zum Beispiel Random-Forest-Klassifikatoren oder auch modernste Deep-Learning-Algorithmen – analysieren kann. Die Algorithmen für maschinelles Lernen benötigen im Allgemeinen die Einstellung vieler Parameter und das Testen verschiedener Einstellungen. Unserer Erfahrung nach besteht der effektivste Weg zur Verbesserung von Algorithmen für maschinelles Lernen darin, die Daten selbst zu verstehen und zu berücksichtigen, wie diese generiert wurden. So wird der maschinelle Lernprozess durch die Kenntnis von Standard-Bildanalysemethoden, wie Kantenerkennung und Wasserscheidentransformation für das Splitten von Clustern, erheblich erleichtert. Die Ausgabe des maschinellen Lernprozesses, sei es Farben einzelner Kügelchen oder eine Wahrscheinlichkeitsverteilung auf Basis eines neuronalen Netzes, muss häufig nachbearbeitet werden, um die Quantifizierung zu verbessern. Hierbei ist zusätzliches Wissen über den Datenerzeugungsprozess von großer Bedeutung. Maschinelles Lernen wird sicherlich neue aufregende Entdeckungen ermöglichen, aber diese sollten gemeinsam mit etablierten Analysemethoden erzielt werden, anstatt zu versuchen, diese zu ersetzen.

 

Autoren
Carl-Magnus Svensson1 und Marc Thilo Figge1,2

Zugehörigkeiten
1 Angewandte Systembiologie, Leibniz Institut für Naturstoff-Forschung und Infektionsbiologie – Hans Knöll Institut, Jena, Deutschland
2 Fakultät für Biowissenschaften, Friedrich-Schiller Universität Jena, Deutschland

Kontakt
Prof. Dr. Marc Thilo Figge

Fakultät für Biowissenschaften
Friedrich-Schiller Universität Jena
Jena, Deutschland
thilo.figge@hki-jena.de
 

Weitere Beiträge zur Bioinformatik!

Literatur
[1] C.-M. Svensson et al., “Coding of Experimental Conditions in Microfluidic Droplet Assays Using Colored Beads and Machine Learning Supported Image Analysis,” Small, vol. 15, 2019.
[2] C.-M. Svensson, R. Hübler, and M. T. Figge, “Automated Classification of Circulating Tumor Cells and the Impact of Interobsever Variability on Classifier Training and Performance,” J. Immunol. Res., vol. 2015, 2015.
[3] C.-M. Svensson, S. Krusekopf, J. Lücke, and M. T. Figge, “Automated detection of circulating tumor cells with naive Bayesian classifiers.,” Cytom. Part A, vol. 85, 2014.
[4] Y. LeCun, Y. Bengio, and G. Hinton, “Deep learning,” Nature, vol. 521, 2015.
[5] L. Breiman, “Random Forests”, Mach. Learn., vol. 45, 2001.

Kontaktieren

Leibniz Institut für Naturstoff-Forschung und Infektionsbiologie - Hans Knöll Institut


Jetzt registrieren!

Die neusten Informationen direkt per Newsletter.

To prevent automated spam submissions leave this field empty.