Analyse von Hochdurchsatzdaten: Struktur und Umfang eines neu entwickelten Softwarepakets

  • Abb. 1: Visueller Vergleich der Respirationskurven von 24 Stämmen einer Bakterienart im XY-Plot. Aus genetischen Daten sind die Zugehörigkeiten zu den Untergruppen „A“, „B“ und „C“ bekannt. Der XY-Plot ermöglicht den visuellen Vergleich der physiologischen Reaktionen zwischen den drei genetischen Untergruppen.Abb. 1: Visueller Vergleich der Respirationskurven von 24 Stämmen einer Bakterienart im XY-Plot. Aus genetischen Daten sind die Zugehörigkeiten zu den Untergruppen „A“, „B“ und „C“ bekannt. Der XY-Plot ermöglicht den visuellen Vergleich der physiologischen Reaktionen zwischen den drei genetischen Untergruppen.
  • Abb. 1: Visueller Vergleich der Respirationskurven von 24 Stämmen einer Bakterienart im XY-Plot. Aus genetischen Daten sind die Zugehörigkeiten zu den Untergruppen „A“, „B“ und „C“ bekannt. Der XY-Plot ermöglicht den visuellen Vergleich der physiologischen Reaktionen zwischen den drei genetischen Untergruppen.
  • Abb. 2: Struktur und Anwendungspotential von „opm“
  • Abb. 3: Vergleich von 24 Bakterien einer Art (kinetische Rohdaten aus Abb. 2) bezüglich des Kurvenparameters „Area under the curve“ (AUC). Die genetischen Untergruppen sind durch die Farbkodierung im vertikalen Dendrogramm an der linken Seite gekennzeichnet.
  • Abb. 4: Exemplarischer Vergleich der 95 % Konfidenzintervalle (100fachen bootstrap) der vier Kurvenparameter für zwei Kohlenstoffquellen im CIPlot. Die Abbildung zeigt jeweils vier Messungen von zwei sehr nah verwandten Bakterien (blau und rot). Die CI-Plots zeigen in hochauflösender Form, in welchen Kurvenparametern sich auch sehr ähnliche Kurven signifikant voneinander unterscheiden können.

Automatisierte Hochdurchsatz-Verfahren ermöglichen die phänotypische Charakterisierung von Bakterien, Pilzen, Hefen oder auch Krebs-Zelllinien parallel für fast 2.000 physiologische Herausforderungen. Das von uns entwickelte R-Paket opm (OmniLog Phenotype MicroArray) dient der umfassenden graphischen und statistischen Analyse der erhaltenen longitudinalen Respirationskinetiken.

Die phänotypische Analyse von Daten

Das Methodenspektrum für Hochdurchsatzanalytik von metabolischen Vorgängen wird seit kurzem durch den sogenannten Phenotype MicroArray (PM) der Firma Biolog ergänzt. Diese Technik bietet die Möglichkeit, auf phänotypischer Ebene den zeitlichen Verlauf metabolischer Vorgänge an lebenden Zellen und zerstörungsfrei im Hochdurchsatzverfahren zu beobachten.

Die Zellen werden in Flüssigmedium inklusive eines Redoxfarbstoffes aufgenommen und auf spezielle 96-Well-Mikrotiter-Platten übertragen.In den Kavitäten der Platten befinden sich verschiedenste Substanzen, die entweder als Energiequelle dienen oder inhibitorisch wirken können. Bei metabolischer Aktivität der Zellen wird der Redoxfarbstoff zu einem violetten Pigment reduziert.

Alle 15 Minuten wird die Intensität des Farbstoffs optisch erfasst; so können „Respirationskinetiken“ aufgezeichnet werden, die typischen bakteriellen Wachstumskurven stark ähneln (es wird jedoch kein Zellwachstum gemessen). Unter voller Auslastung des Gerätes können in einer viertägigen Messung 4.800 Kurven mit je etwa 380 Messwerten aufgenommen werden.

Die Form des Kurvenverlaufes liefert wertvolle Informationen zu Beginn, Stärke und Intensität der physiologischen Reaktion. Da die proprietäre Software bisher keine angemessenen Methoden zur graphischen und statistischen Analyse dieser Datenfülle bot, haben wir das R-Paket „opm“ entwickelt [1,2]. R ist eine freie und betriebssystemunabhängige Analyse- und Programmierumgebung für statistisches Rechnen und Grafiken [3].

Über das System der Zusatz-Pakete steht eine enorme Bandbreite an graphischen und statistischen Lösungen zur Verfügung, die weit über das Potential vieler kommerzieller Lösungen hinausgehen.

Anwendung der Analysesoftware

Die Datenstruktur: Import, Management und Filtern der Daten Die Rohdaten werden im CSV-Format (comma separated value) aus der proprietären Software exportiert und von R bzw.

„opm“ geladen (Abb. 1). Eine typische Respirationskurve kann durch vier Parameter beschrieben werden. Die lag- Phase λ (lambda) beschreibt die Zeit, bis eine messbare Reaktion eintritt.

Der Parameter μ (mu) beschreibt die Intensität der Reaktion (über die maximale Steilheit der Kurve). Der Maximalwert der Kurve (A) und die Fläche unter der Kurve, (AUC) werden ebenfalls berechnet. Die mit Hilfe von Bootstrapping abgeleiteten 95 % Konfidenz- Intervalle der Kurvenparameter können für statistische Vergleiche der Kurven benutzt werden.

Aber erst mit Metadaten zu den untersuchten Organismen bzw. experimentellen Bedingungen gewinnen die Rohdaten und ihre abgeleiteten Kurvenparameter ihren vollen Informationswert. Die Software erlaubt daher, Metadaten zum Datensatz hinzuzufügen und zu aktualisieren. Der Nutzer erhält somit ein Objekt, welches alle Informationen enthält und als Datei exportierbar ist.

Dieses Objekt besteht aus den kinetischen Rohdaten, den berechneten Kurvenparametern sowie den assoziierten Metadaten. Durch verschiedene Abfrage- und Filterfunktionen kann bei gezielter experimenteller Fragestellung einzeln oder über alle Objekteinträge (Rohdaten, aggregierte Kurvenparameter und Metadaten) gesucht und können die entsprechenden Daten für die graphische und statistische Analyse extrahiert werden.

Graphische Analyse

Zur Darstellung der kinetischen Rohdaten werden Levelplots (Abb. 2) und XY-Plots (Abb. 1) angeboten. Levelplots ermöglichen einen raschen visuellen Vergleich ganzer Platten, während XY-Plots den direkten Vergleich zwischen den Kurven verschiedener Experimente pro Substrat ermöglichen.

Die Farbgebung der Kurven kann bei individuellen experimentellen Fragestellungen dann z.B. anhand der gewählten Metadaten-Gruppierung erfolgen. Die aggregierten Kurvenparameter können über Radial-Plots (Abb. 1) oder Heatmaps (Abb. 3) dargestellt werden.

Radial-Plots bieten einen direkten graphischen Vergleich weniger ausgewählter Substrate, während Heatmaps den Vergleich verschiedener Experimente (beispielsweise verschiedene Organismen oder unterschiedliche experimentelle Bedingungen) in einer Grafik ermöglichen. In Heatmaps werden Messwerte wie Experimente nach ihrer Ähnlichkeit gruppiert (Abb. 3).

Statistische Analyse

Für die Darstellung der 95 %-Konfidenzintervalle der vier Kurvenparameter ist ein CI-Plot implementiert. Ein Nicht-Überlappen der 95 %-Konfidenzintervalle (CI) weist auf einen statistisch signifikanten Unterschied zwischen den betreffenden Kurven in dem betreffenden Parameter hin (Abb. 4).

Diskretisierung der Daten

Eine bisherige Kern-Anwendung der PM-Technologie war die Eingruppierung der physiologischen Reaktionen in die qualitativen Kategorien „positiv“, „negativ“, und „schwach“. Die Kurvenform wird dabei ignoriert. „opm“ ermöglicht nach wie vor diese Anwendung durch eine automatische Diskretisierung (Gruppierung in Kategorien) und Export der Ergebnisse. Die Grenzen der Kategorien können vorgegeben oder u.a. durch das k-means-Verfahren errechnet werden.

Verwendung anderer R-Pakete

Daten können in entsprechende „data frame“-Objekte konvertiert werden. Der Nutzer kann nahtlos und barrierefrei die Vielfalt an statistischen Untersuchungsmethoden anderer R-Pakete nutzen.

Phylogenetische Analysen

Der Export der Kurvenparameter vor oder nach einer Diskretisierung erlaubt deren Analyse mit spezialisierter phylogenetischer Software wie PAUP, MacClade, RAxML oder TNT für die Berechnung von Stammbäumen oder die Rekonstruktion von Merkmalsevolution.

Verwendung dritter Software

Das neue Softwarepaket unterstützt den Export und Import im YAML-Format [4]. YAML ist eine leicht lesbare Auszeichnungssprache zur Datenserialisierung, die von allen gängigen Programmiersprachen interpretierbar ist. Dadurch sind Dateien im YAML-Format zwischen verschiedenen Laboren, Programmen und Datenbanken leicht und einfach portabel.

Welche Forschungsansätze können untersucht werden?

„opm“ ist bewusst so gestaltet, dass es für eine hohe Breite von Analyseansätzen geeignet ist. Im simpelsten Fall werden die Kinetiken rein qualitativ klassifiziert. Komplexere Anwendungen (Abb. 2–4) untersuchen quantitative Unterschiede in Kurvenparametern von sehr nah verwandten Organismen bzw. definierten Mutanten. Damit ist die Software für genetische, biochemische, ökologische oder auch systembiologische Forschungsansätze geeignet.

Literatur

[1] Vaas LAI, et al.: PloS ONE 7, e34846, 2012

[2] http://www.dsmz.de/de/forschung/ mikroorganismen/projekte/analysisof- omnilog-phenotype-microarraydata. html

[3] GNU General Public License (GPL), http://www.r-project.org

[4] http://www.yaml.org/ Weitere Literatur direkt bei den Autoren.

▶ ▶Kontakt

Dr. Johannes Sikorski Leibniz-Institut

DSMZ-Deutsche Sammlung von Mikroorganismen

und Zellkulturen GmbH

Tel.: 0531/2616111

johannes.sikorski@dsmz.de

www.dsmz.de

Autor(en)

Kontaktieren

DSMZ - German Collection of Microorganisms and Cell Cultures Department of Human and Animal Cell Lines
Inhoffenstr. 7B
38124 Braunschweig
Germany

Jetzt registrieren!

Die neusten Informationen direkt per Newsletter.

To prevent automated spam submissions leave this field empty.