Datenflut nach Analyse: Analyse Computer sind zu langsam

Weltweit werden täglich enorme Datenmengen aus der Sequenzierung von Erbgut (DNA) erzeugt. Mit der Geschwindigkeit mit der diese Daten anfallen, kann die derzeitig erhältliche Computertechnologie kaum schritthalten. Nicht die Speicherung dieser Datenmenge, sondern insbesondere die Verarbeitung ist hierbei problematisch. DNA besteht aus einem Rückgrat aus miteinander zu Ketten verbundenen Zuckerresten (Desoxyribose).

An jedem dieser Zuckerreste ist entweder eine Adenin- (A), Thymin- (T), Guanin- (G) oder Cytosinbase (C) angehängt. Über Wasserstoffbrückenbindungen sind zwei solcher Ketten mit komplementärer Sequenz aneinander gebunden, wobei A nur mit T und C nur mit G paaren kann (Abb.1). Dieser DNAStrang ist in sich verdreht (Abb. 2) und um spezielle Proteine (Histone) gewickelt (Abb. 3). Die daraus entstehende Perlenkette ist wiederum eng verpackt und um sich selbst gedreht. Diese Struktur ist dann zu Chromosomen verpackt (Abb. 4). Nur durch diese hochgeordnete Struktur ist es möglich, die in der DNA abgelegten Informationen abzulesen und bei Bedarf zu kopieren.

Datenerzeugung

Das BGI in China gilt derzeit als das größte Genforschungslabor weltweit. Es erzeugt mehr Sequenzdaten als mit vertretbarem Aufwand über Internet oder andere Datenkanäle übermittelt werden können. Deshalb werden die Plattenspeicher mit den gespeicherten Daten verpackt und per Kurierdienst an die Kunden oder Partnerlabors geschickt.

Dieses Problem wird sich noch verschärfen, denn zwei Hersteller haben Geräte für dieses Jahr angekündigt, die für 1000-Dollar innerhalb eines Tages ein menschliches Genom sequenzieren können. Angesichts der Tatsache, dass die Sequenzierung des ersten vollständigen menschlichen Genoms von 1990 bis 2003 dauerte, ist die Entwicklung der Sequenziergeschwindigkeit revolutionär statt evolutionär verlaufen. Diese Zahlen entsprechen einer 4745 fachen Sequenziergeschwindigkeit (bei 1.Tag / Genom).

Die Kosten für das erste Projekt betrugen alleine in den USA 3,8 Milliarden US$. Das entspricht einer Reduktion der Kosten / Genom auf 0,000026 % (bei 1000 $/Genom) der ursprünglichen Kosten. Dabei werden die parallele Sequenzierung, Ionen-Halbleiter-Sequenzierung, DNA-Mikroarrays, DNA-Chips und andere Methoden genutzt.

Datenverarbeitung

Das große Problem sind nicht unbedingt die großen Datenmengen sondern die komplexen Zusammenhänge, die rechnerisch extrahiert und auf Plausibilität überprüft werden müssen.

Daher kostet die Auswertung der Genome meist deutlich mehr als die Sequenzierung. Die Daten sind im Rohzustand wissenschaftlich fast wertlos. Mit aufwändiger Software müssen die Daten in einen sinnvollen Zusammenhang gebracht und dargestellt werden.

Dazu werden hohe Rechenleistungen benötigt. Für die grafischen Darstellungen werden spezielle Grafikchips in großer Zahl eingesetzt, weil herkömmliche Computerchips damit überfordert wären. Experten meinen, dass die Analysen derzeit noch wenig sinnvolle Resultate aus den genetischen Informationen liefern. Derzeit beschränkt sich die Analyse hauptsächlich auf die Erforschung von kurzen Informationssequenzen, die beispielsweise bei Krebs aktiv sind.

Datenspeicherung

Die DNA einer einzelnen Zelle ist aus über drei Milliarden Basenpaaren aufgebaut. Damit können annähernd unendlich viele Kombinationen erzeugt werden. Für die Darstellung dieser Zahl (103 480 000 000) wären mehr als drei Milliarden (3 x 109) Ziffern nötig. Der größte Teil der DNA-Moleküle scheint nicht wirklich relevant zu sein. Unter dieser Annahme kann ein großer Teil der Datenmengen reduziert werden.

Eine weitere Komprimierungsmöglichkeit ist die „reference-based compression“ Methode, bei der neue Sequenzen mit gut bekannten Genomen verglichen und nur die Differenzen gespeichert werden. Bei dieser Methode werden veränderlich einstellbare, kontrollierte Datenverluste in Kauf genommen, um Kosten und Datenmengen zu begrenzen. Weitere Methoden sind z.B. nicht die Daten sondern die DNAProben zu speichern oder alte Daten zu löschen.

Es ist heute deutlich billiger ein Genom bei Bedarf erneut zu sequenzieren als diese Daten zu speichern. Ungelöst ist bislang das Problem der verlässlichen Datenspeicherung. Zum Einen sind bereits wenige Jahre nach Markteinführung sowohl die Datenspeichersysteme, als auch die dazugehörige Hardware nicht mehr zeitgemäß und bald darauf auch nicht mehr verfügbar.

Dies macht ständige Datenübertragungen in neue Formate notwendig, das Kopieren von Daten verursacht aber immer auch ein Abnehmen der Datenintegrität. Dieses Problem wird durch die mangelnde Integrität der Speichersysteme selbst potenziert. Um einigermaßen sicher Daten aufzubewahren sind stets mehrere Kopien eines Datensatzes auf getrennten Speichersystemen erforderlich.

Risiko

Im November waren über mehrere Monate hinweg Patientendaten frei im Internet verfügbar. Das waren hochsensible Behörden- und Arztbriefe sowie Befunde von Menschen aus Schleswig-Holstein. Es gab eine Sicherheitslücke beim Dienstleister. Die Daten konnten nicht nur eingesehen, sondern auch für eine unbestimmte Zeit herunter geladen werden.

Der Dienstleister schaltete seinen Server ab, weil er auch noch Datenbanken für weitere Dienste und Behörden in Deutschland betreibt. Internet und ‚Cloud Computing‘ kann also sehr riskant sein. Über selbstverursachte Lücken in den Sicherheitssystemen hinaus ist sehr viel Spionagesoftware aus unterschiedlichsten Quellen, sowohl kriminellen, als auch staatlichen, im Umlauf.

Anwendungen

Der Einsatz von DNA-Daten für forensische Zwecke oder Vaterschaftsanalysen ist in der Öffentlichkeit gut bekannt. Als im Frühjahr 2011 in Deutschland EHEC (E.coli) ausbrach, konnte die Genomsequenz des Erregers in einer internationalen Aktion sehr schnell ermittelt werden. Hilfreich waren dabei die Sequenzier-Geräte mit Halbleiterchips von Life Technologies (Ion Torrent Systems) wegen ihrer besonders schnellen Analysezeiten.

1990 erfolgte die bundesweite Einführung des genetischen Fingerabdrucks in die forensische Praxis und der Bundesgerichtshof (BGH) fällte ein Grundsatzurteil dass die DNA-Analyse zur Aufklärung von Straftaten grundsätzlich zulässig ist. Ab 1998 wurde beim Bundeskriminalamt (BKA) eine DNA-Analyse-Datei (DAD) eingerichtet. Mit Ablauf des III. Quartals 2011 umfasste die DAD einen Bestand von 935 529 Datensätzen. Die ‚UK National Criminal Intelligence DNA Database‘ wurde ab 1995 in Großbritannien angelegt.

Sie war 2008 mit den DNA-Daten von über vier Millionen Personen die größte forensische DNA-Datenbank der Welt. Da einzelne Austausche der DNA Bausteine erhebliche Auswirkungen auf die Gesundheit von Mensch und Tier haben können, ist der Vergleich verschiedener Genome, sowohl gesunder, als auch kranker, notwendig um die Auswirkungen solcher Austausche und möglicher Therapien abzuleiten.

Auch der Vergleich verschiedener Genome eines einzelnen Menschen, z.B. zwischen „normalem“ Gewebe und Krebsgewebe bringt Informationen zu effektiven Therapien. Der Vergleich der DNA verschiedener Tiere wird zur Aufklärung der Verwandtschaftsverhältnisse einzelner Spezies und höherer Taxa verwendet. Hierbei wurden massive Widersprüche mit grundlegenden Paradigmen in den Evolutionstheorien aufgedeckt [1, 2].

Definitionen, Erläuterungen

Datenmengen
Im Büro- und Privatbereich sind heute Mega- (106) und Gigabyte (109) übliche Datenmengen. Die ‚offiziellen‘ Vorsätze für Zahlen enden bei Yotta(byte) (1024). Das CERN in Genf produziert im Jahr mehr als 1 Petabyte (1015). Dabei werden aber bei vielen Experimenten in Echtzeit vor der ersten Speicherung schon Daten im Verhältnis von 1: 40 Millionen herausgefiltert und verworfen, weil die Übertragung und Speicherung aller anfallenden Daten nicht möglich ist.

Bei den Mengenangaben ist auch zu beachten, dass in den USA viele Dinge anders sind als im Rest der Welt. Das gilt auch für die Benennung von großen Zahlen. In den meisten europäischen Zahlen wird nach jeder ‚-ion‘ eine ‚-iarde‘ eingefügt, also nach der Million folgt die Milliarde, nach der Billion folgt die Billiarde. In den USA fallen die ‚-iarden‘ weg. Das macht sich gut in der Werbung, weil die Zahlenbezeichnungen schnell größer werden. So wird eine amerikanische Billion (109) schneller erreicht als eine europäische (1012). Bei jeder nächsten Stufe wächst diese Differenz nochmals um den Faktor eintausend. Oft werden solche amerikanischen Werte ohne Umrechnung einfach übernommen.

Moore‘s Law
Eine Feststellung (kein Gesetz) von Gordon Moore, einem Mitbegründer von Intel, aus dem Jahre 1965 lautet, dass im Durchschnitt die Anzahl der Transistoren je Halbleiter-Chip damals in etwa 12 Monaten um das Doppelte erhöht werden konnten. Heute dauert die Verdoppelung schon jeweils etwa 24 Monate.

Das wird dann automatisch als Verdoppelung der (logischen) Leistung angesehen. Das ist reine Halbleiterphysik ohne (logische) Architekturverbesserung. Wie alle physikalischen Phänomene flacht diese Wachstumskurve ab. Die früher übliche Taktverdoppelung ist bereits vor einigen Jahren zum Stillstand gekommen. Hierdurch wird das Problem, dass die Entwicklung der Speicherkapazität und Geschwindigkeit bei Computern mit der Entwicklung der Sequenziergeräte nicht Schritthalten kann, deutlich. Das Genom von Gordon Moore wurde kürzlich mit einer sehr modernen DNA-Maschine analysiert, deren Hersteller der erste mit einem 1000-Dollar- Gerät sein möchte.

Literatur

[1] Kusserow A. et al.: Nature 433, 156–160 (2005)

[2] Lindley R.: GIT-Labor-Fachzeitschrift 55, 718–720 (2011)

▶ ▶Kontakt

Hermann Strass Technologie

Consulting Strass

Nördlingen

Autor(en)

Jetzt registrieren!

Die neusten Informationen direkt per Newsletter.

To prevent automated spam submissions leave this field empty.