Cloud-Computing in der Bioinformatik

Cloud-Computing zur Analyse großer Datenmengen in den Lebenswissenschaften, de.NBI, Universität Bielefeld,

  • Tab. 1: Die Servicezentren des de.NBI-Netzwerks.Tab. 1: Die Servicezentren des de.NBI-Netzwerks.
  • Tab. 1: Die Servicezentren des de.NBI-Netzwerks.
  • Abb. 1: Schematische Darstellung eines Cloud-basierten Analyse-Workflows. Die Rohdaten werden in das Cloud-Storagesystem übertragen. Danach können dynamisch skalierbare Rechnerressourcen alloziert werden, die virtualisierte Analyse-Pipelines aus einem zentralen Repository (z. B. DockerHub) beziehen und die Daten verarbeiten. Analyseergebnisse werden fusioniert und dem Nutzer wieder verfügbar gemacht.
Christian Lawerenz1, Alexander Sczyrba2, Alfred Pühler3
 
Die Fortschritte moderner Technologien stellen für die Lebenswissenschaften immer größere Herausforderungen dar. So entstehen etwa bei Genomanalysen oder auch bildgebenden Verfahren enorm große Datenmengen, die mit jeder neuen Generation von Laborgeräten immer schneller wachsen. Während selbst kleine Forschungslabore heute relativ einfach „Big Data“ erzeugen können, wird die Auswertung der Daten für die meisten immer mehr zum Flaschenhals. Das Problem der limitierten Rechenressourcen in den Lebenswissenschaften soll durch die Etablierung einer Cloud gelöst werden. „Cloud Computing“ bietet einen neuen Ansatz, dynamische, hoch skalierbare Software-Lösungen zu entwickeln. Cloud-Computing-Umgebungen bieten Lösungen, die auf die Anforderungen von unterschiedlichsten Analysen speziell zugeschnitten sind, so dass es für den Wissenschaftler keine Rolle mehr spielt, auf welchen Computern die Analysen tatsächlich durchgeführt werden. In der Vergangenheit hätte man bei der Investition in ein Laborgerät gleichzeitig in Rechnerinfrastruktur investieren müssen, um die anfallenden Daten weiterzuverarbeiten. Diese Rechenressourcen wurden dann aber von den einzelnen Laboren meist nur sporadisch genutzt, nämlich immer dann, wenn gerade experimentelle Daten anfielen. Durch die Nutzung von Cloud-Computing-Umgebungen können sich so erhebliche Kosteneinsparungen ergeben: eine Investition in lokale Computer-Hardware ist nicht mehr nötig. 
 
Die Arbeitsweise einer Cloud-basierten Analyse ist in Abbildung 1 dargestellt. Zunächst werden die Daten vom Nutzer in den Cloud-Speicher eines der de.NBI Standorte transferiert. Dann können, abhängig vom Rechenaufwand der Analyse und Größe des Datensatzes, dynamisch Compute-Ressourcen zur Verfügung gestellt werden, indem sogenannte „virtuelle Maschinen“ in der Cloud-Umgebung zum Einsatz kommen. Die Ausstattung dieser Maschinen wird durch die Analysepipeline bestimmt und kann ebenfalls dynamisch konfiguriert werden. Im nächsten Schritt muss die Analysepipeline selbst auf den virtuellen Maschinen bereitgestellt werden.

Dies geschieht durch sogenannte Docker-Container. Diese beinhalten die gesamte Software der Analyse-Pipeline, die wiederum aus sehr vielen Programmen und zugehörigen Software-Bibliotheken bestehen kann. Der Vorteil der „Virtualisierung“ in Docker-Containern ist offensichtlich. Alle Abhängigkeiten werden durch ein Verpacken in Containern erfüllt. Dies erlaubt das einfache Transferieren der Analyse-Pipelines in verschiedene Cloud-Umgebungen oder auf verschiedene Cloud-Standorte. Dadurch wird ein Transfer von großen Datenmengen vermieden, stattdessen werden die kompakten Container zu den Daten transferiert. Nachdem die Analysen abgeschlossen sind, werden die Ergebnisse von den verschiedenen virtuellen Maschinen gesammelt und dem Nutzer zum Download zur Verfügung gestellt, oder alternativ wieder im Cloud-Speicher abgelegt.

 
Deutsches Netzwerk für Bioinformatik-Infrastruktur setzt auf Cloud-Computing
 
Das Bundesministerium für Bildung und Forschung (BMBF) hat zur Lösung des Big Data-Problems in den Lebenswissenschaften im März 2015 das Deutsche Netzwerk für Bioinformatik Infrastruktur (de.NBI) ins Leben gerufen. Das de.NBI-Netzwerk besteht aus acht Servicezentren, die sich thematisch unterscheiden und den Großteil an bioinformatischen Analysen abdecken. So spezialisiert sich das Heidelberger Zentrum auf Bioinformatik-Services im Bereich der Humangenomik, Bielefeld auf Services für mikrobieller (Meta-)Genomik und Gatersleben auf Pflanzengenomik. Services für Proteomik werden in Bochum zur Verfügung gestellt, RNA Bioinformatik in Freiburg. Weitere Themen sind integrative Bioinformatik in Tübingen, Systembiologie in Heidelberg und ein Zentrum für biologische Daten in Bremen. Eine Übersicht über diese Servicezentren kann der Tabelle 1 entnommen werden. 
 
Die Aufgaben des de.NBI-Netzwerks sind vielschichtig. Zu Beginn des Projekts galt es, aus acht Servicezentren ein Netzwerk zu formen, das koordiniert seinen Serviceaufgaben nachkommt. Dazu wurde ein Koordinator berufen und eine Geschäftsstelle eingerichtet. Die Entscheidungen innerhalb des Netzwerks werden von einem zentralen Koordinationsgremium getroffen, in dem alle acht Servicezentren einen Sitz haben. Zusätzlich unterstützt ein wissenschaftlicher Beirat die Arbeit des Netzwerks. Hauptaufgaben des de.NBI-Netzwerks sind die Gebiete Service und Training. Die einzelnen Servicezentren sind zur Unterstützung experimentell arbeitender Gruppen aus dem Bereich der Lebenswissenschaften gedacht und bringen sich ein, wenn mittels bioinformatischer Werkzeuge große Datensätze analysiert werden sollen. Dabei werden neuste Software-Programme eingesetzt, deren Funktionsweisen interessierten Nutzern auch in Trainingskursen vermittelt werden. 
 
Im vergangenen Jahr wurde das Aufgabenspektrum des de.NBI-Netzwerks nochmals drastisch erweitert. Zunächst gelang es, die Kooperation mit ELIXIR, einem europaweiten Netzwerk für eine dezentrale Bioinformatik-Infrastruktur, in die Wege zu leiten. Als eine besondere Herausforderung wurde schließlich die Bereitstellung ausreichender Rechner-Ressourcen für das Netzwerk gesehen. Um dieses Problem zu lösen, wurde der Startschuss für die Etablierung einer de.NBI-Cloud gegeben. Zur Etablierung einer de.NBI-Cloud stellte das BMBF zunächst für 3 Jahre zusätzlich 6 Mio. Euro zur Verfügung. Fünf Standorte wurden für die Etablierung der de.NBI-Cloud ausgewählt: Bielefeld und Gießen, Heidelberg, Freiburg und Tübingen. Aufgabe der fünf Standorte wird zunächst die Installation von Compute- und Storage-Hardware sein. Als Cloud Computing Plattform kommt an allen Standorten die OpenSource-Lösung „OpenStack“ zum Einsatz. So kann ein harmonisierter Austausch von Analyse-Pipelines zwischen den Standorten gewährleistet werden. Zunächst werden die de.NBI-Zentren ihre Services über die de.NBI Cloud den experimentellen Wissenschaftlern aus den Lebenswissenschaften zur Verfügung stellen. Um den Transfer der bestehenden Werkzeuge in die Cloud Umgebung zu unterstützen, fördert das BMBF sechs Personalstellen. Ein Mitarbeiter wird die zentrale Cloud Governance in der de.NBI Geschäftsstelle übernehmen. Weitere Mitarbeiter sind an den Cloud-Standorten angesiedelt. Zu ihren Aufgaben gehört die Interoperabilität der Installationen an den verschiedenen Standorten zu gewährleisten. Ebenso werden sie Bioinformatiker unterstützen, ihre Tools „cloudgängig“ zu gestalten. Dazu müssen spezialisierte virtuelle Umgebungen eingerichtet werden, die dann wiederum den einfachen Austausch der Pipelines zwischen den Cloud-Standorten ermöglichen.
 
IT-Maßnahmen für die Umsetzung von Datenschutz und Datensicherheit in der de.NBI Cloud
 
Bisher ist keine deutsche Universität oder Forschungseinrichtung in der Lage, die für die Analyse von großen Datenmengen notwendige Infrastruktur für eine größere Anzahl von deutschen Lebenswissenschaftlern zur Verfügung zu stellen. Genau dies hat die de.NBI-Cloud zum Ziel, nämlich der Gesamtheit der deutschen Bioinformatiker die Nutzung einer umfassenden Infrastruktur zu ermöglichen. Somit handelt es sich nicht wie z.B. bei Amazon Web Services (AWS) um eine öffentliche Cloud („Public Cloud“), sondern um eine Community Cloud, in der nur die Nutzer zugelassen werden, die nachweislich mit einer deutschen Universität oder Forschungseinrichtung assoziiert sind. Bei dem Anmeldeverfahren wird sowohl die Authentifizierung durchgeführt, die die Echtheit des Nutzers beispielsweise als Mitarbeiter einer Universität überprüft, als auch der Nutzer autorisiert, d.h. die notwendigen Rechte zur Nutzung der Cloud vergeben. Um dieses komplexe Verfahren zu verwirklichen, verwendet de.NBI die „Authentication and Authorization-Infrastruktur (AAI)“ von ELIXIR. Somit erlangen nur Nutzer Zugang zu den Clouds, die bereits bekannt sind und sich ausweisen können. Dies unterscheidet sich von den Public Clouds, die jedem interessierten Nutzer uneingeschränkten Zugang gewähren.
 
In Hinblick auf die Datensicherheit besteht oft ein Vorbehalt gegenüber Cloudlösungen. Als vermeintlich sicherere Systeme gelten eher lokale IT-Systeme. Diese sind jedoch nur in seltensten Fällen vollkommen abgeschottet. Es existieren meist geöffnete Ports, Netzverbindungen nach außerhalb, um z. B. Up- und Downloads zu ermöglichen oder eigenen Mitarbeitern von Zuhause aus den Zugriff zu gewähren. Es besteht sowohl bei diesen lokalen Lösungen als auch bei Cloudinstallationen ein nicht ganz auszuschließendes Risiko, dass die Kommunikationswege von nicht befugten Usern genutzt werden, um unberechtigt auf die Ressourcen und Daten zuzugreifen.
 
Bei Cloudsystemen besteht das Risiko von Angriffen auf die Server in Form von Denial-of-Service-Attacken (DoS, „Verweigerung des Dienstes“), hervorgerufen durch eine Überlastung der Dienste aufgrund einer großen Anzahl von automatisch generierten Anfragen. Hinzu kommt die Gefahr von Schadsoftware, die entwickelt wurde, um unerwünschte und gegebenenfalls schädliche Funktionen auszuführen.
 
An den jeweiligen de.NBI Cloud-Standorten werden umfangreiche IT-Sicherheitskonzepte umgesetzt, um dennoch ein hohes Maß an Datenschutz und Datensicherheit zu gewährleisten. Diesbezüglich geht es hier im Wesentlichen darum, die Risiken des Missbrauchs zu reduzieren.
 
Eine der zentralen Anforderungen an die de.NBI Cloud-Infrastruktur ist eine solide Sicherheitsarchitektur. Es kommt nur die für den Betrieb notwendige Software zum Einsatz, die auch robust und getestet ist. Es werden „Firewalls“ zur Kontrolle der Netzzugriffe eingerichtet. Die Rechtevergabe ist restriktiv. Nícht mehr benötigte Konten werden durch einen automatisierten Prozess gelöscht.
 
Die de.NBI Cloud wird mandantenfähig aufgebaut, d.h. einzelne oder mehrere User werden in Projekten zusammengefasst. Sie arbeiten in diesen Projekten isoliert voneinander. Der Zugriff auf Daten eines Mandanten durch einen anderen ist somit auszuschließen.
 
Es werden Notfallpläne definiert, um adäquat mit Störungen umzugehen. Hier werden je nach Schweregrad der IT-Sicherheitsvorfälle die dokumentierten Eskalationsstufen durchlaufen.
 
Um den sicheren und gesetzeskonformen Betrieb der de.NBI-Cloud zu gewährleisten, werden auch die Bioinformatiker verpflichtet, Regelungen zu befolgen. Die de.NBI Cloud-Benutzervereinbarung wird verbindlich die Verantwortlichkeiten und die notwendigen technischen und organisatorischen Maßnahmen für die sichere und korrekte Nutzung der Cloud definieren. Die Vereinbarung bestimmt auch die Ausschlusskriterien für die Haftung der de.NBI-Cloud. So ist der Benutzer verantwortlich für die Aktivitäten, die mit dem eigenen Account durchgeführt werden. Zusätzlich wird darüber informiert, dass ein automatisiertes und regelmäßiges Monitoring vom Betreiber der Cloud durchgeführt wird, um Prüfungen auf Schwachstellen vorzunehmen. Im Falle von Auffälligkeiten kann der Cloud-Betreiber den Nutzer benachrichtigen und die jeweiligen virtuellen Ressourcen terminieren. 
 
Auch werden in einer späteren Ausbauphase einzelne Standorte der de.NBI Cloud humane Forschungsdaten innerhalb eines Datenpools für die weitere Prozessierung, z.B. für Populationsstudien, anbieten. Es handelt sich dann unter anderem auch um personenbezogene Daten, wobei die jeweilig gültigen Landesdatenschutzgesetze der universitären Cloud-Standorte berücksichtigt werden müssen. Hier wird de.NBI in Absprache mit den jeweiligen Datenschützern ein Datenschutzkonzept realisieren, um den Dienst als „Data as a Service (DaaS)“ anbieten zu können. Es werden umfangreiche Maßnahmen zur Gewährleistung der Datensicherheit und des Datenschutzes notwendig werden. Hierzu zählen beispielsweise Maßnahmen zur Überprüfung der Rechtmäßigkeit des Antrages auf den Datenzugriff, ein ausführliches Risikomanagement und die Etablierung der Verschlüsselung für datenschutzrelevante Daten. Insgesamt kann die de.NBI Cloud, die hohen IT-Sicherheitsstandards genügen wird, ein besonderes Maß an Datenschutz realisieren. Humane Sequenzdaten werden oft mannigfaltig von den großen Datenrepositories weltweit heruntergeladen, um sie lokal prozessieren zu können. Der verantwortungsvolle Umgang mit diesen besonders schützenswerten Daten kann jedoch kaum für die dezentral liegenden Daten gewährleistet werden. Ein Vorteil der Data as a Service Cloud ist es, dass die Berechnungen zentral am Datenpool stattfinden. Dadurch müssen weniger Daten bewegt werden. Außerdem erhöht sich die Datensicherheit, da keine Kopien mehr verteilt werden müssen, für deren Sicherheit der Bioinformatiker dann verantwortlich wäre. Zentral gehostete Daten werden die Prozessierung in der de.NBI Cloud ermöglichen, ohne dass Downloads notwendig sind.
 
Zugehörigkeiten
1Deutsches Krebsforschungszentrum (DKFZ), Heidelberg, Deutschland
2Universität Bielefeld, Technische Fakultät, Bielefeld, Deutschland
3Deutsches Netzwerk für Bioinformatik-Infrastruktur (de.NBI), Universität Bielefeld, Cebitec, Bielefeld, Deutschland
 
Kontakt
Prof. Dr. Alfred Pühler
Koordinator des Deutschen Netzwerks für Bioinformatik-Infrastruktur (de.NBI)
Universität Bielefeld
CeBiTec
Bielefeld
puehler@cebitec.uni-bielefeld.de
 
Mehr Artikel zu Bioinformatik: http://www.git-labor.de/category/tags/bioinformatik
 
Mehr Infos zum de.NBI-Netzwerk: https://www.denbi.de/
 

 

Jetzt registrieren!

Die neusten Informationen direkt per Newsletter.

To prevent automated spam submissions leave this field empty.