Big Data - Quo Vadis

Innovationspotential großer Datenmengen optimal nutzen

  • Big Data: Innovationspotential großer Datenmengen optimal nutzenBig Data: Innovationspotential großer Datenmengen optimal nutzen
  • Big Data: Innovationspotential großer Datenmengen optimal nutzen
  • Big Data bietet für Wissenschaft und Forschung ein hohes Innovationspotential und unzählige Anwendungsmöglichkeiten.

Daten bilden die Grundlage von Wissenschaft und Forschung. Doch mit stetig zunehmenden Datenmengen, unter denen immer mehr Verknüpfungen entstehen, müssen sich Forschungslabore und andere wissenschaftliche Einrichtungen der Herausforderung von Big Data, wie dieser Trend genannt wird, stellen.

Digitale Datenmanagementsysteme geben durch ihre Möglichkeiten der Digitalisierung, Strukturierung und Verknüpfung von Daten einzelnen Laboren die Möglichkeit, die Chancen von Big Data zu nutzen und an der aktuellen Entwicklung aktiv teilzunehmen.

Der exponentielle Anstieg der Datenmengen erfasst neben den Bereichen des täglichen Lebens auch Wissenschaft und Forschung. Dabei werden große Datensätze nicht nur durch Teilchenbeschleuniger, Satellitenteleskope und die Sequenzierung von immer neuen Organismen in internationalen Konsortien erzeugt. In jedem Labor steigen die Datenmengen rasant, denn neuere Generationen von Analyse- und Messgeräten erzeugen digitale Daten in immer größerer Messtiefe. Big Data stellt Wissenschaft und Forschung gleich vor mehrere Herausforderungen. Die täglich exponentiell ansteigenden Datenberge erfordern nicht nur leistungsfähigere Speicherlösungen, innovative Verfahren zum effizienten Datenmanagement müssen auch in der Lage sein, gesammelte Informationen zu verknüpfen und zu analysieren.

Entwicklung
IT-Systeme für das Labormanagement sind so alt wie Informationstechnologie selbst. Doch trotz ihrer relativ langen Historie sind digitale Laborbücher und Laborinformationssysteme noch nicht in jedem Labor zu finden. Es gibt jedoch eine Vielzahl von Trends, die eine weitere Verbreitung in Laboren befördern, wie die Verfügbarkeit von erschwinglichen, leistungsfähigen mobilen Endgeräten mit Touchscreen (Smartphones, Tablets), die im Labor eine einfache, flexible Handhabung ermöglichen, welche gerade dort, wo Papiernotizen bisher unersetzlich waren, immer attraktiver wird. Zudem entwickeln sich Systeme von spezifischen, zum Teil auf Nischen zugeschnittenen Speziallösungen zu generellen Lösungen, die durch eine einfache Benutzerführung auch ohne IT- Expertenkenntnisse genutzt werden können.

Die Bereitstellung von leicht zugänglichen Schnittstellen für immer mehr Softwareprogramme und Geräte begünstigt die Verbreitung von digitalen Systemen im Labor zusätzlich. Mit der Verbreitung von Lab-IT wird auch die Erzeugung und Nutzung von großen Datenmengen - Big Data - im Labor vorangetrieben.

Big Data - was steckt dahinter?
Wachsende Datenmengen stellen nicht nur neue Herausforderungen, sie schaffen auch eine grosse Menge interessanter Möglichkeiten. Gelingt es verborgene Zusammenhänge in den riesigen Datenmassen aufzuspüren, dann werden die Verheißungen von "Big Data" wahr. Aus bereits vorhandenen Daten können neue Erkenntnisse gewonnen, Prozesse optimiert und echte Werte geschaffen werden.

Einer der historischen Höhepunkte in der Bereitstellung von wissenschaftlichen Daten wurde mit der Publikation des menschlichen Genoms zur Jahrtausendwende erreicht. Die Veröffentlichung des Humangenoms hat eine Vielzahl von Forschungsfeldern wie Medizin, Genetik und Biologie entscheidend geprägt und die Entwicklung neuer Technologien wie (Whole-Genome Microarrays etc.) erst möglich gemacht. Zwar wurden nicht alle Erwartungen erfüllt, denn die inkomplette Annotation und eine hohe Ungenauigkeit in bestimmten Bereichen des Genoms beschäftigen Wissenschaftler weltweit heute noch. Dennoch sind die gewonnenen Informationen für viele Labore und Forschungszweige zu einer unverzichtbaren, täglich genutzten Ressource geworden.

Das Humangenom zeigt beispielhaft, dass relevante Daten nicht unbedingt in jedem Labor selbst erzeugt werden müssen. Das anerkannte Potential von Big Data schafft neue Anreize, den externen Zugang zu Daten zu erleichtern. In akademischen Publikationsmedien ist die Hinterlegung von Rohdaten in entsprechenden Datenbanken oftmals bereits Pflicht. Der Trend zu einem vereinfachten Zugang geht heute über die Open Access-Bewegung, d.h. die freie Zugänglichkeit von wissenschaftlichen Publikationen hinaus. Einzelne Forscher und Labore haben begonnen, ihre Rohdaten im Sinne von "Open Data" öffentlich zugänglich zu machen. Dabei ist zu erwarten, dass sich dieser Trend fortsetzt. Die National Science Foundation, die US-amerikanische und größte internationale Behörde, die Forschungsgelder vergibt, fördert die Veröffentlichung von Datensätzen seit 2013 ebenso wie die Veröffentlichung von Journalpublikationen mit dem Effekt, dass die Anzahl der öffentlich zugänglichen Datensätze ebenso steigt wie die der Plattformen, auf denen sie abgerufen werden.

Auf dem Weg zu einer einfachen und effektiven Nutzung der vorhandenen Datenmengen gibt es jedoch eine Vielzahl von Herausforderungen, die bewältigt werden müssen. Oft sind die großen Datenmengen unstrukturiert und einzelne Datensätze stehen in keinem unmittelbaren Zusammenhang zueinander. Den momentanen Entwicklungen zum Trotz, sind die meisten Daten für eine Analyse immer noch nicht zugänglich. Einfach weil sie in lokalen Archiven vergraben liegen, oder, was noch öfter der Fall ist, schlicht nicht in einem digitalen Format vorliegen. Welche Ansätze gibt es bereits heute, um die drei Erfolgskriterien von Big Data: Zugang, Zusammenhang und Strukturierung, umzusetzen?

Wie werden Daten nutzbar?
Bereits heute gibt es eine Vielzahl an Repositorien und wissenschaftlichen Datenbanken, in denen laborrelevante Daten mehr oder weniger strukturiert abgelegt werden können. Zusätzlich zu Literaturdatenbanken, in denen Veröffentlichungen abgerufen werden, existieren eine Vielzahl von spezialisierten wissenschaftlichen Datenbanken (siehe Crossmediabalken „Datenbank"). Diese Datenbanken haben zwar den Vorteil, intern einheitlich strukturiert zu sein, wodurch abgelegte Datensätze leichter gefunden, verglichen und in bestehende Datenstrukturen integriert werden können. Oft ist es aber nur über Umwege möglich, integrativ Zusammenhänge zwischen einzelnen Einträgen und Datenbanken herzustellen.

Im Laborumfeld sind insbesondere die Zusammenhänge von Daten und die Prozesse, die zu Daten geführt haben, von Interesse. Daher gibt es neuere Bestrebungen, Forschungsergebnisse und die dazugehörigen Laborexperimente in neuen Publikationsformaten und Datenbanken besser zugänglich zu machen. Dazu gehören unter anderen die „Scientific Data"-Initiative des Macmillan-Verlages, „Article Enhancement" des Verlages Elsevier sowie die Aktivitäten des Nanopublication-Consortiums.

Um Integration, Verknüpfung und Analyse von Datensätzen zu ermöglichen, werden den Rohdaten zusätzliche Daten hinzugefügt, sogenannte Metadaten. In diesen Metadaten werden die Datensätze genauer beschrieben, z.B. ihre Herkunft, ihre Eigenschaften und der Zusammenhang, mit dem sie in anderen Daten stehen. Um dabei ein einheitliches Format bereitzustellen und um Zusammenhänge darstellen zu können, werden Metadaten in hierarchischen Baumstrukturen, sogenannten Ontologien, dargestellt, wie sie z.B. bei Enzymen für die Klassifizierung der katalysierten Reaktionen verwendet werden. Dabei sind für die Daten- und Prozessbeschreibungen verschiedene Formate entwickelt worden, darunter MAGE-TAB, PRIDE-ML, SRA-SML, OWL, RDF und ISA-Tab.

Ein großer Nachteil von ontologiebasierten Metadatendeskriptoren ist allerdings, dass sie bei der Bereitstellung eine aufwändige, händische Beschreibung von Datensätzen notwendig machen und sowohl bei der händischen Beschreibung als auch bei der anschließenden automatischen Klassifizierung fehleranfällig sind. Zudem wird bei einer Änderung der ontologischen Standards eine Verwendung der anhand älterer Standards aufgestellten Metadatenbeschreibung problematisch. Daher konzentrieren sich aktuelle Entwicklungsarbeiten, wie Sie von uns und anderen vorangetrieben werden, auf die Bereitstellung von intrinsischen Deskriptoren, die ohne zusätzlichen Aufwand aus den Daten selbst gewonnen werden können.

Aus allen verfolgten Ansätzen ergeben sich durch die Integration von Prozessen im Labor langfristig neue Möglichkeiten. Ein Ziel ist dabei, bei der Planung im Labor automatisch Informationen aus früheren Experimenten für die Optimierung von Forschungs-, Analyse- und Produktionsprozessen nutzen zu können. Die strukturierte Erhebung und Kommunikation von Daten bietet dafür nicht nur erhebliches Einsparpotential, sondern eröffnet auch neue Märkte für Auftragsforschung und Verlage.

Das Innovationspotential von Big Data optimal einsetzen
Big Data bietet für Wissenschaft und Forschung ein hohes Innovationspotential und unzählige Anwendungsmöglichkeiten. Big Data-Analysen können nicht nur helfen, Vorgänge im Labor effizienter zu gestalten, vielmehr können Wirtschaft und Wissenschaft von den Erkenntnissen, die aus Big Data gewonnen werden, gleichermaßen profitieren.

Grundvoraussetzung für die Teilnahme am Goldrausch, der durch Data Mining ausgelöst wurde, ist allerdings die Installation einer IT-Infrastruktur, innerhalb welcher Labor- und Forschungsdaten nicht nur digital aufgenommen werden können, sondern auch eine Anbindung an Schnittstellen anderer Datenquellen wie Publikationsserver, Datenbanken und Repositorien möglich ist.

Weiterhin müssen die generellen Infrastrukturen zur Datenverarbeitung und -weitergabe sowie das Incentive-System weiter ausgebaut und angepasst werden. Daten, die Teil des Big Data Pools sind, müssen dabei durch entsprechende Datenschutzregelungen ausreichend geschützt und als wissenschaftliche Leistung honoriert werden. Denn Eigentums- und Verwertungsrechte über Datenbestände sind oftmals entscheidende Wettbewerbs- und Innovationsfaktoren, die dementsprechend gesichert werden müssen.

Big Data als gemeinsame Chance
Damit das Innovationspotenzial und die vielfältige Anwendungsmöglichkeiten von Big Data optimal genutzt werden können, müssen Industrie, Wissenschaft und Forschung in Zukunft eng zusammenarbeiten. Denn nur gemeinsam können weitere Maßnahmen und Standards für den erfolgsversprechenden Einsatz von Big Data geschaffen werden, wie beispielsweise die Weiterentwicklungen von neuen, digitalen IT-Lösungen zur Datendokumentation, der Definition von Standards und Datendeskriptoren, die Anpassung von Auflagen zu Datenschutz und der Datensicherheit sowie der Ausbau von Datenkompetenzen in den einzelnen Anwendungsfeldern. Letzendlich wird eine breite Akzeptanz von Standards und ein einfacher und sicherer Zugang zu Datenpools darüber entscheiden, ob Big Data zum Erfolgsfaktor für alle Labore wird.

 

 

Lebenslauf
Dr. Florian Hauer promovierte 2009 am Max-Planck-Institut für biophysikalische Chemie. 2013 gründete er gemeinsam mit dem Biochemiker Simon Bungers und dem Softwarearchitekten Mathias Schäffner Labfolder mit dem Ziel, mit einem digitalen Laborbuch der neuesten Generation Datenerhebung und -verarbeitung in Laboren zu verbessern.

 

Autor(en)

Kontaktieren

Labfolder GmbH
Schönhauser Allee 6 /7
10119 Berlin
Telefon: 030/91572642
Telefax: 0176/24337833
microsite Zukunftslabor


Jetzt registrieren!

Die neusten Informationen direkt per Newsletter.

To prevent automated spam submissions leave this field empty.