Bioinformatik: Neue Methode "HHblits" verbessert Sequenzanalysen entscheidend

Sequenzanalysen sind ein fundamentales Werkzeug der Bioinformatik und der Proteinforschung. Spezielle Suchprogramme bewerten dazu die Ähnlichkeit der Aminosäuresequenzen, indem diese so untereinander angeordnet werden, dass sich möglichst ähnliche Aminosäuren in der gleichen Spalte dieses sogenannten Sequenz-Alignments befinden. Fast noch wichtiger als die Suche nach paarweise Sequenzähnlichkeiten ist die Erstellung sogenannter multipler Sequenz-Alignments. Da die Struktur und Funktionen von Proteinen meist konserviert sind - das bedeutet sie bleiben erhalten, auch wenn sich die Sequenz im Lauf der Evolution durch Mutationen ändert - sind multiple Sequenz-Alignments heutzutage die wichtigste Grundlage für die die Vorhersage ihrer Struktur und molekularen Funktionen.

Neue Methode "HHblits" verbessert Sequenzanalysen entscheidend
Seit fast 15 Jahren ist PSI-BLAST das meistverwendete Programm zur Suche von Proteinsequenzen, da es hohe Geschwindigkeit mit großer Empfindlichkeit und Genauigkeit verbindet. Nun ist einem Team um Dr. Johannes Söding vom Genzentrum der LMU gelungen, mit "HHblits" Homology detection by iterative HMM-HMM comparison; zum HHblits Toolkit gelangen Sie hier) eine Methode zu entwickeln, die PSI-BLAST in allen Bereichen übertrifft. Dies erreichten die Wissenschaftler zum einen, indem sie sowohl die zu analysierenden Sequenzen als auch die Vergleichssequenzen in den zu durchsuchenden Datenbanken in sogenannte Hidden-Markov-Modelle (HMM) umwandeln.
HMMs sind statistische Modelle der Aminosäuresequenzen, die auch die im Sequenzalignment ablesbaren Wahrscheinlichkeiten von Mutationen berücksichtigen - so wird die Suche empfindlicher und genauer.

Zum anderen gelang es den Bioinformatikern, die zu durchsuchende Datenmenge durch einen Vorfilter zu reduzieren, ohne dabei merklich an Empfindlichkeit einzubüßen. Der Trick: Ähnliche Datenbanksequenzen werden zunächst zu multiplen Sequenz-Alignments zusammengefasst. Deren Spalten werden jeweils durch einen von 219 „Buchstaben" beschrieben, wobei ähnliche Spalten durch die gleichen Buchstaben repräsentiert werden. Dadurch kann jedes Alignment durch eine Sequenz aus diesen 219 Buchstaben angenähert werden, und der langsame paarweise Vergleich von Sequenz-Alignments lässt sich durch den viel schnelleren Vergleich dieser Sequenzen ersetzen, was die Suche um den Faktor 2500 beschleunigt.

„Insgesamt ermöglicht HHblits, häufiger und genauer als bisher die Funktion und Struktur unbekannter Proteine vorherzusagen", betont Johannes Söding, der die Methode nun noch weiter verbessern möchte, unter anderem durch die Einbeziehung von Strukturinformationen.

Originalliteratur:
M. Remmert, A. Biegert, A. Hauser, J. Söding; „HHblits: Lightning-fast iterative protein sequence searching by HMM-HMM alignment"; Nature Methods, 25. 12.2011; doi: 10.1038/NMETH.1818

 

 

Jetzt registrieren!

Die neusten Informationen direkt per Newsletter.

To prevent automated spam submissions leave this field empty.