PubDNA Finder: In den Biowissenschaften und der Medizin möchten Forscher, die mit molekularbiologischen Methoden arbeiten, oft Informationen zu spezifischen Nukleinsäuresequenzen aus der verfügbaren Literatur erhalten. Beispielsweise suchen sie nach Artikeln zu einer bestimmten DNA-Sequenz oder sie möchten bereits bewährte Primer- und Sondensequenzen zum Nachweis bestimmter Mikroorganismen finden.
Leider muss diese schwierige und zeitaufwendige Arbeit oft noch manuell durchgeführt werden, da keine der öffentlich zugänglichen Literatursuchmaschinen wie PubMed oder PubMed Central eine entsprechende Suchfunktion anbietet. In diesem Artikel beschreiben wir den Internetdienst PubDNA Finder, mit dem komplexe Suchen nach Nukleinsäuresequenzen in den auf PubMed Central indizierten Volltextartikeln durchgeführt werden können.
Suchen in der biowissenschaftlichen Literatur
PubDNA Finder [1] ist ein von uns entwickelter Internetdienst, der die zum Zeitpunkt des Schreibens dieses Artikels mehr als 180.000 bei PubMed Central (PMC) verfügbaren Volltextartikel mit den in diesen Artikeln erscheinenden DNA- und RNA-Sequenzen verbindet. PubDNA Finder erweitert die Funktionalität der PMC-Suchfunktion dahingehend, dass Suchanfragen sowohl mit Stichwörtern als auch mit DNA- oder RNA-Sequenzen gestartet werden können. Soweit wir wissen, ist PubDNA Finder die erste Suchmaschine, mit der solch eine Suche möglich ist. PubDNA Finder ist kostenfrei zugänglich unter http://servet.dia.fi.upm.es:8080/pubdnafinder
Suchfunktionen von PubDNA Finder
Mit PubDNA Finder können drei verschiedene Arten von Suchanfragen gestellt werden: sequenzbasierte Suchanfragen, stichwortbasierte Suchanfragen und kombinierte Suchanfragen. Diese Suchtypen werden im Folgenden genauer beschrieben.
Sequenzbasierte Suchanfragen
Mit sequenzbasierten Suchanfragen (SBQs für „sequence-based queries") sollen alle Artikel gefunden werden, in denen die vom Benutzer festgelegten DNA- oder RNA-Sequenzen erwähnt werden.
Es sind zwei verschiedene Arten von SBQs möglich: Je nachdem, wie die Suchsequenzen angegeben werden, handelt es sich um einfache oder komplexe SBQs.
Einfache SBQs beinhalten eine oder mehrere DNA- oder RNA-Sequenzen, die durch einen einzigen logischen Operator verbunden sind. Die Sequenzen werden als Zeichenketten mit dem IUPAC-Standardcode für Nukleotide dargestellt. Für eine einfache SBQ gibt man alle Suchsequenzen zeilenweise in das mit „Sequences" (Sequenzen) beschriftete Textfeld ein, wählt in der mit „Operator" beschrifteten Auswahlliste entweder AND oder OR aus und klickt dann auf die Schaltfläche „Submit" (Absenden). Pro Treffer der Ergebnismenge erhält der Benutzer dann die relevanten Informationen zur Veröffentlichung angezeigt. Hierzu gehören: der PubMed Identifier (PMCID) des Artikels; der Titel des Artikels; die im Artikel erwähnten Sequenzen, die zur Anfrage passen; für jede passende Sequenz der Kontext, in dem sie erscheint; ein Link zum Volltext des Artikels. Wenn man zum Beispiel, wie in Abbildung 1 gezeigt, die Suchanfrage tgggggcagaggggacgggaaa OR acttctcgatggcagtgacc OR tggtctcgagatttttgcagcaagtctttctcg absenden würde, erhielte man alle Artikel in der Datenbank angezeigt, die mindestens eine der drei angegebenen Sequenzen enthalten. Komplexe SBQs dagegen umfassen komplexe Sub-Suchen wie Suchen mit Platzhaltern, Suchen mit Fuzzy Logic oder Nachbarschaftssuchen. Im Folgenden werden die einzelnen komplexen Suchtypen kurz beschrieben.
Bei Suchen mit Platzhaltern können bei der Angabe der gesuchten Sequenzen die Platzhalter für ein und mehrere Zeichen, „?" bzw. „*", eingesetzt werden. Beispielsweise würden mit der Suchanfrage cga?ttg OR tta* Veröffentlichungen mit Sequenzen wie „cgacttg" oder „ttatttcc" gefunden werden.
Bei Fuzzy-Suchen sollen Artikel gefunden werden, die Sequenzen erhalten, die „ähnlich" zu denen in der Suchanfrage sind. Die Ähnlichkeit zweier Sequenzen wird dabei mittels der Levenshtein-Distanz [2] berechnet. Solche Suchen können durch Anhängen einer Tilde an das Ende der Suchsequenz durchgeführt werden. Optional kann auch ein Ähnlichkeits-Schwellenwert zwischen 0 und 1 (englisches Zahlenformat mit Dezimalpunkt) angegeben werden. Je größer der Schwellenwert ist, desto größer ist die Ähnlichkeit der gefundenen Sequenzen zur Suchsequenz. Die Suchanfrage cgattg~0.6 würde beispielsweise Artikel mit Sequenzen wie „ctgatcg" oder „tgcattg" finden, wohingegen die Suchanfrage cgattg~0.8 Artikel mit Sequenzen wie „cggattg" oder „cgacttg" finden würde.
Nachbarschaftssuchen sollen Artikel finden, in denen zwei bestimmte Sequenzen innerhalb eines bestimmten Abstands, das heißt getrennt von höchsten x Wörtern, vorkommen. Nachbarschaftssuchen können durchgeführt werden durch Einschließen der Suchsequenzen in hochgestellte Anführungszeichen und direktes Anfügen einer Tilde mit dem Abstands-Schwellenwert. Mit der Suchanfrage „cacctttgaaaacgctacttcagacgct tcattcttgctgtttgtg"~3 würde beispielsweise der Artikel mit der PMID 2374257 gefunden, in dem beide Suchsequenzen in einem Abstand von zwei Wörtern vorkommen. Die Suchanfrage erlaubte einen Abstand von höchstens drei Wörtern.
Verwandte Artikel :
Schlüsselwörter : Biowissenschaft DNA genomics KBQ Kombinierte Suchanfrage Medizin Miguel García-Remesal Molekularbiologie Nukleinsäuresequenz PubDNA Finder PubMed SBQ Sequenz Sequenzbasierte Suchanfrage Stichwortbasierte Suchanfrage Universidad Politécnica de Madrid Zellbiologie
EmailanfrageUniversidad Politécnica de Madrid
Campus de Montegancedo S/N
28660 Boadilla / Madrid
Spain
Web: http://www.upm.es
Leserkommentare (0)