Simap

Aus BC-Wiki
Zur Navigation springen Zur Suche springen
SIMAP ist eine Datenbank, in der die Ähnlichkeiten aller derzeit bekannten Proteinsequenzen untereinander sowie deren Domänen gespeichert sind. Man kann sich das als Matrix vorstellen, die quadratisch ist bei einer Kantenlänge von ca. 4 Mio Proteinsequenzen die wir momentan speichern. Der Inhalt der Matrix ist symmetrisch, das heißt wenn Protein 1 dem Protein 2 ähnlich ist, dann ist es umgekehrt genauso. SIMAP ist weltweit das einzige derartige Projekt, bei dem wirklich alle Proteine einbezogen werden.

13. August 2007

SIMAP stellt Daten für Gene3D-Projekt bereit: SIMAP hat begonnen, monatlich umfassende Datensätze von Protein-Ähnlichkeiten und -features für das Gene3D-Projekt zu erzeugen. Das Gene3D-Projekt hat das Ziel, die Verteilung der Strukturdomänen in Proteinen in der Natur zu charakterisieren und diese Information für die Forschung zur Proteinevolution and -funktion zu nutzen. In lebenden Zellen stellen Proteine, verschlüsselt durch DNS, die Funktionseinheiten dar. Sie fungieren sowohl als Katalysatoren im Zellstoffwechsel als auch als strukturelle einheiten für die Struktur und Organisation der Zelle. Fast alle Proteine bestehen aus einer oder mehrerer Domänen. Domänen sind nahezu unabhängige Teilsequenzen der Proteine, die eine bestimmte Topologie formen die als "fold" bezeichnet wird. Man nimmt an, dass es nur einige tausend folds mit ca. 20 "superfolds" gibt, welche die große Mehrzahl der Domänenstrukturen ausmachen.

Gene3D's Schwesterdatenbank, CATH, kombiniert eine Suite von Computerprogrammen mit der Analyse durch Experten, um die Begrenzungen der folds in 3D-Strukturdaten - z.B. durch Röntgenbeugung von Proteinkristallen gewonnen - herauszufinden und die folds basierend auf ihren Struktureigenschaften und evolutionären Beziehungen in eine Hierarchie einzuordnen. Gene3D erstellt dann anhand der Sequenzen (Proteine bestehen aus Ketten von Aminosäuren) Modelle der Domänen, die als Hidden Markov Models (HMMs) bezeichnet werden. Diese Modelle identifizieren auf spezifische Weise diejenigen Proteinsequenzen, die zu den Ausgangsdomänen der Modelle in CATH evolutionär verwandt sind. Daraus folgt, dass diese Proteine dieselben Raumstruktur wie die Ausgangsdomänen des passenden Modells formen.

Momentan befinden sich >6000 HMMs in der CATH-Gene3D Datenbank. Diese Modelle werden mit allen bekannten Proteinsequenzen (mehr als 7 Millionen) verglichen, um deren Domänenzusammensetzung zu ermitteln. Dies stellt einen enormen Rechenaufwand dar und kann normalerweise nur mit Hilfe großer Computernetze realisiert werden. Ausgehend vom Vergleich dieser Domänenarchitekturen und der direkten Analyse der Domänensequenzähnlichkeiten ist es möglich, experimentell gewonnene Erkenntnisse von der kleinen Anzahl gut charakterisierter Proteine auf die sehr große Menge derjenigen Proteine zu übertragen, die aus DNS-Sequenzen (z.B. dem Human-Genomprojekt) abgeleitet wurden.

Darüber hinaus ist es möglich, direkte funktionelle Zusammenhänge durch die Identifikation subtiler evolutionärer Signale (z.B. durch Co-Evolution) aufzuzeigen; dies ist jedoch nur ein Beispiel der vielfältigen Anwendungen. Somit hatten und haben viele Untersuchungen basierend auf CATH & Gene3D, aber auch auf Proteinstrukturen allgemein, einen signifikanten Beitrag zum Verständnis von Erkrankungen und der Entwicklung neuer Arzneimittel geliefert.

Leistungsstarker Storage-Server für SIMAP: SUN Microsystems hat SIMAP als Empfänger eines "Academic Excellence Grant" ausgewählt. Um die Datenbank-Plattform des SIMAP-Projekts zu verbessern, unterstützt SUN das Projekt mit der Spende eines komplett ausgestatteten X4500 Datacenter-Servers. Diese dual-Opteron-Maschine besitzt 16 GB Hauptspeicher und 48 lokal angeschlossene SATA Festplatten mit je 500GB Kapazität. Während der letzten Wochen haben wir den neuen Server installiert, getestet und die Parameter optimiert. Die SIMAP MySQL-Datenbank und Binärdateien sind auf mehreren, sehr schnellen RAID10 Festplattenarrays gespeichert. Ab sofort läuft SIMAP im vollen Produktionsmodus auf dieser Maschine und es zeigt sich, dass alle Datenbankoperationen von SIMAP erheblich beschleunigt werden konnten.

Simap@home
Beginn 2005
Ende 2014
Status beendet
Admin Dr. Thomas Rattei, Jonathan Hoser
Institut GSF National Research Center for Environment and Health, Neuherberg
TU Munich, Center of Life and Food Science, Weihenstephan
Land Deutschland
Bereich Biologie
Anwendungen
Win Simap@home 5.10
Hmmer@home 5.09
Linux Simap@home 5.11
Hmmer@home 5.09
Mac Simap@home 5.10
Hmmer@home 5.09
64bit Simap@home 5.12/5.10 [win/linux]
Hmmer@home 5.09 [win/linux]
PS3 ja
ATI
CUDA
Intel
Android
RPi
NCI
Systemspezifikationen
VRAM SP DP
RAM 10MB / 65MB
Laufzeit 30min (Simap) / 1h (Hmmer)
HDD 1,5MB / 2,5MB
Traffic dl/ul 2MB / 5MB - 768kb / 2,33MB
Deadline 7 Tage
Checkpoints