Textversion für blinde und sehbehinderte Personen sitemap
Home Textraum Hochzeit Arbeit Forschung encyclog

Data-Mining im Geenpool – die Herausforderung Bioinformatik

Der Umgang mit den riesigen Datenmengen, welche Molekularbiologen und Genetiker derzeit produzieren, macht die Kooperation zwischen Biologie und Informatik notwendig. Die Schweiz besitzt mit dem 1998 gegründeten Swiss Institute of Bioinformatics (SIB) eine der weltweit wenigen Institutionen, welche sich systematisch mit diesem Problem beschäftigen. Die Halbierung staatlicher Beiträge an Projekte des SIB gefährdet aber ausgerechnet das erfolgreichste Produkt des Instituts, die Protein-Datenbank SWISS-PROT.

Stolz zeigt Victor Jongeneel auf den unscheinbaren, eher kleinen Kubus. Solche befinden sich normalerweise nicht verborgen im Keller von Schweizer Forschungsinstituten. Diese FDF-Rechner („Fast Data Finder“) mit 6912 parallel geschalteten Prozessoren sollen sonst im Dienst von Echelon stehen, dem weltweiten US-Spionagenetz, welches gigantische Mengen an Information auf verdächtige Wörter hin scannt – offiziell bestätigen mag diese Information aber niemand. Nur wenige dieser Wundermaschinen haben – unter dem wachsamen Auge der National Defence Agency – überhaupt den Weg nach Europa gefunden. Der präsentierte Rechner – ein „GeneMatcher“ mit FDF-Technologie – dient dem Schweizer Institut für Bioinformatik (SIB), dessen Direktor Jongeneel ist. Der zu erforschende Datenraum besteht nicht aus unzähligen E-Mails, sondern aus den Erbgutinformationen von Lebewesen. „Der Rechner vergleicht zwei komplette Genome verschiedener Lebewesen innert weniger Minuten. Sonst dauert das Tage“, erklärt Jongeneel die Leistungskraft des Computers.

Derartige Rechnerkapazitäten sind heute mehr und mehr gefragt: Wir sind in der Zeit des „Human Genome Project“, der Entschlüsselung des menschlichen Erbguts. Mit der Bekanntgabe der nahezu vollständigen DNS-Sequenz des menschlichen Chromosons 22 Ende 1999 wurde ein weiterer Meilenstein in diesem ambitiösen Projekt gesetzt. Es vergeht kaum eine Woche, wo nicht neue Erfolge der Sequenzierungslabors gemeldet werden. Pro Tag werden in solchen Labors ungefähr 10 Millionen Basenpaare von Erbgut (DNS) aller möglicher Lebensformen entschlüsselt. Diese Zahl dürfte sich in weniger als zehn Monaten verdoppelt haben – eine gigantische Informationsflut.

Dieser noch vor kurzem kaum für möglich gehaltene Erfolg der modernen Molekularbiologie lässt bei der weltweiten Gemeinschaft der Biologen auch Sorgenfalten aufkommen: Wie können wir mit dieser riesigen Menge an Information umgehen und daraus relevantes biologisches Wissen erzeugen? Gefragt ist eine Verbindung von Biologie und Informatik: Bioinformatiker sollen das Werkzeug zur Bewältigung der Datenflut bereit stellen. Biologen werden deshalb mehr und mehr ihren Labor-Arbeitsplatz mit einem solchen vor dem Bildschirm eintauschen.

Es ist auch kein Zufall, dass IBM sein neustes Supercomputer-Projekt, das in den nächsten fünf Jahren vollendet werden soll, „Blue Gene“ getauft hat. Dieser Rechner soll eine Bandbreite besitzen, welche ihm das Herunterladen des gesamten Internets (derzeit etwa 100 Terabytes) in weniger als einer Sekunde erlaubt. Er wird damit seinen Vorgänger „Deep Blue“ um Grössenordnungen übertreffen. „Blue Gene“ wird sich auch nicht mehr mit dem profanen Schachspiel beschäftigen, denn da haben die Silikonhirne dem Menschen eh den Rang abgelaufen – er dient einem biologisch motivierten Zweck: Er soll dereinst die Faltung von Proteinen berechnen können. In solchen biologischen Anwendungen sehen die Informatiker jetzt die wahre Herausforderung, an welcher sich die besten Rechner bewähren sollen.

Biologen wiederum halten Blue Gene für ein wichtiges Werkzeug, um aus der immensen Datenmenge der Sequenzierungslabors die biologisch relevanten Erkenntnisse zu gewinnen: Welche Sequenzen entsprechen welchen Genen? Wie sieht die dreidimensionale Struktur der den Genen entsprechenden Proteine aus? Denn die rohe Information der Sequenzierungslabors besteht im wesentlichen aus einer Aneinanderreihung von Buchstaben, der DNS-Sequenz. Danach müssen die „sinnvollen Abschnitte“ des DNS-Strangs gefunden werden – die Gene. Und diese wiederum bestimmen die Anordnung der sogenannten Aminosäuren, welche ein Eiweissmolekül (Protein) bilden. Dessen dreidimensionale Struktur bestimmt die biologische Bedeutung des Proteins – und daran sind die Molekularbiologen letztlich interessiert.

Die Forscherinnen und Forscher am Schweizerischen Institut für Bioinformatik leisten Entscheidendes, um zu solchen Erkenntnissen zu gelangen. „Vielen Biologen fehlt sowohl das Wissen über die Natur und die Struktur der vorhandenen Daten als auch die Kenntnis über die bereits existierenden Methoden zum Umgang mit diesen Datenmengen“, erklärt dazu Victor Jongeneel. Die Schweiz nimmt bei der Bewältigung dieser Probleme weltweit eine führende Stellung ein. Sie verdankt diese dem SIB, welches in Genf und Lausanne angesiedelt ist. Die am 30. März 1998 gegründete private Non-Profit-Institution ist eng mit den Universitäten Genf und Lausanne, dem Schweizer Krebsforschungsinstitut, dem Ludwig-Institut, dem Universitätsspital Genf und dem Genfer Forschungslabor von Glaxo Wellcome verbunden. In jeder dieser Institute (ausser der Universität Lausanne) arbeitet jeweils eine der fünf Gruppen des SIB.

Internationale Kooperationen bestehen unter anderem mit dem Europäischen Bioinformatik-Institut (EBI) in Hingston (U.K.) und dem europäischen Molekularbiologie-Labor in Heidelberg. Zwei der fünf Gruppenleiter des SIB haben zudem zusammen mit anderen Partnern die Firma GeneBio gegründet. Diese soll Produkte des SIB vermarkten bzw. Lizenzen vergeben, wobei der grösste Teil des erwirtschafteten Geldes dem Institut zugute kommen soll.

Fünf Forschergruppen, welche insgesamt 69 Mitarbeiterinnen und Mitarbeiter beschäftigen, widmen sich den Zielen des SIB: Entwicklung von Datenbanken und Software-Tools, Ausbildung von Bioinformatikern und Serviceleistungen für die Scientific Community. Ein Beispiel ist die Entwicklung von Software für die Analyse von sogenannten Gel-Chromatogrammen für Proteine. Solche Chromatogramme dienen zur Analyse von Protein-Gemischen: Die verschiedenen Eiweisse wandern unterschiedlich rasch durch ein Gel und trennen sich dadurch. Im flächenförmigen Gel entstehen dadurch verschiedene Flecken, welche jeweils die unterschiedlichen Proteine repräsentieren. Dies ergibt ein charakteristisches Bild, ein Chromatogramm. Die Gruppe um den Forscher Ron Appel entwickelte ein Software-Werkzeug und eine Datenbank, welche die rasche Zuordnung solcher Chromatogramme zu bestimmten Krankheitsbildern erlaubt. Krankheiten führen oft dazu, dass sich bestimmte Proteine im Körper finden, welche dann auf diesen Chromatogrammen charakteristische Spuren hinterlassen. Das „Melanie“ genannte Produkt ist der derzeitige Standard der Bildanalyse von solchen Gel-Chromatogrammen.

Pionierarbeit leistet das SIB auch in jenem Bereich, in welchem „Blue Gene“ dereinst rechnen soll: Die SIB-Gruppe um Manuel Peitsch, Direktor von Scientific Computing von Glaxo Wellcome, war die Erste überhaupt, welche seit 1995 Ansätze zur Protein-Modellierung im grossen Massstab entwickelte. Seit Mai 1998 läuft das 3D-Crunch-Projekt in Kooperation mit dem Silicon Graphics European Advanced Technology Center im neuenburgischen Cortaillod. Im Rahmen dieses Projektes wurde damals innert gut vier Tagen die dreidimensionale Struktur von 200'000 Proteinsequenzen ermittelt. Im Februar 2000 soll in Kooperation mit IBM ein ähnlich umfassendes Modellierungs-Projekt laufen. Man erhofft sich damit neue Erkenntnisse, welche zur Entdeckung von medizinischen Wirkstoffen führen.

Prunkstück des Instituts ist aber die Proteindatenbank SWISS-PROT. Diese Datenbank wird vom SIB, dem EBI und der Abteilung für medizinische Biochemie der Universität Genf unter der Leitung von Amos Bairoch unterhalten. Sie umfasst nicht nur die Information der Zusammensetzung bestimmter Eiweisse, sondern auch das bekannte Wissen über deren biologische Funktion. Rund 60 Personen – zu einem grossen Teil Frauen, da Teilzeitarbeit möglich ist – tragen dieses Wissen aus Fachzeitschriften zusammen, je die Hälfte der Gruppe besteht aus Biologinnen und Biologen des SIB und des EBI. SWISS-PROT umfasst heute Informationen von etwa 80'000 Proteinen. Die Datenbank wir von gut 200'000 Wissenschaftlern aus etwa 100 Ländern genutzt und ist damit die weltweit wichtigste Proteindatenbank. Doch ausgerechnet dieses erfolgreiche Produkt wird durch Kürzungen finanzieller Beiträge durch die Eidgenossenschaft gefährdet (vgl. dazu Kasten).

Auch für die Ausbildung dringend benötigter Bioinformatiker will das Institut besorgt sein. Im Herbst 1999 startete das Postgraduiertenprogramm für Bioinformatik: 14 Studentinnen und Studenten belegen das ein Jahr dauernde Programm. Jongeneel ist überzeugt, dass dank diesem der Mangel an Bioinformatikern in der Schweiz in den nächsten Jahren behoben sein sollte. Limitierender Faktor für das Ausbildungsprogramm ist derzeit der Mangel an Platz und an Assistenten. Jongeneel hofft deshalb auf ein verstärktes Engagement der Universität Lausanne durch Schaffung einer Professur für Bioinformatik.

Eine Reihe von derzeit parallel laufenden Entwicklungen dürfte das Gesicht des SIB in den kommenden Jahren verändern: Zum einen laufen zwischen den Universitäten Genf und Lausanne sowie der ETH Lausanne Gespräche zur Schaffung eines Schweizerischen Genomik-Zentrums. „Erstaunlicherweise sind wir vom SIB in diese Gespräche bisher nicht integriert worden, obwohl wir von Bundesrätin Ruth Dreifuss informiert wurden, dass wir nur bei einem Beitritt zu diesem Genomik-Zentrum weiter mit finanzieller Unterstützung von der Eidgenossenschaft rechnen können“, erklärt dazu SIB-Direktor Jongeneel. Ein Beitritt macht nach den Worten Jongeleels auch durchaus Sinn, doch er würde bei der Ausgestaltung der Struktur des neuen Zentrums gerne mitreden, zumal das SIB inhaltlich einen zentralen Beitrag leisten wird. Er erklärt die „seltsame Situation“ damit, dass keiner der Gruppenleiter Professor an den involvierten Institutionen ist.

Zum anderen werden voraussichtlich die zwei sich kürzlich in Basel gebildeten Bioinformatik-Gruppen dem SIB anschliessen. Bereits in einem Jahr dürften damit über hundert Wissenschaftler am SIB mitwirken.


Staatliche Finanzierungshemmung in einem zukunftsträchtigen Gebiet?

Gut 20 Prozent, zwei Millionen Franken, des Neun-Millionen-Budgets des SIB sollte vom Bund kommen – sollte. Denn in einem Schreiben vom 24. November 1999 hat der Bundesrat beschlossen, diesen Beitrag zu halbieren. Damit wird insbesondere der Betrieb der Proteindatenbank SWISS-PROT letal gefährdet, denn 1,5 Millionen Franken des Bundesbeitrags hätten in diesen Bereich fliessen sollen. Dabei war das SIB unter anderem auch deshalb gegründet worden, um dank Artikel 16 des Forschungsgesetzes zu Bundesbeiträgen zu kommen. Solche wurden auch seit 1996 dem SIB versprochen.

SWISS-PROT hält sich derzeit mit verschiedensten Finanzierungsquellen am Leben, welche aber mit dem rasanten Wachstum der Datenbank nicht Schritt halten können. Die staatliche Unterstützung der Datenbank SWISS-PROT macht deshalb nach Meinung von SIB-Direktor Victor Jongeneel durchaus Sinn, handelt es sich doch um eine Dienstleistung, welche die akademische Welt gratis nutzen kann. Zudem ist diese Datenbank das Juwel der Schweizer Bioinformatikaktivitäten.

Sie wird übrigens auch nicht rein staatlich finanziert. GeneBio verkauft Lizenzen für die Inhouse-Nutzung der Datenbank durch gut 200 Life-Science-Unternehmungen. Drei Viertel des damit jährlich erwirtschaftete Erlöses von knapp vier Millionen Franken – also drei Millionen Franken – kommt je zur Hälfte dem SIB und dem Europäischen Bioinformatik-Institut (EBI) – den beiden Hauptträgern von SWISS-PROT – zugute. Das restliche Geld deckt die administrativen Aufwände von GeneBio und dient zur Entwicklung von neuen, auf SWISS-PROT basierenden Produkten.

Die kommerziellen Einnahmen finanziert die Hälfte des SWISS-PROT-Budgets und damit deren Nutzung durch die akademische Forschergemeinschaft. Würde der Schweizer Beitrag halbiert, müsste auch für die akademische Nutzung der Datenbank Geld verlangt werden. Die Bedeutung von SWISS-PROT würde damit rapide abnehmen. „Bereits die Teilkommerzialisierung der Datenbank hat zu Diskussionen geführt. Das amerikanische National Centre of Biotechnological Information (NCBI) beispielsweise hat protestiert, da schliesslich die Daten, welche in SWISS-PROT abgelegt sind, meist von öffentlichen Universitäten stammen“, erklärt dazu Jongeneel.

Der zweite SWISS-PROT-Partner, das EBI, erhält ebenfalls staatliche Gelder. Dies aus der Überlegung, dass Bioinformatik ein zentrales Hilfsmittel für den Fortschritt in den Biowissenschaften darstellt. „Wir hoffen deshalb, dass der Bund auf seinen Entscheid zurückkommen wird und damit dem Beispiel der Nachbaarstaaten folgt und in Bioinformatik investiert“, hofft Jongeneel.

Ein solcher Sinneswandel wird derzeit von den staatlichen Forschungsförderungsstellen vorbereitet. „Das Schweizerische Institut für Bioinformatik ist für uns ausserordentlich wichtig und wir wollen SWISS-PROT finanziell unterstützen,“ erklärt Charles Kleiber, Staatssekretär für Wissenschaft und Forschung auf Anfrage. Aus diesem Grund würde derzeit der Antrag des Instituts auf finanzielle Unterstützung im ursprünglichen Rahmen geprüft. Der definitive Entscheid steht noch aus, doch für Kleiber ist klar: „Im Bereich Bioinformatik kann sich die Schweiz nicht abhängen lassen.“


Der Kampf um den freien Zugang zu Gen-Daten

Die Diskussion um die Finanzierung von SWISS-PROT ist Teil einer intensiv geführten Debatte um den freien Zugang zu biologischen Daten. Denn lange herrschte der Konsens, dass akademische Forscher grundsätzlich freien Zugang zu solchen Daten haben sollten. Nur pharmazeutische Unternehmen sollten für die Nutzung solcher Daten zur Kasse gebeten dürfen.

Im Human Genom Projekt – die drei Milliarden Dollar schwere vollständige Sequenzierung des menschlichen Ergbuts – sollte dieses Prinzip mustergültig umgesetzt werden: Weltweit haben sich die Wissenschaftler abgesprochen, wer welche Teile des Erbguts entschlüsseln soll. Die gewonnenen Daten werden dann in grosse Datenbanken vereint, die allen akademischen Forschern offen stehen sollen – beispielsweise in „GenBank“, der Datenbank der amerikanischen National Library of Medicine. Ursprünglich hätte das Projekt erst im Jahr 2005 vollendet werden sollen. Jetzt wird aber bereits im Mai dieses Jahres eine sogenannte „Arbeitsfassung“ der gesamten menschlichen Erbinformation vorliegen.

Der Grund für diese rasante Beschleunigung liegt nicht nur in technischen Fortschritten. Der Privatforscher Craig Venter – Inhaber des Unternehmens Celera Genomics Corporation – hat nämlich angekündigt, in diesem Sommer seinerseits eine Datenbank mit der gesamten menschlichen Erbinformation zu veröffentlichen. Noch 1998 [DIE IM NATURE GENANNTE JAHRESZAHL IST FALSCH] hatte er zwar vor dem US-Kongress bestätigt, dass diese Daten öffentlich zugänglich sein werden und er mit der National Library of Medecine zusammenarbeiten werde. Kürzlich erfolgte aber eine wichtige Einschränkung: Akademische Forscher dürften zwar diese Daten (die Rohdaten der Sequenzierungsmaschinen von Celera) einsehen, aber nicht weiter verwenden – beispielsweise indem diese in die GenBio-Datenbank eingebaut werden.

„Die akademische Forschergemeinschaft ist beunruhigt, denn Celera unterminiert die öffentlichen Gensequenzierungs-Projekte, indem Sie Vorteile aus diesen zielt, ohne Gegenrecht zu gewähren“, kommentiert Victor Jongeneel vom SIB diese Entwicklung. Der Grund ist der folgende: Sequenzierungs-Automaten haben eine Fehlerrate von einem bis fünf Prozent. Damit die Entschlüsselung einer DNA-Sequenz die gewünschte Fehlerrate von 0,01 Prozent (einer von 10'000 „Buchstaben“ der Sequenz ist im Mittel falsch), müssen die gleichen Abschnitte mehrfach entschlüsselt werden. Als Optimum gilt die sogenannte Tiefe von 10X (d.h. die gleiche Sequenz wurde zehn Mal entschlüsselt). Die Celera-Daten haben aber nur eine Tiefe von 4X. Die öffentlich zugänglichen Daten wiederum haben bisher eine Tiefe von 5X. Celera kann nun die öffentlichen Daten mit den Eigenen vergleichen und damit nahezu optimale Daten generieren – umgekehrt wird das aber nach den Vorstellungen von Craigh Venter nicht erlaubt sein. Die öffentlich zugänglichen Daten werden eine ähnliche Qualität erst im Jahr 2003 erreicht haben.

Die Celera-Datenbank wird deshalb hoch interessant, denn sie wird in den kommenden Jahren die beste Informationsquelle dafür sein, um die biologische Bedeutung des sequenzierten menschlichen Erbguts ermitteln zu können. Das wiederum schafft die Voraussetzung für die Patentierung von Teilen des menschlichen Erbguts. Der Zugang zu dieser „kommentierten Datenbank“ (nicht zu den Rohdaten) wird dann aber kosten – derzeit werden von Celera Zahlen von 20'000 Dollar pro Jahr Benutzungsgebühr genannt.

Jongeneel meint dazu: „Diese Absichten kontrastieren stark mit unseren: SWISS-PROT will weiterhin freien Zugang für akademische Forscher gewähren – wenn die Finanzierung gesichert werden kann. Unser Ziel ist es, zu überleben – Celera sucht natürlich den Profit.“

Quelle: Nature 403, S. 231.


Textversion für blinde und sehbehinderte Personen © 2018 goleon* websolutions gmbh