Скачать презентацию Ein Virtuelles Zentrum für Text Mining in der Скачать презентацию Ein Virtuelles Zentrum für Text Mining in der

64908689d1b2840dc38f716f2a0fabaf.ppt

  • Количество слайдов: 44

Ein Virtuelles Zentrum für Text Mining in der Biomedizin Skizze für einen Themenverbund Udo Ein Virtuelles Zentrum für Text Mining in der Biomedizin Skizze für einen Themenverbund Udo Hahn, Martin Hofmann und Rüdiger Klar Joachim Wermter, Juliane Fluck und Stefan Schulz

Was ist „Text Mining“ ? Warum eine nationale Initiative ? Die Gesamtheit aller Technologien, Was ist „Text Mining“ ? Warum eine nationale Initiative ? Die Gesamtheit aller Technologien, die es ermöglichen, relevante und „neue“ Information in unstrukturierten Texten automatisch zu erkennen und zu extrahieren Eine neue Schlüsseltechnologie für die Life Sciences: Wissensmanagement International bereits laufende F&E-Aktivitäten möchten wir mit unserer Initiative Archivierungsangaben aufgreifen und auf der Grundlage einer nationalen Anforderungsanalyse und Prioritätensetzung konstruktiv mitgestalten Seite 2

ery se c on d Datenexplosion am Beispiel von Sequenzdaten Archivierungsangaben as Me g ery se c on d Datenexplosion am Beispiel von Sequenzdaten Archivierungsangaben as Me g ab da up An Moore´s Gesetz te Science-Daten übertrifft es ev Das Wachstum von Life- w La s ’ e or Mo Quelle: http: //www. nlm. nih. gov/pubs/factsheets/medline. html Seite 3

Datenexplosion am Beispiel von biomedizinischen Publikationen und Wachstum der Nachfrage nach biomedizinischen Texten (eigentlich: Datenexplosion am Beispiel von biomedizinischen Publikationen und Wachstum der Nachfrage nach biomedizinischen Texten (eigentlich: Wissen) Anfragen an Pub. Med Zuwachs in MEDLINE: seit 2002 kommen täglich 1, 500 -3, 500 neue Daten- Archivierungsangaben sätze hinzu. aktuell: ca. 13 Mio. BEs Seite 4 Quelle: http: //www. nlm. nih. gov/pubs/factsheets/medline. html

Datenexplosion am Beispiel klinischer Texte nur für das Universitätsklinikum Freiburg (p. a. ) 280. Datenexplosion am Beispiel klinischer Texte nur für das Universitätsklinikum Freiburg (p. a. ) 280. 000 Arztbriefe 140. 000 Radiologiebefunde 55. 000 Pathologiebefunde Archivierungsangaben 40. 000 Operationsberichte 70. 000 sonstige Texte (Endoskopien, Funktionsuntersuchungen Lunge, EKG, EEG etc. ) 600. 000 Seite 5

Je komplexer die Sachverhalte, … Archivierungsangaben …, desto eher sind sie nur in unstrukturierten Je komplexer die Sachverhalte, … Archivierungsangaben …, desto eher sind sie nur in unstrukturierten Texten zu finden Seite 6

Archivierungsangaben unstrukturiert (Text) strukturiert (DBs) Datenvolumen Quelle: Prabhakar, Raghavan, Verity (2002) Vermarktung Seite 7 Archivierungsangaben unstrukturiert (Text) strukturiert (DBs) Datenvolumen Quelle: Prabhakar, Raghavan, Verity (2002) Vermarktung Seite 7

Textbeispiele Histologisches Gutachten Makroskopie: Eine 8 cm lange, fokal etwas aufgetriebene Appendix mit gestauten Textbeispiele Histologisches Gutachten Makroskopie: Eine 8 cm lange, fokal etwas aufgetriebene Appendix mit gestauten Gefäßen und fokalen Fibrinbelägen. . Bei gleichmäßiger Verteilung der Fettzellen auf 40% des Markraumes, üblicher Architektur des Gitterfasernetzes und deutlich gesteigertem Ferritineisengehalt der phagozytären Retikulumzellen, die übrigens zum Teil eine durchaus floride Erythrozytenphagozytose betreiben, sind normoblastisch ausreifende Erythropoese etwas linksverschoben, Megakaryozyten und Granulozytopoese mit allen Reifungsstufen regulär vertreten und dabei allenfalls grenzwertig hyperplastisch entwickelt. Archivierungsangaben Pub. Med Abstract E 2 F-1 and a cyclin-like DNA repair enzyme, uracil-DNA glycosylase, provide evidence for an autoregulatory mechanism for transcription. The cell cycle-dependent transcription factor, E 2 F-1, regulates the cyclin-like species of the [[DNA repair enzyme] uracil-DNA glycosylase (UDG) gene] in human osteosarcoma (Saos-2) cells. Seite 8

Zentrale Herausforderungen q Riesige, weiterhin schnell wachsende Textmengen (Publikationen, Sequenzannotationen, klinische Befundberichte) q Biomedizinisches Zentrale Herausforderungen q Riesige, weiterhin schnell wachsende Textmengen (Publikationen, Sequenzannotationen, klinische Befundberichte) q Biomedizinisches Wissen ist in Texten natürlichsprachlich kodiert; es mangelt an der Strukturierung komplexer Sachverhalte in Texten für Computer q Geringe Vernetzung von Patientendaten, Literaturdaten und Genomdaten q Multilingualität der Wissensdomänen und der Textkollektionen Archivierungsangaben q Schlussfolgerung: Probleme sind nur im Rahmen interdisziplinärer Aktivitäten zu lösen unter Einschluss aller beteiligten Disziplinen (Bioinformatik, Computerlinguistik, Medizin, Biologie, Informatik) Seite 9

Archivierungsangaben Deutsches Virtuelles Zentrum für Text Mining in der Biomedizin Bio. Te. M Seite Archivierungsangaben Deutsches Virtuelles Zentrum für Text Mining in der Biomedizin Bio. Te. M Seite 10

Aufgabenschwerpunkte und Programmatik für ein Deutsches Virtuelles Zentrum für Text Mining in der Biomedizin Aufgabenschwerpunkte und Programmatik für ein Deutsches Virtuelles Zentrum für Text Mining in der Biomedizin Gemeinsame Forschung (analog IP der EU) q Sprachtechnologie: koordinierte Methodenentwicklung Archivierungsangaben q Repräsentation biomedizinischen Wissens: Ontologieentwicklung und –pflege q Interdisziplinäre Verknüpfung zwischen klinischem und molekularbiologischem Wissen q Multilinguale Quelltexte: Begriffliche Äquivalenz in verschiedenen Sprachen q Systemevaluation Koordination (analog No. E der EU) q Ressourcen (generell: Ontologien, Lexika, Korpora, e. Books) q Standardisierung q Clearing House für Codes und Algorithmen q Zugang zu Texten (pseudonymisierte EPA, Patente, Leitlinien usw. ) q Workshops Seite 11 q Training / Dissemination von Wissen q Zusammenarbeit auf internationaler Ebene (z. B. mit UK National Centre for Text Mining)

Bio. Te. M vereinigt Kernkompetenzen Medizin. Informatik / Medizin Archivierungsangaben Bio. Te. M Bio. Bio. Te. M vereinigt Kernkompetenzen Medizin. Informatik / Medizin Archivierungsangaben Bio. Te. M Bio. Informatik / Genomik http: //www. imbi. uni-freiburg. de/medinf/ Computer. Linguistik / Sprachtechnologie Seite 12 http: //www. scai. fhg. de/bio. 0. html http: //www. uni-jena. de/coling. html

Geleistete Vorarbeiten • Oktober 2003: 1. Symposium „Text Mining in the Life Sciences“ in Geleistete Vorarbeiten • Oktober 2003: 1. Symposium „Text Mining in the Life Sciences“ in St. Augustin • April 2004: Workshop in St. Augustin. Entscheidung zur Abfassung eines Positionspapiers zum Stand der Wissenschaft • Mai 2004: Treffen des Kernteams in Freiburg • August 2004: Treffen am Rande der COLING-Konferenz in Genf Archivierungsangaben • Oktober 2004: 2. Symposium „Text Mining in the Life Sciences“ in St. Augustin • Dezember 2004: Konstituierendes Treffen der Bio. Te. M-Interessenten in Heidelberg [Vertreter von 12 Forschungsgruppen aus Deutschland] Seite 13

Partner Bio. BASE Gmb. H Hannover Prof. Dr. Dietmar Schomburg Universität Köln Dr. Martin Partner Bio. BASE Gmb. H Hannover Prof. Dr. Dietmar Schomburg Universität Köln Dr. Martin Hofmann Fraunhofer SCAI St. Augustin Dr. Paul Buitelaar DFKI, Saarbrücken Archivierungsangaben Prof. Dr. Uwe Reyle Universität Stuttgart Prof. Dr. Rüdiger Klar Universität Freiburg Universität Rostock Prof. Dr. Ulf Leser Humboldt Universität Berlin Prof. Dr. Udo Hahn Universität Jena Dr. Isabel Rojas European Media Lab Heidelberg TEMIS Deutschland Gmb. H Heidelberg Seite 14

Vorarbeiten und Planung für die Zukunft Gemeinsame, koordinierte Forschung Ausbauphase Pilotprojekt 2003 2004 Archivierungsangaben Vorarbeiten und Planung für die Zukunft Gemeinsame, koordinierte Forschung Ausbauphase Pilotprojekt 2003 2004 Archivierungsangaben 1. Symposium Workshop 2006 2005 2007 Ressourcenaufbau / Koordination Konstituierende Versammlung COLING Meeting / Organisation und Infrastruktur 2. Symposium Seite 15

Archivierungsangaben Das Pilotprojekt Seite 16 Archivierungsangaben Das Pilotprojekt Seite 16

Ziele des Pilotprojekts q „Proof of Concept“ für die Anwendbarkeit von Text Mining auf Ziele des Pilotprojekts q „Proof of Concept“ für die Anwendbarkeit von Text Mining auf interdisziplinäre Fragestellungen q Informationsgewinn durch Kombination medizinischer Phänotypbeschreibungen und genom-orientierter biologischer Forschung q Kombination von Text Mining für deutsche und englische Texte Archivierungsangaben q Nachweis der Relevanz eines deutschen virtuellen Text-Mining-Zentrums in der Biomedizin Seite 17

Überblick über das Pilotprojekt Nichtöffentliche Domäne Öffentliche Domäne 2 1 Krankheits. Phänotyp-Beschreibung Deutsch-Englisch-Index Kombin. Überblick über das Pilotprojekt Nichtöffentliche Domäne Öffentliche Domäne 2 1 Krankheits. Phänotyp-Beschreibung Deutsch-Englisch-Index Kombin. Netzwerk: Krankheits-Phänotyp. Gen/Protein-Netz 4 3 Gen/Protein-Netzwerk Archivierungsangaben Gene/Proteine Wissenschaftliche Publikationen Arztbriefe Experimentelle Daten Seite 18 Deutsch Englisch

Überblick über das Pilotprojekt Nichtöffentliche Domäne 1 Krankheits. Phänotyp-Beschreibung Öffentliche Domäne Krankheits. Phänotyp-Beschreibung Deutsch-Englisch-Index Überblick über das Pilotprojekt Nichtöffentliche Domäne 1 Krankheits. Phänotyp-Beschreibung Öffentliche Domäne Krankheits. Phänotyp-Beschreibung Deutsch-Englisch-Index Kombin. Netzwerk: Krankheits-Phänotyp. Gen/Protein-Netzwerk Archivierungsangaben Gene/Proteine Wissenschaftliche Publikationen Arztbriefe Experimentelle Daten Seite 19 Deutsch Englisch

Überblick über das Pilotprojekt Nichtöffentliche Domäne 1 Archivierungsangaben Krankheits. Phänotyp-Beschreibung Arztbriefe Seite 20 Deutsch Überblick über das Pilotprojekt Nichtöffentliche Domäne 1 Archivierungsangaben Krankheits. Phänotyp-Beschreibung Arztbriefe Seite 20 Deutsch

num. Daten (Labor) Freitexte Administrative Daten 459300402 GGT ALAT ASAT 2004 -09 -02 12 num. Daten (Labor) Freitexte Administrative Daten 459300402 GGT ALAT ASAT 2004 -09 -02 12 2, 5 3, 4 2004 -09 -03 13 13 1, 9 0, 6 1, 8 0, 7 • Stammdaten ID: 459300402 Lüdenscheid, Iris * 12. 1961 79138 Waldkirch AOK Südl. Oberrhein • Falldaten B 16. 9 F 32. 0 K 70. 0 manuell kodierte Diagnosen+ Prozeduren • Stammdaten Archivierungsangaben ID: 333400112 Schindler, Elisabeth * 13. 01. 1959 33733 Bielefeld AOK Westfalen-Lippe • Falldaten B 16. 9 F 32. 0 K 70. 0 HL 7 Arztbriefe, Befundberichte, OP-Berichte, Arzneiverordnungen 1 Elektronische Patientenakte 459300402 sich wahrscheinlich im Stadium der Ausheilung der Hepatitis-B-Virusinfektion. Nach Rücksprache mit dem Hepatologen Prof. Leber haben wir der Patientin die nochmalige Kontrolle der Hepatitis. Serologie im Dezember 2004 nahegelegt. Von der von Frau Lüdenscheid gewünschten Nachsorge in der Schwarzwaldklinik haben wir ihr strikt abgeraten. mit freundlichen, kollegialen Grüßen Prof. Dr. Baum, Dr. Herz num. Daten (Labor) Freitexte 333400112 GGT ALAT ASAT 2004 -09 -02 12 2, 5 3, 4 2004 -09 -03 13 13 1, 9 0, 6 1, 8 0, 7 (semi)automatische Pseudonymisierung Arztbriefe, Befundberichte, OP-Berichte, Arzneiverordnungen 333400112 sich wahrscheinlich im Stadium der Ausheilung der Hepatitis-B-Virusinfektion. Nach Rücksprache mit dem Hepatologen Prof. Hagedorn haben wir der Patientin die nochmalige Kontrolle der Hepatitis. Serologie im Dezember 2004 nahegelegt. Von der von Frau Schindler gewünschten Nachsorge in der Nordseeklinik haben wir ihr strikt abgeraten. mit freundlichen, kollegialen Grüßen Prof. Dr. Klaus, Dr. Fuchs Seite 21 Text-Mining. System

Architektur eines Biomedizinischen Textanalyse-Kernsystems 1 A severe infection ended the pregnancy ended infection a Architektur eines Biomedizinischen Textanalyse-Kernsystems 1 A severe infection ended the pregnancy ended infection a severe Ending pregnancy E-patient E-agent the I-degree end. V + ed. Past. Ten Wortanalyse severe Satzstruktur. Analyse Semantik Interpreter Archivierungsangaben [morpholgisch, NER] Pregnancy Infection Seite 22 Lexikon Grammatik/ Baumbank Proposition Bank Medizinische Ontologie

Text Mining aus medizinischen Befundberichten 1 Fakten- & Phänotypen. Tabelle Elektronische Patientenakte(n) Befundberichte Aufgrund Text Mining aus medizinischen Befundberichten 1 Fakten- & Phänotypen. Tabelle Elektronische Patientenakte(n) Befundberichte Aufgrund des klinischen und sonographischen Leberbefundes war von einer Steatose Aufgrund des klinischen (DD: Zirrhose) ausgegangen und sonographischen worden. Beides konnte am Aufnahmetag Leberbefundes war von feinnadelbioptisch so gut wie ausgeschlossen einer Steatose (DD: werden Diagnose ICD-10 Aufgrund des klinischen und sonographischen Leberbefundes war von einer Steatose (DD: Zirrhose) ausgegangen worden. Beides konnte am Aufnahmetag feinnadelbioptisch so gut wie ausgeschlossen werden M 15. 9 Diagnose Polyarthrose Lokalisation Handgelenk Fingergelenk Kniegelenk Fußgelenk Aufgrund des klinischen Zirrhose) ausgegangen Aufgrund des klinischen und sonographischen worden. Beides konnte Leberbefundes war von Leberbefundes einer von war Steatose am Aufnahmetag (DD: Aufgrund der Röntgenbefunde vom 10. 12. so gut wie worden. Beides konnte ausgeschlossen werden muss von am Aufnahmetag Aufgrund des klinischen und feinnadelbioptisch sonographischen Leberbefundes war von einer Polyarthrose einer Steatose (DD: so gut wie Zirrhose) ausgegangen mit Manifestation im worden. Beides konnte ausgeschlossen werden am Aufnahmetag Bereich der Hand-, feinnadelbioptisch so gut wie ausgeschlossen werden Finger-, Knie-, und Fußgelenke ausgegangen werden Zirrhose) ausgegangen einer Steatoseworden. Beides konnte (DD: feinnadelbioptisch am Aufnahmetag Archivierungsangaben Zirrhose) ausgegangen feinnadelbioptisch so gut wie Arztbriefe (Entlassungsberichte) Sicherheit Status . . . 95% positiv Seite 23 z. B. Diagnosen, Medikationen, Laborbefunde, Tumordokumentation

Überblick über das Pilotprojekt Nichtöffentliche Domäne Öffentliche Domäne 2 1 Krankheits. Phänotyp-Beschreibung Deutsch-Englisch-Index Kombin. Überblick über das Pilotprojekt Nichtöffentliche Domäne Öffentliche Domäne 2 1 Krankheits. Phänotyp-Beschreibung Deutsch-Englisch-Index Kombin. Netzwerk: Krankheits-Phänotyp. Gen/Protein-Netz 4 3 Gen/Protein-Netzwerk Archivierungsangaben Gene/Proteine Wissenschaftliche Publikationen Arztbriefe Experimentelle Daten Seite 24 Deutsch Englisch

Überblick über das Pilotprojekt Nichtöffentliche Domäne Öffentliche Domäne 2 Krankheits. Phänotyp-Beschreibung Deutsch-Englisch-Index Kombin. Netzwerk: Überblick über das Pilotprojekt Nichtöffentliche Domäne Öffentliche Domäne 2 Krankheits. Phänotyp-Beschreibung Deutsch-Englisch-Index Kombin. Netzwerk: Krankheits-Phänotyp. Gen/Protein-Netzwerk Archivierungsangaben Gene/Proteine Wissenschaftliche Publikationen Arztbriefe Experimentelle Daten Seite 25 Deutsch Englisch

Überblick über das Pilotprojekt Nichtöffentliche Domäne 2 Archivierungsangaben Krankheits. Phänotyp-Beschreibung Deutsch-Englisch-Index Arztbriefe Seite 26 Überblick über das Pilotprojekt Nichtöffentliche Domäne 2 Archivierungsangaben Krankheits. Phänotyp-Beschreibung Deutsch-Englisch-Index Arztbriefe Seite 26 Deutsch

Normalisierung multilingualer Texte 2 high tsh values suggest the High TSH values suggest the Normalisierung multilingualer Texte 2 high tsh values suggest the High TSH values suggest the Orthografische diagnosis of primary hypo. Normalisierung thyroidism. . . Erhöhte TSH-Werte erlauben die Diagnose einer primären Hypothyreose. . . erhoehte tsh-werte erlauben die diagnose einer primaeren hypothyreose. . . Originaltexte Archivierungsangaben Zerlegungsalgorithmus Inhaltsrepräsentation #up tsh #value #suggest #diagnost #primar #small #thyre high tsh value s suggest the Semantische diagnos is of primar y Seite 27 hypo Normalisierung thyroid ism #up tsh #value #permit #diagnost #primar #small #thyre er hoeh te tsh wert e erlaub en die diagnos e einer primaer en hypo thyre ose

Überblick über das Pilotprojekt Nichtöffentliche Domäne Öffentliche Domäne 2 1 Krankheits. Phänotyp-Beschreibung Deutsch-Englisch-Index Kombin. Überblick über das Pilotprojekt Nichtöffentliche Domäne Öffentliche Domäne 2 1 Krankheits. Phänotyp-Beschreibung Deutsch-Englisch-Index Kombin. Netzwerk: Krankheits-Phänotyp. Gen/Protein-Netz 4 3 Gen/Protein-Netzwerk Archivierungsangaben Gene/Proteine Wissenschaftliche Publikationen Arztbriefe Experimentelle Daten Seite 28 Deutsch Englisch

Überblick über das Pilotprojekt Nichtöffentliche Domäne Krankheits. Phänotyp-Beschreibung Öffentliche Domäne Krankheits. Phänotyp-Beschreibung Deutsch-Englisch-Index Kombin. Überblick über das Pilotprojekt Nichtöffentliche Domäne Krankheits. Phänotyp-Beschreibung Öffentliche Domäne Krankheits. Phänotyp-Beschreibung Deutsch-Englisch-Index Kombin. Netzwerk: Krankheits-Phänotyp. Gen/Protein-Netz 3 Gen/Protein-Netzwerk Archivierungsangaben Gene/Proteine Wissenschaftliche Publikationen Arztbriefe Experimentelle Daten Seite 29 Deutsch Englisch

Überblick über das Pilotprojekt Nichtöffentliche Domäne Öffentliche Domäne 3 Gen/Protein-Netzwerk Archivierungsangaben Gene/Proteine Wissenschaftliche Publikationen Überblick über das Pilotprojekt Nichtöffentliche Domäne Öffentliche Domäne 3 Gen/Protein-Netzwerk Archivierungsangaben Gene/Proteine Wissenschaftliche Publikationen Experimentelle Daten Seite 30 Englisch

F 12 A Gen/Protein-Netzwerk: Aufgaben 3 Neuronectin, GMEM, tenascin, HXB, cytotactin, hexabrachion p 21, F 12 A Gen/Protein-Netzwerk: Aufgaben 3 Neuronectin, GMEM, tenascin, HXB, cytotactin, hexabrachion p 21, EPO, large T antigen regulates WAS, STEP, i. CE, St. AR COL 1 A 1 Interleukin 1 alpha Tumor necrosis factor beta Collagen, type I, alpha 1 Collagen alpha 1(I) chain Alpha 1 collagen Alpha-1 type I collagen TNF receptor 1 collagen, type I, alpha receptor E 2 F-1 UDG the transcription the gene factor Namenserkennung Satzstruktur. Analyse/Semantik Gen/Protein. Wörterbuch Grammatik/ Interaktions. Konzepte Archivierungsangaben (Pro. Miner) To. PNet Seite 31 Visualisierung Abbildung auf experimentelle Daten

Protein-Protein. Interaktions-Netzwerk 3 PMID 9886399: In both T cells and NK cells, IL-2 induces Protein-Protein. Interaktions-Netzwerk 3 PMID 9886399: In both T cells and NK cells, IL-2 induces the activation of STAT 1, STAT 3, and STAT 5. Archivierungsangaben PMID 1850360: Interleukin 2 stimulates serine phosphorylation of CD 45 in CTLL-2. 4 cells. Rot: differenziell exprimiert Weiß: keine Änderung in der Expression Seite 32 PMID 10428849: Egr-1 mediates extracellular matrixdriven transcription of membrane type 1 matrix metalloproteinase in endothelium.

Überblick über das Pilotprojekt Nichtöffentliche Domäne Öffentliche Domäne 2 1 Krankheits. Phänotyp-Beschreibung Deutsch-Englisch-Index Kombin. Überblick über das Pilotprojekt Nichtöffentliche Domäne Öffentliche Domäne 2 1 Krankheits. Phänotyp-Beschreibung Deutsch-Englisch-Index Kombin. Netzwerk: Krankheits-Phänotyp. Gen/Protein-Netz 4 3 Gen/Protein-Netzwerk Archivierungsangaben Gene/Proteine Wissenschaftliche Publikationen Arztbriefe Experimentelle Daten Seite 33 Deutsch Englisch

Überblick über das Pilotprojekt Nichtöffentliche Domäne Krankheits. Phänotyp-Beschreibung Öffentliche Domäne Krankheits. Phänotyp-Beschreibung Deutsch-Englisch-Index Kombin. Überblick über das Pilotprojekt Nichtöffentliche Domäne Krankheits. Phänotyp-Beschreibung Öffentliche Domäne Krankheits. Phänotyp-Beschreibung Deutsch-Englisch-Index Kombin. Netzwerk: Krankheits-Phänotyp. Gen/Protein-Netz 4 Gen/Protein-Netzwerk Archivierungsangaben Gene/Proteine Wissenschaftliche Publikationen Arztbriefe Experimentelle Daten Seite 34 Deutsch Englisch

Beispiel Osteoarthrose: Beziehung zwischen Krankheit und Protein als Netzwerk 4 • Benutze Kookkurrenz zwischen Beispiel Osteoarthrose: Beziehung zwischen Krankheit und Protein als Netzwerk 4 • Benutze Kookkurrenz zwischen Krankheit (MESH Terme) und Genen Archivierungsangaben • Benutze statistische Methoden um einen Relevanzwert zu ermitteln. Extrahierte Protein-Protein. Interaktionen für die 70 relevantesten Proteine Rot: signifikante Assoziation Weiß: keine signifikante Assoziation Seite 35

Archivierungsangaben Osteoarthrose Sub-Netzwerk Krankheitskontext-spezifisches Protein-Interaktions. Netzwerk 4 Seite 36 Archivierungsangaben Osteoarthrose Sub-Netzwerk Krankheitskontext-spezifisches Protein-Interaktions. Netzwerk 4 Seite 36

Gewinn für die biomedizinische Forschung ü Phänotyp-Information kann für empirische Datenanalyse genutzt werden ü Gewinn für die biomedizinische Forschung ü Phänotyp-Information kann für empirische Datenanalyse genutzt werden ü Kontextspezifische Analyse von Expressionsdaten und anderen experimentellen Daten Archivierungsangaben ü Verknüpfung von genomischen (molekularen) Funktionsnetzwerken und klinischen Daten Seite 37

Bio. Te. M: Bedeutung für öffentliche und industrielle Nutzergruppen automatische Bereitstellung von Informationen für Bio. Te. M: Bedeutung für öffentliche und industrielle Nutzergruppen automatische Bereitstellung von Informationen für genomische und biologische Datenbanken (Biotechnologie-Industrie; Beispiele BRENDA und Bio. BASE) ü „Target-Validierung“ für die pharmazeutische Industrie (Aventis, Jena. Pharm) ü automatische Informationsgewinnung über biologische Prozesse, Krankheitshypothesen, Medikamente, Patente; Kompetitive Intelligenz ü automatische Dokumentation für Klinische Informations- und Dokumentationssysteme ü Archivierungsangaben ü automatische Krankheits- und Prozedurenkodierung für Krankenkassen (Kostensenkung) ü automatische Entdeckung von und ggf. Warnung vor unerwünschten Nebenwirkungen ( Pharma-Industrie) Seite 38

Ein konkretes Anwendungsszenario Risikoabschätzung von Tumorentstehung durch Genotyp-Phänotyp-Korrelationen bei Epidermolysis bullosa dystrophica q Epidermolysis Ein konkretes Anwendungsszenario Risikoabschätzung von Tumorentstehung durch Genotyp-Phänotyp-Korrelationen bei Epidermolysis bullosa dystrophica q Epidermolysis bullosa: Gruppe von genetischen Hautkrankheiten mit Mutationen in Genen für Strukturproteine dermo-epidermalen Basalmembranzone. Inzidenz: 1 / 100. 000 Geburten. Archivierungsangaben q Minimale Traumata führen zu Blasenbildung an Haut und hautnahen Schleimhäuten, Abheilung der dadurch entstandenen Wunden führt oft zur Narbenbildung und ggf. zu Verwachsungen, die auch Kontrakturen bedingen können. Seite 39

Ein konkretes Anwendungsszenario Archivierungsangaben q Milde und Schwere Verlaufsformen: EB simplex (EBS), EB dystrophica Ein konkretes Anwendungsszenario Archivierungsangaben q Milde und Schwere Verlaufsformen: EB simplex (EBS), EB dystrophica (EBD) q Netzwerk Epidermolysis Bullosa: www. netzwerk-eb. de, befasst sich mit den Ursachen, der Diagnose, Prophylaxe und Behandlung (gefördert vom BMBF). Seite 40

Ein konkretes Anwendungsszenario EB dystrophica (EBD) q mehr als 300 unterschiedliche Mutationen des Kollagen Ein konkretes Anwendungsszenario EB dystrophica (EBD) q mehr als 300 unterschiedliche Mutationen des Kollagen VII Gens publiziert und/oder in den Mutations-Datenbanken, mehrere Hundert weitere, noch nicht bekannte Mutationen. Universitäts-Hautklinik Freiburg: Diagnostik, klinischer Betreuung und Grundlagenforschung, internationaler Patientenstamm Archivierungsangaben q Ziel des Text Minings: Verbesserung der Prognosestellung — Auffinden bislang unentdeckter Korrelationen zwischen Art und Lokalisation der Genmutation und des klinischen Langzeitverlaufs sowie der Erkennung des Krebses q Abgleichen der Daten o in der Literatur, o in den Mutations-Datenbanken, o in eigenen Laborbefunden (Immunfluoreszenz, Mutationsanalysen etc. ) o in eigenen und anderen klinischen Dokumenten Seite 41

Planung für die Zukunft Gemeinsame, koordinierte Forschung Ausbauphase I Pilotprojekt 2005 2006 2007 2008 Planung für die Zukunft Gemeinsame, koordinierte Forschung Ausbauphase I Pilotprojekt 2005 2006 2007 2008 Ausbauphase II 2009 Ressourcenaufbau (Generierung von Testkorpora / Benchmarks / Tools) Archivierungsangaben Verbreitung von Wissen (Dissemination) durch Workshops / Training Nationaler Aufbau der „Scientific Community“ und internationale Einbindung Organisation und Infrastruktur Seite 42

Förderbedarf für die Pilotphase (2 Jahre) des Deutschen Virtuellen Zentrums für Text Mining (Bio. Förderbedarf für die Pilotphase (2 Jahre) des Deutschen Virtuellen Zentrums für Text Mining (Bio. Te. M) 2 + 2 Wissenschaftlerstellen für J / BN / FR + 1 Koordinationsstelle (J) Hilfskräfte Training / Reisen / Workshops / Web-Präsenz Eigenleistungen: Archivierungsangaben ergänzende Stellen (Expertise im Kontext der einzelnen Forschungsgruppen) Hardware Organisations-Infrastruktur Seite 43

Partner Bio. BASE Gmb. H Hannover Prof. Dr. Dietmar Schomburg Universität Köln Dr. Martin Partner Bio. BASE Gmb. H Hannover Prof. Dr. Dietmar Schomburg Universität Köln Dr. Martin Hofmann Fraunhofer SCAI St. Augustin Dr. Paul Buitelaar DFKI, Saarbrücken Archivierungsangaben Prof. Dr. Uwe Reyle Universität Stuttgart Prof. Dr. Rüdiger Klar Universität Freiburg Universität Rostock Prof. Dr. Ulf Leser Humboldt Universität Berlin Prof. Dr. Udo Hahn Universität Jena Dr. Isabel Rojas European Media Lab Heidelberg TEMIS Deutschland Gmb. H Heidelberg Seite 44