Projekte pro Jahr
Abstract
Einleitung und Fragestellung: Im Bereich der Biomedizin werden insbesondere zur Integration heterogener Daten zunehmend Semantik-Web-Technologien wie RDF, RDFS und OWL verwendet [1]. Im vorliegenden Beitrag wird ein Benchmarking-System für den systematischen Vergleich konkurrierender RDF-Speicher- und -Anfragesysteme vorgestellt. Im Gegensatz zu anderen Benchmarks werden statt künstlich generierter Testdaten reale Daten aus der MEDLINE-Literaturdatenbank und dem MeSH-Thesaurus verwendet.
Material und Methoden: MEDLINE-Anfrageergebnisse sowie MeSH-Deskriptoren im verfügbaren XML-Format werden in das RDF- bzw. RDFS-Format transformiert [2], [3]. Mit dem hier MEDLINE-RDF-BEnchmarking-System (MERBES) kann der Benutzer PubMed-Anfragen für die Generierung von RDF-formatierten Testdaten mit gewünschten Eigenschaften und Größen formulieren. Benchmarks werden definiert durch SPARQL-Anfragen, die durch RDF-Speicher- und -Anfragesysteme auf die generierten Testdaten ausgeführt werden, d.h. Eigenentwicklungen mit verschiedenen Optimierungsstrategien [4] sowie die Systeme Jena und Sesame.
Ergebnisse: Im vorliegenden Ansatz steht mit dem PubMed-System ein "Goldstandard" für MEDLINE-Anfragen zur Verfügung, so dass neben Laufzeitanalysen auch die Vollständigkeit und Korrektheit von SPARQL (SPARQL Protocol and RDF Query Language) Anfragen ermittelt werden können. Dazu müssen die zu RDF-Anfragen äquivalenten PubMed-Anfragen mit denjenigen Anfragen konjunktiv verknüpft werden, die anfangs zur Testdaten-Generierung verwendet wurden. Ein besonderes Interesse besteht in der Nutzung der polyhierarchisch organisierten MeSH-Deskriptoren mit Deduktionen im erzeugten RDFS-Format. Unerwartete Unterschiede zwischen der Baumnummer-orientierten Vorgehensweise in PubMed und der logischen Vorgehensweise im RDFS-Format werden im Vortrag diskutiert.
Diskussion und Ausblick: MERBES hat sich als effektives Instrument für das systematische Durchführen von Performanz-, Korrektheits- und Vollständigkeits-Analysen für Kombinationen von SPARQL-Anfragen, Testdaten und RDF-Speichersystemen erwiesen.
Material und Methoden: MEDLINE-Anfrageergebnisse sowie MeSH-Deskriptoren im verfügbaren XML-Format werden in das RDF- bzw. RDFS-Format transformiert [2], [3]. Mit dem hier MEDLINE-RDF-BEnchmarking-System (MERBES) kann der Benutzer PubMed-Anfragen für die Generierung von RDF-formatierten Testdaten mit gewünschten Eigenschaften und Größen formulieren. Benchmarks werden definiert durch SPARQL-Anfragen, die durch RDF-Speicher- und -Anfragesysteme auf die generierten Testdaten ausgeführt werden, d.h. Eigenentwicklungen mit verschiedenen Optimierungsstrategien [4] sowie die Systeme Jena und Sesame.
Ergebnisse: Im vorliegenden Ansatz steht mit dem PubMed-System ein "Goldstandard" für MEDLINE-Anfragen zur Verfügung, so dass neben Laufzeitanalysen auch die Vollständigkeit und Korrektheit von SPARQL (SPARQL Protocol and RDF Query Language) Anfragen ermittelt werden können. Dazu müssen die zu RDF-Anfragen äquivalenten PubMed-Anfragen mit denjenigen Anfragen konjunktiv verknüpft werden, die anfangs zur Testdaten-Generierung verwendet wurden. Ein besonderes Interesse besteht in der Nutzung der polyhierarchisch organisierten MeSH-Deskriptoren mit Deduktionen im erzeugten RDFS-Format. Unerwartete Unterschiede zwischen der Baumnummer-orientierten Vorgehensweise in PubMed und der logischen Vorgehensweise im RDFS-Format werden im Vortrag diskutiert.
Diskussion und Ausblick: MERBES hat sich als effektives Instrument für das systematische Durchführen von Performanz-, Korrektheits- und Vollständigkeits-Analysen für Kombinationen von SPARQL-Anfragen, Testdaten und RDF-Speichersystemen erwiesen.
Originalsprache | Deutsch |
---|---|
DOIs | |
Publikationsstatus | Veröffentlicht - 02.09.2009 |
Veranstaltung | 54. Jahrestagung der Deutschen Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie e.V. (GMDS) - Essen, Deutschland Dauer: 07.09.2009 → 10.09.2009 |
Tagung, Konferenz, Kongress
Tagung, Konferenz, Kongress | 54. Jahrestagung der Deutschen Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie e.V. (GMDS) |
---|---|
Kurztitel | GMDS 2009 |
Land/Gebiet | Deutschland |
Ort | Essen |
Zeitraum | 07.09.09 → 10.09.09 |
Strategische Forschungsbereiche und Zentren
- Querschnittsbereich: Intelligente Systeme
- Zentren: Zentrum für Künstliche Intelligenz Lübeck (ZKIL)
DFG-Fachsystematik
- 409-04 Betriebs-, Kommunikations-, Datenbank- und verteilte Systeme
Projekte
- 1 Abgeschlossen
-
Logisch und physikalisch optimierte Semantic Web Datenbank-Engine
Groppe, S. & Linnemann, V.
01.01.07 → 31.12.11
Projekt: DFG-Projekte › DFG Einzelförderungen