Projects per year
Abstract
Einleitung und Fragestellung: Im Bereich der Biomedizin werden insbesondere zur Integration heterogener Daten zunehmend Semantik-Web-Technologien wie RDF, RDFS und OWL verwendet [1]. Im vorliegenden Beitrag wird ein Benchmarking-System für den systematischen Vergleich konkurrierender RDF-Speicher- und -Anfragesysteme vorgestellt. Im Gegensatz zu anderen Benchmarks werden statt künstlich generierter Testdaten reale Daten aus der MEDLINE-Literaturdatenbank und dem MeSH-Thesaurus verwendet.
Material und Methoden: MEDLINE-Anfrageergebnisse sowie MeSH-Deskriptoren im verfügbaren XML-Format werden in das RDF- bzw. RDFS-Format transformiert [2], [3]. Mit dem hier MEDLINE-RDF-BEnchmarking-System (MERBES) kann der Benutzer PubMed-Anfragen für die Generierung von RDF-formatierten Testdaten mit gewünschten Eigenschaften und Größen formulieren. Benchmarks werden definiert durch SPARQL-Anfragen, die durch RDF-Speicher- und -Anfragesysteme auf die generierten Testdaten ausgeführt werden, d.h. Eigenentwicklungen mit verschiedenen Optimierungsstrategien [4] sowie die Systeme Jena und Sesame.
Ergebnisse: Im vorliegenden Ansatz steht mit dem PubMed-System ein "Goldstandard" für MEDLINE-Anfragen zur Verfügung, so dass neben Laufzeitanalysen auch die Vollständigkeit und Korrektheit von SPARQL (SPARQL Protocol and RDF Query Language) Anfragen ermittelt werden können. Dazu müssen die zu RDF-Anfragen äquivalenten PubMed-Anfragen mit denjenigen Anfragen konjunktiv verknüpft werden, die anfangs zur Testdaten-Generierung verwendet wurden. Ein besonderes Interesse besteht in der Nutzung der polyhierarchisch organisierten MeSH-Deskriptoren mit Deduktionen im erzeugten RDFS-Format. Unerwartete Unterschiede zwischen der Baumnummer-orientierten Vorgehensweise in PubMed und der logischen Vorgehensweise im RDFS-Format werden im Vortrag diskutiert.
Diskussion und Ausblick: MERBES hat sich als effektives Instrument für das systematische Durchführen von Performanz-, Korrektheits- und Vollständigkeits-Analysen für Kombinationen von SPARQL-Anfragen, Testdaten und RDF-Speichersystemen erwiesen.
Material und Methoden: MEDLINE-Anfrageergebnisse sowie MeSH-Deskriptoren im verfügbaren XML-Format werden in das RDF- bzw. RDFS-Format transformiert [2], [3]. Mit dem hier MEDLINE-RDF-BEnchmarking-System (MERBES) kann der Benutzer PubMed-Anfragen für die Generierung von RDF-formatierten Testdaten mit gewünschten Eigenschaften und Größen formulieren. Benchmarks werden definiert durch SPARQL-Anfragen, die durch RDF-Speicher- und -Anfragesysteme auf die generierten Testdaten ausgeführt werden, d.h. Eigenentwicklungen mit verschiedenen Optimierungsstrategien [4] sowie die Systeme Jena und Sesame.
Ergebnisse: Im vorliegenden Ansatz steht mit dem PubMed-System ein "Goldstandard" für MEDLINE-Anfragen zur Verfügung, so dass neben Laufzeitanalysen auch die Vollständigkeit und Korrektheit von SPARQL (SPARQL Protocol and RDF Query Language) Anfragen ermittelt werden können. Dazu müssen die zu RDF-Anfragen äquivalenten PubMed-Anfragen mit denjenigen Anfragen konjunktiv verknüpft werden, die anfangs zur Testdaten-Generierung verwendet wurden. Ein besonderes Interesse besteht in der Nutzung der polyhierarchisch organisierten MeSH-Deskriptoren mit Deduktionen im erzeugten RDFS-Format. Unerwartete Unterschiede zwischen der Baumnummer-orientierten Vorgehensweise in PubMed und der logischen Vorgehensweise im RDFS-Format werden im Vortrag diskutiert.
Diskussion und Ausblick: MERBES hat sich als effektives Instrument für das systematische Durchführen von Performanz-, Korrektheits- und Vollständigkeits-Analysen für Kombinationen von SPARQL-Anfragen, Testdaten und RDF-Speichersystemen erwiesen.
Original language | German |
---|---|
DOIs | |
Publication status | Published - 02.09.2009 |
Event | 54. Jahrestagung der Deutschen Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie e.V. (GMDS) - Essen, Germany Duration: 07.09.2009 → 10.09.2009 |
Conference
Conference | 54. Jahrestagung der Deutschen Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie e.V. (GMDS) |
---|---|
Abbreviated title | GMDS 2009 |
Country/Territory | Germany |
City | Essen |
Period | 07.09.09 → 10.09.09 |
Research Areas and Centers
- Research Area: Intelligent Systems
- Centers: Center for Artificial Intelligence Luebeck (ZKIL)
DFG Research Classification Scheme
- 409-04 Operating, Communication, Database and Distributed Systems
Projects
- 1 Finished
-
Logically and physically optimized Semantic Web database engine
Groppe, S. & Linnemann, V.
01.01.07 → 31.12.11
Project: DFG Projects › DFG Individual Projects