Abstract
Einleitung und Fragestellung: Im Bereich der Biomedizin werden insbesondere zur Integration heterogener Daten zunehmend Semantik-Web-Technologien wie RDF, RDFS und OWL verwendet [1]. Im vorliegenden Beitrag wird ein Benchmarking-System für den systematischen Vergleich konkurrierender RDF-Speicher- und -Anfragesysteme vorgestellt. Im Gegensatz zu anderen Benchmarks werden statt künstlich generierter Testdaten reale Daten aus der MEDLINE-Literaturdatenbank und dem MeSH-Thesaurus verwendet.
Material und Methoden: MEDLINE-Anfrageergebnisse sowie MeSH-Deskriptoren im verfügbaren XML-Format werden in das RDF- bzw. RDFS-Format transformiert [2], [3]. Mit dem hier MEDLINE-RDF-BEnchmarking-System (MERBES) kann der Benutzer PubMed-Anfragen für die Generierung von RDF-formatierten Testdaten mit gewünschten Eigenschaften und Größen formulieren. Benchmarks werden definiert durch SPARQL-Anfragen, die durch RDF-Speicher- und -Anfragesysteme auf die generierten Testdaten ausgeführt werden, d.h. Eigenentwicklungen mit verschiedenen Optimierungsstrategien [4] sowie die Systeme Jena und Sesame.
Ergebnisse: Im vorliegenden Ansatz steht mit dem PubMed-System ein "Goldstandard" für MEDLINE-Anfragen zur Verfügung, so dass neben Laufzeitanalysen auch die Vollständigkeit und Korrektheit von SPARQL (SPARQL Protocol and RDF Query Language) Anfragen ermittelt werden können. Dazu müssen die zu RDF-Anfragen äquivalenten PubMed-Anfragen mit denjenigen Anfragen konjunktiv verknüpft werden, die anfangs zur Testdaten-Generierung verwendet wurden. Ein besonderes Interesse besteht in der Nutzung der polyhierarchisch organisierten MeSH-Deskriptoren mit Deduktionen im erzeugten RDFS-Format. Unerwartete Unterschiede zwischen der Baumnummer-orientierten Vorgehensweise in PubMed und der logischen Vorgehensweise im RDFS-Format werden im Vortrag diskutiert.
Diskussion und Ausblick: MERBES hat sich als effektives Instrument für das systematische Durchführen von Performanz-, Korrektheits- und Vollständigkeits-Analysen für Kombinationen von SPARQL-Anfragen, Testdaten und RDF-Speichersystemen erwiesen.
Material und Methoden: MEDLINE-Anfrageergebnisse sowie MeSH-Deskriptoren im verfügbaren XML-Format werden in das RDF- bzw. RDFS-Format transformiert [2], [3]. Mit dem hier MEDLINE-RDF-BEnchmarking-System (MERBES) kann der Benutzer PubMed-Anfragen für die Generierung von RDF-formatierten Testdaten mit gewünschten Eigenschaften und Größen formulieren. Benchmarks werden definiert durch SPARQL-Anfragen, die durch RDF-Speicher- und -Anfragesysteme auf die generierten Testdaten ausgeführt werden, d.h. Eigenentwicklungen mit verschiedenen Optimierungsstrategien [4] sowie die Systeme Jena und Sesame.
Ergebnisse: Im vorliegenden Ansatz steht mit dem PubMed-System ein "Goldstandard" für MEDLINE-Anfragen zur Verfügung, so dass neben Laufzeitanalysen auch die Vollständigkeit und Korrektheit von SPARQL (SPARQL Protocol and RDF Query Language) Anfragen ermittelt werden können. Dazu müssen die zu RDF-Anfragen äquivalenten PubMed-Anfragen mit denjenigen Anfragen konjunktiv verknüpft werden, die anfangs zur Testdaten-Generierung verwendet wurden. Ein besonderes Interesse besteht in der Nutzung der polyhierarchisch organisierten MeSH-Deskriptoren mit Deduktionen im erzeugten RDFS-Format. Unerwartete Unterschiede zwischen der Baumnummer-orientierten Vorgehensweise in PubMed und der logischen Vorgehensweise im RDFS-Format werden im Vortrag diskutiert.
Diskussion und Ausblick: MERBES hat sich als effektives Instrument für das systematische Durchführen von Performanz-, Korrektheits- und Vollständigkeits-Analysen für Kombinationen von SPARQL-Anfragen, Testdaten und RDF-Speichersystemen erwiesen.
| Originalsprache | Deutsch |
|---|---|
| DOIs | |
| Publikationsstatus | Veröffentlicht - 02.09.2009 |
| Veranstaltung | 54. Jahrestagung der Deutschen Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie e.V. (GMDS) - Essen, Deutschland Dauer: 07.09.2009 → 10.09.2009 |
Tagung, Konferenz, Kongress
| Tagung, Konferenz, Kongress | 54. Jahrestagung der Deutschen Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie e.V. (GMDS) |
|---|---|
| Kurztitel | GMDS 2009 |
| Land/Gebiet | Deutschland |
| Ort | Essen |
| Zeitraum | 07.09.09 → 10.09.09 |
UN SDGs
Dieser Output leistet einen Beitrag zu folgendem(n) Ziel(en) für nachhaltige Entwicklung
-
SDG 3 – Gesundheit und Wohlergehen
-
SDG 9 – Industrie, Innovation und Infrastruktur
Strategische Forschungsbereiche und Zentren
- Querschnittsbereich: Intelligente Systeme
- Zentren: Zentrum für Künstliche Intelligenz Lübeck (ZKIL)
DFG-Fachsystematik
- 4.43-03 Sicherheit und Verlässlichkeit, Betriebs-, Kommunikations- und verteilte Systeme
Projekte
- 1 Abgeschlossen
-
Logisch und physikalisch optimierte Semantic Web Datenbank-Engine
Groppe, S. (Projektleiter*in (PI)) & Linnemann, V. (Beteiligte Person)
01.01.07 → 31.12.11
Projekt: DFG Einzelprojekte › DFG Einzelförderungen (Sachbeihilfen)
Zitieren
- APA
- Author
- BIBTEX
- Harvard
- Standard
- RIS
- Vancouver