Nutzung von MEDLINE und MeSH für das Benchmarking von RDF-Speichersystemen

Abstract

Einleitung und Fragestellung: Im Bereich der Biomedizin werden insbesondere zur Integration heterogener Daten zunehmend Semantik-Web-Technologien wie RDF, RDFS und OWL verwendet [1]. Im vorliegenden Beitrag wird ein Benchmarking-System für den systematischen Vergleich konkurrierender RDF-Speicher- und -Anfragesysteme vorgestellt. Im Gegensatz zu anderen Benchmarks werden statt künstlich generierter Testdaten reale Daten aus der MEDLINE-Literaturdatenbank und dem MeSH-Thesaurus verwendet.

Material und Methoden: MEDLINE-Anfrageergebnisse sowie MeSH-Deskriptoren im verfügbaren XML-Format werden in das RDF- bzw. RDFS-Format transformiert [2], [3]. Mit dem hier MEDLINE-RDF-BEnchmarking-System (MERBES) kann der Benutzer PubMed-Anfragen für die Generierung von RDF-formatierten Testdaten mit gewünschten Eigenschaften und Größen formulieren. Benchmarks werden definiert durch SPARQL-Anfragen, die durch RDF-Speicher- und -Anfragesysteme auf die generierten Testdaten ausgeführt werden, d.h. Eigenentwicklungen mit verschiedenen Optimierungsstrategien [4] sowie die Systeme Jena und Sesame.

Ergebnisse: Im vorliegenden Ansatz steht mit dem PubMed-System ein "Goldstandard" für MEDLINE-Anfragen zur Verfügung, so dass neben Laufzeitanalysen auch die Vollständigkeit und Korrektheit von SPARQL (SPARQL Protocol and RDF Query Language) Anfragen ermittelt werden können. Dazu müssen die zu RDF-Anfragen äquivalenten PubMed-Anfragen mit denjenigen Anfragen konjunktiv verknüpft werden, die anfangs zur Testdaten-Generierung verwendet wurden. Ein besonderes Interesse besteht in der Nutzung der polyhierarchisch organisierten MeSH-Deskriptoren mit Deduktionen im erzeugten RDFS-Format. Unerwartete Unterschiede zwischen der Baumnummer-orientierten Vorgehensweise in PubMed und der logischen Vorgehensweise im RDFS-Format werden im Vortrag diskutiert.

Diskussion und Ausblick: MERBES hat sich als effektives Instrument für das systematische Durchführen von Performanz-, Korrektheits- und Vollständigkeits-Analysen für Kombinationen von SPARQL-Anfragen, Testdaten und RDF-Speichersystemen erwiesen.
OriginalspracheDeutsch
DOIs
PublikationsstatusVeröffentlicht - 02.09.2009
Veranstaltung54. Jahrestagung der Deutschen Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie e.V. (GMDS)
- Essen, Deutschland
Dauer: 07.09.200910.09.2009

Tagung, Konferenz, Kongress

Tagung, Konferenz, Kongress54. Jahrestagung der Deutschen Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie e.V. (GMDS)
KurztitelGMDS 2009
Land/GebietDeutschland
OrtEssen
Zeitraum07.09.0910.09.09

Strategische Forschungsbereiche und Zentren

  • Querschnittsbereich: Intelligente Systeme
  • Zentren: Zentrum für Künstliche Intelligenz Lübeck (ZKIL)

DFG-Fachsystematik

  • 409-04 Betriebs-, Kommunikations-, Datenbank- und verteilte Systeme

Zitieren