Logically and physically optimized Semantic Web database engine

  • Groppe, Sven (Principal Investigator (PI))
  • Linnemann, Volker (Associated Staff)

Project: DFG ProjectsDFG Individual Projects

Project Details

Description

Semantic Web Technologien berücksichtigen die Bedeutung von Symbolen bei ihrer Verarbeitung. Dadurch verringern sich u. a. Fehlerraten bei automatischer Integration von Daten und Services; auch neu ermitteltes Wissen auf der Basis von Ontologien wird bei diesem Prozess mit einbezogen. Mit den bisherigen Projektergebnissen ist es gelungen, effiziente, schnelle und skalierbare Semantic Web Anfrageevaluatoren zu entwickeln. Diese stellen die Basis dar, um Semantic Web Applikationen zu entwickeln, die im alltäglichen Gebrauch auf Basis von sehr großen Datenmengen schnell arbeiten und somit erst die Vorteile des Semantic Webs in Applikationen zum Tragen kommen. Das Konzept der (Semantic Web) Ontologie ist Im Zusammenhang mit Datenbank-Technologien noch nicht genügend erforscht. Das Ziel dieses Fortsetzungsantrages ist es, das Konzept der Ontologie mit seinen Auswirkungen für die optimierte Auswertung von Semantic Web-Anfragen näher zu betrachten und entsprechende optimierte Auswertungsstrategien zu entwickeln. Dabei sollen nicht nur (wie bisher) zentralisierte Semantic Web Datenbanktechnologien erforscht werden, sondern auch Optimierungen Im Hinblick auf die konkreten Spezifika der Semantic Web-Daten und - Sprachen für Parallele und Verteilte Datenbanktechnologien mit speziellem Fokus auf Optimierungen Ontologie-basierter Auswertungen entwickelt und evaluiert werden, welche einen enormen Schub für die Performance versprechen.

Key findings

Die Vision des Semantic Webs gegenüber herkömmlichen Datenbank Management Systemen und Web- Anwendungen ist es, bei der maschinellen Verarbeitung von Symbolen die Bedeutung des Symbols mit einfließen zu lassen, damit bei automatischer Integration von Daten und Services Fehlerraten von falsch abgebildeten Daten und Services verringert werden können. Es gibt beim World Wide Web Consortium (W3C), in der Industrie und in der Forschung zurzeit wesentliche Anstrengungen, das Semantic Web sowohl von den Spezifikationen wesentlicher Formate und Sprachen als auch den zu Grunde liegenden Technologien und Produkten weiter zu entwickeln. Momentane Semantic Web Applikationen besitzen oftmals noch große Performanzprobleme. Das Ziel dieses Projektes wurde erreicht, für Semantic Web-Daten und -Sprachen logische und physikalische Optimierungen im Hinblick auf die konkreten Spezifika der Semantic Web-Daten und - Sprachen zu erforschen, damit bei Semantic Web-Applikationen die Performanz verbessert wird. Wir führen dieses in den folgenden Absätzen kurz überblicksartig aus: Insbesondere wurden dafür zwei unterschiedliche Indexierungsansätze entwickelt. Der erste Indexierungsansatz steigert die Performanz von hauptspeicherbasierten Semantic Web Datenbanken maßgeblich, während der zweite Ansatz Anfragen auf sehr großen Datensätzen mit über 1 Milliarde Tripel so beschleunigt, dass die Beantwortung von Anfragen auf diesen Datensätzen überhaupt erst in vernünftiger Zeit möglich ist. Strombasierte Auswertung arbeitet gemeinhin auf möglicherweise unendlichen Datenströmen, d.h., Anfragen müssen z.B. in periodischen Zeitabständen ausgewertet werden bevor alle Daten des Datenstromes gelesen werden konnten. Wir haben solch einen strombasierten Anfrage-Evaluator entwickelt und wollen damit die Vorteile strombasierter Anfrage-Evaluatoren anhand eines aus EBay-Auktionen erzeugten Datenstromes demonstrieren. Eine Basisoperation bei der Indexkonstruktion für große Datensätze ist das externe Sortieren. Wir haben eine Variante des externen Sortierens erforscht, die zwar die Größe von initialen Läufen vergrößert und damit die Mischphase beschleunigt, dafür aber nicht so viel Rechenzeit verwendet wie die Standardmethode Replacement Selection. Weiterhin haben wir das Verteilungssortieren für die Indexkonstruktion von Semantic Web Datenbanken spezialisiert, welches die größten Performanzgewinne erzielt. Unser System unterstützt Inferenz von neuen Daten basierend auf RDF Schema Ontologien. Hierbei werden insbesondere logische Optimierungen angewendet, um a) Inferenz zu materialisieren, b) nur in Ontologiedaten zu schließen, und b) Anfragen gemeinsam mit Inferenzregeln zu optimieren (und damit Inferenz nicht zu materialisieren). Um konform mit der Spezifikation der RDF Anfragesprache SPARQL zu sein, ganz SPARQL 1.0 zu unterstützen und trotzdem nicht zu viele Fälle bei der Implementierung von SPARQL verarbeitenden Systemen und Applikationen betrachten zu müssen, haben wir einen Transformator entwickelt, der SPARQL-Anfragen in eine gleichmächtige Teilmenge von SPARQL namens CoreSPARQL überführt. CoreSPARQL enthält dabei weniger Sprachkonstrukte, so dass bei der maschinellen Verarbeitung von CoreSPARQL Anfragen nur das Mindestmaß an Sprachkonstrukten berücksichtigt werden muss. Wir haben festgestellt, dass die Verwendung dieses Moduls uns nicht nur bei der Entwicklung von Anfrage- Evaluatoren geholfen hat, sondern auch zum Beispiel bei einem Visuellen Anfragesystem für SPARQL-Anfragen. Dieses Visuelles Anfragesystem unterstützt daher ganz SPARQL 1.0, kann Vorschläge für Anfrageverfeinerungen basierend auf einem gegebenen Datensatz machen, und natürlich die Anfrage visuell editieren und serialisieren.

Statusfinished
Effective start/end date01.01.0731.12.11

UN Sustainable Development Goals

In 2015, UN member states agreed to 17 global Sustainable Development Goals (SDGs) to end poverty, protect the planet and ensure prosperity for all. This project contributes towards the following SDG(s):

  • SDG 9 - Industry, Innovation, and Infrastructure

Research Areas and Centers

  • Centers: Center for Artificial Intelligence Luebeck (ZKIL)
  • Research Area: Intelligent Systems

DFG Research Classification Scheme

  • 4.43-03 Security and Dependability, Operating, Communication and Distributed Systems

Fingerprint

Explore the research topics touched on by this project. These labels are generated based on the underlying awards/grants. Together they form a unique fingerprint.