Abstract
Einleitung und Fragestellung
Die Notwendigkeit des Einsatzes standardisierter Terminologien in der medizinischen Informatik gilt als unbestritten. In diesem Beitrag werden verschiedene Einsatzbereiche der Daten- und Wissensverarbeitung vorgestellt. Aufgrund verschiedener Aufgabenstellungen unterscheiden sich die Anforderungen an eine terminologische Standardisierung. Besonders herausfordernd sind jene externen Terminologien, die einen interessierenden Wertebereich mit seinen Begriffen hierarchisch organisieren. Die enorme Produktivität medizinischer Begriffsbildung erfordert wiederum die Berücksichtigung von Relationen zwischen Begriffen. Für genau diese Aufgabenstellung haben sich Beschreibungslogiken etabliert, wie sie etwa in SNOMED CT verwendet werden. Diese begriffslogischen Ansätze wurden bereits mehrfach diskutiert und von statistischen Klassifikationen wie ICD oder Thesauren wie MeSH abgegrenzt [7]. Der vorliegende Beitrag setzt diese Betrachtung in gewisser Weise fort. Die Korrektheit logischer Deduktionen von Begriffswissen ist essentiell angewiesen auf das Beachten ontologischer Prinzipien. Den Potentialen reichhaltiger und korrekter Schlussfolgerungen steht eine Reihe von Konsequenzen gegenüber, die in diesem Beitrag diskutiert werden [6].
Material und Methoden
Im Vordergrund stehen in diesem Beitrag formale Terminologien, die möglichst ausdrucksstark und durch den Computer verarbeitbar sind. Zur formalen Definition von Begriffen haben sich mittlerweile Beschreibungslogiken durchgesetzt (z.B. GALEN, SNOMED CT). Die logische Sprache bietet gerade solche Ausdrucksmittel zur Komposition von Begriffen (genauer: von Begriffsintensionen), die entscheidbar und effizient analysierbar sind. Gleichzeitig kann im Rahmen der deduktiven Logik Vollständigkeit und Korrektheit garantiert werden, d.h. syntaktisch abgeleitete Sachverhalte entsprechen semantischen Folgerungen bei gegebenen Axiomen.
Nun haben die Namen von Begriffen und Relationen über die innerlogischen Bezüge hinaus auch fachsprachliche Bedeutungen für Menschen, die formale Terminologien erstellen und verwenden. Bei dieser Konfrontation mit der Wirklichkeit ergeben sich zwei aus anderen Gebieten bekannte Fehler: falsch-positive Ableitungen, d.h. logisch ableitbare Fakten sind falsch (z.B. multiple Magengeschwüre isa Magengeschwür) und falsch-negative Ableitungen, d.h. gültige Beziehungen sind logisch nicht herleitbar (z.B. Magenentzündung isa Magenschleimhautentzündung). Um diese Fehler zu reduzieren, hat sich seit einiger Zeit das Gebiet der Ontologie etabliert. Mit einem System von ontologischen Prinzipien lassen sich Subsumptionsbeziehungen existierender Begriffssysteme überprüfen [4]. Beachtet man etwa verschiedene Identitätskriterien für die Begriffe „Helicobacter“ und „Infektionserreger“, so kann man den so genannten ISA-Overload vermeiden. Die oben genannten formalen Terminologien (auch: „conceptualist ontologies“) werden qualitativ verbessert. Eine radikale Alternative ist der seit einiger Zeit propagierte Ansatz einer formalen Ontologie, die über eine extensionale Logik beschrieben wird. In bewusster Abkehr von Begriffsintensionen werden Beziehungen zwischen Instanzen in Raum und Zeit in Prädikatenlogik oder diversen Erweiterungen axiomatisiert (auch: „Real Ontologies“). Neben einem schlüssigen Kategoriensystem (Upper Model) werden insbesondere algebraische Eigenschaften von non-ISA-Relationen definiert, z.B. Transitivität oder Symmetrie [9].
Es sei festgehalten, dass die aktuell sehr virulente Diskussion von logischen und ontologischen Prinzipien für das effiziente und korrekte Deduzieren von Begriffswissen von fundamentaler Bedeutung ist. Allerdings werden dieselben Erkenntnisse auf verwandte Bereiche übertragen, die in Tabelle 1 [Tab. 1] aufgelistet sind. Das gilt für ein „konzeptuelles“ Datenbank- bzw. XML-Schema, für ein Data Dictionary im Rahmen kontrollierter Studien sowie für alternative externe Terminologien wie ICD oder MeSH.
Ergebnisse und Diskussion
Die Konfrontation zwischen den genannten Alternativen „conceptualist versus real Ontologies“ verdeutlicht bereits vorab ein Ergebnis: die bekannte Problematik, zwischen zwei Übeln wählen zu müssen, wird neu entfacht [3]. Entweder man schränkt mit den Beschreibungslogiken die Ausdrucksmächtigkeit zugunsten der Berechenbarkeit ein und akzeptiert ein gewisses Maß an falsch positiven bzw. falsch negativen Deduktionen. Oder man öffnet die „Dose der Pandorra“ mit allen Konsequenzen, die aus den 80er und 90er Jahren aus den theoretischen und vor allem praktischen Arbeiten zur (symbolischen) Künstlichen Intelligenz resultierten.
Mit Blick auf Tabelle 1 [Tab. 1] ergeben sich weitere Erkenntnisse, wenn man formale Terminologien (oder Ontologien) zur standardisierten Repräsentation von medizinischen Daten oder Wissen verwendet. Im Folgenden werden für die Bereiche nur stichwortartig einige Erkenntnisse genannt. Bei der Diskussion vor allem von Datenbankschemata und Merkmalsverzeichnissen (Data Dictionaries) geht es im Wesentlichen um die „epistemologische“ Frage: „Was können wir wissen?“ (oder: Welche Daten sind verfügbar?) im Unterschied zur ontologischen Frage „Was ist?“. Es stellt sich heraus, dass die Abgrenzung für das Funktionieren von logischer Deduktion sehr wichtig ist. In formalen Terminologien wie SNOMED CT ist auf epistemologisch angereicherte Begriffe wie „Tuberkulose, histologisch nicht gesichert“ zu verzichten [1]!
1) Datenverarbeitung
1a) Ein Datenmodell ist nicht primär eine Abbildung der Wirklichkeit, sondern ein Modell mit relevanten Sichten auf Repräsentationen der Wirklichkeit im Sinne einer zu lösenden Aufgabe. Beim Einsatz externer formaler Terminologien ergeben sich komplexe „Zuständigkeitsfragen“ (z.B. Familienanamnese Diabetes in DB oder Term?).
1b) Wenn logikbasierte Systeme ihr Potential zur Postkoordination ausschöpfen, stellt sich die Frage der softwaretechnischen Integration des Beweissystems in der medizinischen IT-Infrastruktur (Terminologieserver?). Der Einsatz einer formalen Ontologie mit gänzlich neuen Herausforderungen wird hier kurz angesprochen [2].
1b) Data Dictionaries bzw. Merkmalsverzeichnisse im Zusammenhang mit geplanter Dokumentation (u.a. für Studien) teilen mit statistischen Klassifikationen wie ICD die Zielsetzung einer möglichst vergleichbaren Datenerfassung. Der Anteil epistemologisch geprägter Inhalte ist groß (z.B. fehlende Werte, negative Fakten). Dieses kollidiert mit ontologischen Prinzipien und logischer Deduzierbarkeit [8]. Umso verwunderlicher sind die Arbeiten zu formalen Ontologien im Kontext von Studien [5].
2) Wissensverarbeitung
2 a) Der Einsatz symbolischer Wissensverarbeitung ist auf standardisiert repräsentierte klinische Daten angewiesen, siehe MEDWIS-Projekt in den 90er Jahren. Mit möglichst formalen Terminologien ergeben sich verwandte Probleme zu 1a) sowie Abgrenzungsfragen von terminlogischem und kontingentem (Welt-)Wissen.
2b) Für ein verbessertes Dokumenten Retrieval werden Thesauren wie MeSH verwendet. Die Anwendung ontologischer Prinzipien ist auch hier zu hinterfragen [6].
Zusammenfassend sei festgehalten, dass die Anwendung logischer und ontologischer Prinzipien für definierte Zwecke unbedingt erforderlich ist. Diese Prinzipien werden für die beim praktischen Einsatz tangierten Bereiche in möglichst ganzheitlicher Weise hinterfragt und diskutiert. Dabei werden eine Reihe von Erkenntnissen zusammengetragen, z.B. ein prinzipieller Konflikt zwischen SNOMED CT („Epistemologie-frei“) und ICD („Epistemologie-behaftet“) mit Konsequenzen fürs Mapping [6].
Die Notwendigkeit des Einsatzes standardisierter Terminologien in der medizinischen Informatik gilt als unbestritten. In diesem Beitrag werden verschiedene Einsatzbereiche der Daten- und Wissensverarbeitung vorgestellt. Aufgrund verschiedener Aufgabenstellungen unterscheiden sich die Anforderungen an eine terminologische Standardisierung. Besonders herausfordernd sind jene externen Terminologien, die einen interessierenden Wertebereich mit seinen Begriffen hierarchisch organisieren. Die enorme Produktivität medizinischer Begriffsbildung erfordert wiederum die Berücksichtigung von Relationen zwischen Begriffen. Für genau diese Aufgabenstellung haben sich Beschreibungslogiken etabliert, wie sie etwa in SNOMED CT verwendet werden. Diese begriffslogischen Ansätze wurden bereits mehrfach diskutiert und von statistischen Klassifikationen wie ICD oder Thesauren wie MeSH abgegrenzt [7]. Der vorliegende Beitrag setzt diese Betrachtung in gewisser Weise fort. Die Korrektheit logischer Deduktionen von Begriffswissen ist essentiell angewiesen auf das Beachten ontologischer Prinzipien. Den Potentialen reichhaltiger und korrekter Schlussfolgerungen steht eine Reihe von Konsequenzen gegenüber, die in diesem Beitrag diskutiert werden [6].
Material und Methoden
Im Vordergrund stehen in diesem Beitrag formale Terminologien, die möglichst ausdrucksstark und durch den Computer verarbeitbar sind. Zur formalen Definition von Begriffen haben sich mittlerweile Beschreibungslogiken durchgesetzt (z.B. GALEN, SNOMED CT). Die logische Sprache bietet gerade solche Ausdrucksmittel zur Komposition von Begriffen (genauer: von Begriffsintensionen), die entscheidbar und effizient analysierbar sind. Gleichzeitig kann im Rahmen der deduktiven Logik Vollständigkeit und Korrektheit garantiert werden, d.h. syntaktisch abgeleitete Sachverhalte entsprechen semantischen Folgerungen bei gegebenen Axiomen.
Nun haben die Namen von Begriffen und Relationen über die innerlogischen Bezüge hinaus auch fachsprachliche Bedeutungen für Menschen, die formale Terminologien erstellen und verwenden. Bei dieser Konfrontation mit der Wirklichkeit ergeben sich zwei aus anderen Gebieten bekannte Fehler: falsch-positive Ableitungen, d.h. logisch ableitbare Fakten sind falsch (z.B. multiple Magengeschwüre isa Magengeschwür) und falsch-negative Ableitungen, d.h. gültige Beziehungen sind logisch nicht herleitbar (z.B. Magenentzündung isa Magenschleimhautentzündung). Um diese Fehler zu reduzieren, hat sich seit einiger Zeit das Gebiet der Ontologie etabliert. Mit einem System von ontologischen Prinzipien lassen sich Subsumptionsbeziehungen existierender Begriffssysteme überprüfen [4]. Beachtet man etwa verschiedene Identitätskriterien für die Begriffe „Helicobacter“ und „Infektionserreger“, so kann man den so genannten ISA-Overload vermeiden. Die oben genannten formalen Terminologien (auch: „conceptualist ontologies“) werden qualitativ verbessert. Eine radikale Alternative ist der seit einiger Zeit propagierte Ansatz einer formalen Ontologie, die über eine extensionale Logik beschrieben wird. In bewusster Abkehr von Begriffsintensionen werden Beziehungen zwischen Instanzen in Raum und Zeit in Prädikatenlogik oder diversen Erweiterungen axiomatisiert (auch: „Real Ontologies“). Neben einem schlüssigen Kategoriensystem (Upper Model) werden insbesondere algebraische Eigenschaften von non-ISA-Relationen definiert, z.B. Transitivität oder Symmetrie [9].
Es sei festgehalten, dass die aktuell sehr virulente Diskussion von logischen und ontologischen Prinzipien für das effiziente und korrekte Deduzieren von Begriffswissen von fundamentaler Bedeutung ist. Allerdings werden dieselben Erkenntnisse auf verwandte Bereiche übertragen, die in Tabelle 1 [Tab. 1] aufgelistet sind. Das gilt für ein „konzeptuelles“ Datenbank- bzw. XML-Schema, für ein Data Dictionary im Rahmen kontrollierter Studien sowie für alternative externe Terminologien wie ICD oder MeSH.
Ergebnisse und Diskussion
Die Konfrontation zwischen den genannten Alternativen „conceptualist versus real Ontologies“ verdeutlicht bereits vorab ein Ergebnis: die bekannte Problematik, zwischen zwei Übeln wählen zu müssen, wird neu entfacht [3]. Entweder man schränkt mit den Beschreibungslogiken die Ausdrucksmächtigkeit zugunsten der Berechenbarkeit ein und akzeptiert ein gewisses Maß an falsch positiven bzw. falsch negativen Deduktionen. Oder man öffnet die „Dose der Pandorra“ mit allen Konsequenzen, die aus den 80er und 90er Jahren aus den theoretischen und vor allem praktischen Arbeiten zur (symbolischen) Künstlichen Intelligenz resultierten.
Mit Blick auf Tabelle 1 [Tab. 1] ergeben sich weitere Erkenntnisse, wenn man formale Terminologien (oder Ontologien) zur standardisierten Repräsentation von medizinischen Daten oder Wissen verwendet. Im Folgenden werden für die Bereiche nur stichwortartig einige Erkenntnisse genannt. Bei der Diskussion vor allem von Datenbankschemata und Merkmalsverzeichnissen (Data Dictionaries) geht es im Wesentlichen um die „epistemologische“ Frage: „Was können wir wissen?“ (oder: Welche Daten sind verfügbar?) im Unterschied zur ontologischen Frage „Was ist?“. Es stellt sich heraus, dass die Abgrenzung für das Funktionieren von logischer Deduktion sehr wichtig ist. In formalen Terminologien wie SNOMED CT ist auf epistemologisch angereicherte Begriffe wie „Tuberkulose, histologisch nicht gesichert“ zu verzichten [1]!
1) Datenverarbeitung
1a) Ein Datenmodell ist nicht primär eine Abbildung der Wirklichkeit, sondern ein Modell mit relevanten Sichten auf Repräsentationen der Wirklichkeit im Sinne einer zu lösenden Aufgabe. Beim Einsatz externer formaler Terminologien ergeben sich komplexe „Zuständigkeitsfragen“ (z.B. Familienanamnese Diabetes in DB oder Term?).
1b) Wenn logikbasierte Systeme ihr Potential zur Postkoordination ausschöpfen, stellt sich die Frage der softwaretechnischen Integration des Beweissystems in der medizinischen IT-Infrastruktur (Terminologieserver?). Der Einsatz einer formalen Ontologie mit gänzlich neuen Herausforderungen wird hier kurz angesprochen [2].
1b) Data Dictionaries bzw. Merkmalsverzeichnisse im Zusammenhang mit geplanter Dokumentation (u.a. für Studien) teilen mit statistischen Klassifikationen wie ICD die Zielsetzung einer möglichst vergleichbaren Datenerfassung. Der Anteil epistemologisch geprägter Inhalte ist groß (z.B. fehlende Werte, negative Fakten). Dieses kollidiert mit ontologischen Prinzipien und logischer Deduzierbarkeit [8]. Umso verwunderlicher sind die Arbeiten zu formalen Ontologien im Kontext von Studien [5].
2) Wissensverarbeitung
2 a) Der Einsatz symbolischer Wissensverarbeitung ist auf standardisiert repräsentierte klinische Daten angewiesen, siehe MEDWIS-Projekt in den 90er Jahren. Mit möglichst formalen Terminologien ergeben sich verwandte Probleme zu 1a) sowie Abgrenzungsfragen von terminlogischem und kontingentem (Welt-)Wissen.
2b) Für ein verbessertes Dokumenten Retrieval werden Thesauren wie MeSH verwendet. Die Anwendung ontologischer Prinzipien ist auch hier zu hinterfragen [6].
Zusammenfassend sei festgehalten, dass die Anwendung logischer und ontologischer Prinzipien für definierte Zwecke unbedingt erforderlich ist. Diese Prinzipien werden für die beim praktischen Einsatz tangierten Bereiche in möglichst ganzheitlicher Weise hinterfragt und diskutiert. Dabei werden eine Reihe von Erkenntnissen zusammengetragen, z.B. ein prinzipieller Konflikt zwischen SNOMED CT („Epistemologie-frei“) und ICD („Epistemologie-behaftet“) mit Konsequenzen fürs Mapping [6].
Original language | German |
---|---|
Publication status | Published - 01.09.2006 |
Event | 51. Jahrestagung der Deutschen Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie Deutsche Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie e. V - Leipzig, Germany Duration: 10.09.2006 → 14.09.2006 |
Conference
Conference | 51. Jahrestagung der Deutschen Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie Deutsche Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie e. V |
---|---|
Abbreviated title | gmds 2006 |
Country/Territory | Germany |
City | Leipzig |
Period | 10.09.06 → 14.09.06 |