Künstliche Intelligenz (KI) ist schon heute zentraler Bestandteil unseres Lebens. Dank ihr übernehmen intelligente Systeme Arbeiten, die für Menschen mit viel Aufwand verbunden wären – zum Beispiel in der Medizin, der Wirtschaft oder der Industrie. Die Basis dafür bilden Unmengen von Daten. Sogenannte Wissensgraphen gehören dabei zu den bevorzugten Repräsentationsmechanismen, weil sie für Menschen und Maschinen nachvollziehbar sind und dafür sorgen, dass Informationen sinnvoll aufbereitet werden. Sie gelten als Schlüssel für eine Reihe von beliebten Technologien wie die Websuche oder digitale persönliche Assistenten. Allerdings weisen aktuelle Ansätze des maschinellen Lernens in Verbindung mit Wissensgraphen noch immer Unzulänglichkeiten auf, insbesondere mit Blick auf Skalierbarkeit, Konsistenz und Vollständigkeit. Ein weiteres Problem: Sie erfüllen den menschlichen Bedarf nach Verständlichkeit nicht.
Forschende der Universität Paderborn arbeiten gemeinsam mit dem National Centre for Scientific Research Demokritos in Griechenland, dem European Union Satellite Centre in Spanien, der Universität Amsterdam, Niederlande, sowie den Unternehmen DATEV, Deutschland, und webLyzard technology, Österreich, im EU-Projekt ENEXA (Efficient Explainable Learning on Knowledge Graphs) daran, erklärbares maschinelles Lernen für großskalige Wissensgraphen möglich zu machen. Dafür sollen Ko-Konstruktion von Erklärungen eingestetzt werden. Bei dem Konzept werden die Adressatinnen und Adressaten – also die Menschen – stärker in den KI-gesteuerten Prozess miteinbezogen. Die Erklärungen entstehen nicht nur für sie, sondern mit ihnen.
Bislang gibt es keine konkreten Umsetzungen für das Konzept. Die Projektpartner haben es sich deshalb zum Ziel gesetzt, erklärbare Ansätze für maschinelles Lernen auf besonders großen Wissensgraphen zu entwickeln. Der Fokus liegt auf der schnellen Berechnung von Modellen und menschenzentrierten Erklärungen. Um diese Ansätze zu validieren, wurden drei Anwendungsfälle ausgewählt.
Der erste in Zusammenarbeit mit dem Unternehmen DATEV, das mehr als 60 Millionen digitale Belege im Monat von ca. 960.000 deutschen KMU, also kleinen und mittleren Unternehmen, sowie öffentlichen Einrichtungen verarbeitet. Diese buchhaltungsrelevanten Belege müssen klassifiziert und interpretiert werden, um gültige Buchungssätze zu erstellen. In dem Prozess spielen Qualität und Rückverfolgbarkeit eine entscheidende Rolle, um Fehler und damit Kosten zu minimieren und die Einhaltung gesetzlicher Vorgaben zu gewährleisten. Die Qualität der Automatisierungsergebnisse hängt stark von der Datenbasis und deren Aufbereitung für das maschinelle Lernen ab. In Zusammenarbeit mit den Forschenden sollen neue Ansätze für effizientere und damit ressourcenschonende Prozesse unter Verwendung von Wissensgraphen erforscht werden.
Der zweite Anwendungsfall wird gemeinsam mit dem European Union Satellite Centre (SATCEN), einer EU-Agentur mit Sitz in Spanien, durchgeführt. SATCEN bietet Produkte und Dienste für die Geoinformationsgewinnung an. Eine der Quellen dafür sind die Daten der Sentinel-Satelliten als Teil des Copernicus-Programms der Europäischen Union. Sie produzieren riesige Datenmengen, die mit geografischen Wissensgraphen kombiniert werden können, um daraus effizient relevante Informationen zu gewinnen. Das ENEXA-Team befasst sich mit der Entwicklung neuer Techniken zur Verbesserung der Verwaltung und Analyse solcher Daten.
Zusammen mit webLyzard technology sollen im dritten Anwedungsbeispiel Markenkommunikationsstrategien verbessert werden. Das Unternehmen stützt sich auf Wissensgraphen als Hintergrundwissen für die Zuordnung von affektivem Wissen zu Verbrauchermarken sowie für die Vorhersage zukünftiger Ereignisse, um daraus datengesteuerte Strategien abzuleiten. webLyzard technology verarbeitet bis zu 100 Millionen Dokumente pro Tag. Ziel ist es, aussagekräftige Klassifizierungsergebnisse zu erhalten, die dazu führen, dass Unternehmen beispielsweise Pressemitteilungen verbreiten oder Online-Anzeigen schalten, um ihre Inhalte in bestimmten Zeitintervallen zu bewerben und so die Reichweite bei ihren Zielgruppen zu maximieren. Aktuelle Ansätze sind laut Team nicht in der Lage, diese Datenmenge zu bewältigen.
Bei ENEXA arbeiten Wissenschaftlerinnen und Wissenschaftler aus unterschiedlichen Disziplinen am Gelingen des Projekts: Dazu zählen Forschende aus der Computerlinguistik, der Psychologie, der Informatik und der Softwareentwicklung. Der gemeinschaftliche Ansatz soll neue Antworten auf gesellschaftliche, wirtschaftliche und unternehmerische Herausforderungen im Zusammenhang mit Künstlicher Intelligenz liefern. Im Kern geht es dabei um die Teilnahme von Menschen an soziotechnischen Systemen. Das Team rechnet bereits 2023 mit ersten Ergebnissen.