KI-Systeme treffen täglich Millionen von Entscheidungen für und über uns, übernehmen Tätigkeiten, produzieren Inhalte. Doch wie sie zu ihren Ergebnissen kommen, bleibt oft im Dunkeln. Erklärbare KI soll das ändern: Sie versucht, Prozesse und Outputs von KI-Systemen für Menschen nachvollziehbar zu machen. Was erklärbare KI ist, für welche Tätigkeiten im Zusammenhang mit KI Erklärbarkeit besonders wichtig ist, und warum die Aussage „Erklärbarkeit schafft Vertrauen“ mit Vorsicht genossen werden sollte, darum geht es in diesem Beitrag.
Was ist Erklärbare KI?
Erklärbare Künstliche Intelligenz – auf Englisch Explainable Artificial Intelligence, kurz XAI – bezeichnet ein Forschungsfeld und ganz allgemein den Versuch, KI-Prozesse und deren Outputs für Menschen verständlich und nachvollziehbar zu machen (Abb. 1) (Langer et al., 2021; Miller, 2019). Das klingt einfacher, als es ist. Moderne KI-Modelle, insbesondere neuronale Netze und große Sprachmodelle, sind so komplex, dass selbst ihre Entwickler*innen oft nicht erklären können, warum ein System zu einem bestimmten Ergebnis gelangt.
Um KI erklärbarer zu machen, existieren grundsätzlich zwei Ansätze (Speith, 2022). Der erste setzt auf interpretierbare Modelle: Das heißt es werden von vornherein KI-Methoden bevorzugt, deren Entscheidungslogik nachvollziehbar ist – etwa Entscheidungsbäume oder lineare Modelle. Mit genug Zeit und Expertise können Entwickler*innen, aber teils auch Nutzende, bei diesen Methoden verstehen, wie die entstehenden KI-Modelle auf ihre Outputs kommen – zur Not mit technischer Hilfe (z. B. Visualisierungen), weil auch nachvollziehbare Methoden zu komplexen Modellen werden können, beispielsweise Entscheidungsbäume mit vielen Abzweigungen.
Der zweite Ansatz setzt auf nachträgliche Erklärungen, sogenannte Post-hoc-Erklärungen, für Modelle, die selbst kaum zu durchschauen sind. Diese Erklärungen können sich auf das gesamte Modellverhalten beziehen – man spricht dann von globalen Erklärungen – oder auf einzelne, konkrete Entscheidungen, was als lokale Erklärung bezeichnet wird. Eine globale Erklärung könnte z. B. beschreiben, welche Faktoren ein KI-Modell zur Bewertung von Bewerbenden am stärksten gewichtet. Eine lokale Erklärung würde erläutern, warum eine bestimmte Person abgelehnt wurde.
Für welche Tätigkeitsbereiche ist erklärbare KI besonders wichtig?
Erklärbare KI ist besonders dort relevant, wo Menschen KI-Outputs überprüfen und/oder auf deren Basis folgenreiche Entscheidungen treffen sollen (Fok & Weld, 2024). Das betrifft eine zunehmende Palette an Bereichen wie Medizin, Recht, Finanzwesen, Personalwesen oder öffentliche Verwaltung. Immer dann, wenn wir hören: „Da sollte nochmal ein Mensch draufschauen“, ist Überprüfbarkeit zentral – und damit auch Erklärbarkeit. Die einfache Annahme ist hierbei, dass oft erst durch Erklärbarkeit Fehler oder anderweitig problematische KI-Outputs (z. B. diskriminierende Outputs) erkennbar und behebbar werden. Und auch über die genannten Einsatzbereiche von KI hinaus ist der Alltag vieler Berufe inzwischen durchzogen davon, die Nützlichkeit und Akkuratheit von z. B. Outputs von KI-Chatbots zu prüfen (Sterz et al., 2024).
Überprüfbarkeit ist aber nicht das einzige Ziel von erklärbarer KI. Ein weiteres ist beispielsweise die Förderung von Vertrauen in KI-Systeme. Eine verbreitete Annahme ist, dass Menschen KI-Systeme eher akzeptieren und nutzen, wenn sie deren Funktionsweise zumindest in Grundzügen verstehen. Warum das auch zum Problem werden kann, dazu später mehr. Nicht zuletzt ist Erklärbarkeit auch eine Möglichkeit, mit rechtlichen Anforderungen umzugehen. Beispielsweise verlangt die EU-KI-Verordnung in Artikel 14 menschliche Aufsicht über KI-Systeme in Hochrisikoeinsatzgebieten – womit wir wieder beim Thema Überprüfbarkeit durch Erklärbarkeit sind.
Vor- und Nachteile von (fehlender) Erklärbarkeit
Wo Erklärbarkeit fehlt, entsteht ein zentrales Problem: Man kann kaum nachvollziehen, aus welchen Gründen ein KI-System zu einem bestimmten Output gelangt. Das ist besonders heikel, wenn diese bereitwillig und Überzeugung suggerierend jeden gewünschten Output produzieren, aber schlicht irren. Fehler werden übersehen, Verzerrungen in den Trainingsdaten schlagen durch, und das Vertrauen in ein System kann sich von dessen tatsächlicher Leistung entkoppeln: „Super, da läuft doch alles wie geschmiert, ich kann hier keine Probleme erkennen!“
Erklärbarkeit könnte hier theoretisch helfen. Doch auch Erklärungen können täuschen. Eine Erklärung, die plausibel klingt und überzeugend formuliert ist, muss nicht korrekt widerspiegeln, was im KI-Modell tatsächlich vorgeht (Fok & Weld, 2024). Ein besonders anschauliches Beispiel liefern aktuelle große Sprachmodelle: Sie produzieren Erklärungen, Quellenangabe und Links, die der Überprüfbarkeit dienen sollen und das oft auch tun. Aber nicht selten sind Quellenangaben frei erfunden oder beinhalten nicht wirklich Aussagen, die den KI-Output erklären würden Wer solchen Erklärungen vertraut, ist am Ende schlechter dran als jemand, der gar keine Erklärung erhalten hat und eventuell skeptischer geblieben ist.
Der eigentliche Witz dabei ist, dass wir schlichtweg nicht alles überprüfen können und wollen, was KI so ausspuckt. Wofür haben wir denn KI, wenn nicht dazu, dass sie Arbeit abnimmt? Erklärbarkeit soll der schnellen Überprüfbarkeit dienen, schafft dabei aber womöglich Vertrauen in Outputs, die fehlerhaft sind. Im schlechtesten Fall muss ich also nicht nur eventuell fehlerhafte KI-Outputs überprüfen, sondern auch womöglich fehlerhafte Erklärungen.
An dieser Stelle lohnt es sich, eine Aussage zu hinterfragen, die mir immer wieder im Zusammenhang mit erklärbarer KI begegnet: „Erklärbarkeit schafft Vertrauen.“ Das stimmt zwar oft, leider schafft Erklärbarkeit aber auch blindes Vertrauen. Statt auf Vertrauen zu zielen, sollte Erklärbarkeit Misstrauen in ein System ermöglichen, wenn Anlass dazu besteht. Wer erklärbare KI einsetzt, um KI zu überprüfen, braucht Erklärbarkeit, die Schwächen sichtbar macht – nicht solche, die beruhigt (Fok & Weld, 2024).
Umsetzung von erklärbarer KI in Unternehmen
Bevor Unternehmen über die technische Umsetzung von erklärbarer KI nachdenken, sollten sie eine grundlegende Frage beantworten: Was ist das Ziel der Erklärbarkeit?
- Soll sie dabei helfen, Fehler aufzudecken?
- Sollen Prozesse mit geltendem Recht übereinstimmen?
- Geht es darum, Akzeptanz von KI bei Nutzenden zu schaffen?
Das Ziel bestimmt, welche Form der Erklärbarkeit sinnvoll ist und was sie leisten muss.
Hinsichtlich der technischen Umsetzung bewegt sich der Aufwand auf einem breiten Spektrum (Arrieta et al., 2020). Vergleichsweise einfach wäre es, von Anfang an auf interpretierbare und damit auch oft umgrenzt einsetzbare Modelle zu setzen. Das ist für Einsatzzwecke, bei denen Überprüfbarkeit unerlässlich ist und Verantwortung für Fehler klar zuordenbar sein muss, durchaus eine Option, die durchdacht werden sollte statt als Lösung für jeden Einsatzbereich ausschließlich über große Sprachmodelle nachzudenken. Mit überschaubarem Aufwand lassen sich teilweise globale Erklärungen umsetzen: etwa indem Menschen über die generellen Stärken und Grenzen eines Modells informiert werden, bevor sie es nutzen, z. B. anhand sogenannter Model-Cards. Anspruchsvoller ist die Implementierung von Post-hoc-Erklärbarkeitsmethoden, die zuverlässig lokale Erklärungen liefern. Und noch anspruchsvoller ist es sicherzustellen, dass diese Erklärungen das Modellverhalten korrekt widerspiegeln und nicht nur plausibel klingen.
Herausforderungen erklärbarer KI
Mit der wachsenden Verbreitung großer Sprachmodelle und weiterer generativer KI werden die Herausforderung erklärbarer KI größer, die grundlegende Idee bleibt aber dieselbe: KI-Prozesse und Outputs sollen nachvollziehbar gemacht werden. Doch die Komplexität generativer KI macht es schwierig, zuverlässige Erklärbarkeit zu schaffen. Forschung zur Erklärbarkeit und Überprüfbarkeit von generativer KI ist ein aktives und in vieler Hinsicht offenes Forschungsfeld.
Eine der unterschätztesten Herausforderungen ist dabei die menschliche. Damit Erklärungen ihre Hauptzwecke erfüllen können – Nachvollziehbarkeit und eine sinnvolle Überprüfung durch Menschen zu ermöglichen – braucht es Menschen, die in der Lage sind, diese Überprüfung tatsächlich durchzuführen (Benlian & Pinski, 2025). Das setzt Fachkenntnis voraus: Wer medizinische KI-Outputs kontrollieren soll, braucht medizinische Expertise. Wer juristische Einschätzungen einer KI bewertet, braucht juristisches Urteilsvermögen. Wenn KI-Systeme immer mehr Aufgaben übernehmen, besteht die Gefahr, dass diese Expertise langfristig verkümmert und damit auch die Fähigkeit zur menschlichen Überprüfung von KI. Im besten Fall trägt erklärbare KI also auch dazu bei, menschliche Expertise zu erhalten und weiterzuentwickeln, indem sie Einblicke gewährt, die zum Nachdenken und Hinterfragen anregen. Das ist ein weiteres herausforderndes Ziel, das aktiv angestrebt werden muss.







