KI in der Betriebsprüfung: AUDIPY & Agent Playbooks

Auf der Münchner Steuerfachtagung 2026 hatte ich die Gelegenheit, einen Einblick in eine Entwicklung zu geben, die aus meiner Sicht die Betriebsprüfung in den kommenden Jahren spürbar verändern wird: den Einsatz von KI in der datenbasierten Analyse. Dabei ging es mir nicht um eine abstrakte Zukunftsvision, sondern um die ganz praktische Frage, wie sich Sprachmodelle, KI-Assistenten und agentische Systeme so einsetzen lassen, dass sie im Prüfungsalltag einen echten Mehrwert schaffen.

Im Mittelpunkt stand dabei AUDIPY, eine Software für die datenbasierte Analyse, die ich mitentwickelt habe und die derzeit in der Finanzverwaltung getestet wird. Anhand dieses Systems wollte ich aufzeigen, in welche Richtung sich die Datenanalyse entwickeln könnte – nicht zwingend mit genau dieser Lösung, aber sehr wahrscheinlich mit genau diesen Prinzipien: datenschutzkonforme KI, automatisierte Analyselogik, nachvollziehbare Ergebnisse und deutlich weniger technische Hürden für diejenigen, die mit den Daten arbeiten müssen. Dabei war mir weniger die Software selbst wichtig als die übergeordnete Entwicklung: Künftig sollen Prüfende leichter mit Daten arbeiten können, auch ohne tiefes technisches Spezialwissen.

🚀 KI nicht als Spielerei, sondern als Assistent

Ausgangspunkt ist eine einfache Beobachtung: In der Betriebsprüfung fehlen oft nicht die steuerrechtlichen Fähigkeiten, sondern die technischen Möglichkeiten, um große Datenmengen effizient auszuwerten. Betriebsprüfer sind keine Programmierer, keine Data Scientists und meist auch keine BWL-Spezialisten für jede einzelne Branche. Gleichzeitig steigen die Anforderungen an datenbasierte Prüfungen seit Jahren kontinuierlich.

Genau hier setzt „AMY“, die KI-Assistentin von AUDIPY, an. Sie ist nicht als Entscheiderin, sondern als Assistentin gedacht. Die fachliche und rechtliche Beurteilung bleibt weiterhin beim Menschen. Die KI soll vielmehr dabei helfen, technische Hürden abzubauen, Analysen vorzubereiten, Auffälligkeiten sichtbar zu machen und Vorschläge für sinnvolle Prüfungsansätze zu liefern. Dadurch verschiebt sich der Schwerpunkt der Arbeit von der technischen Aufbereitung hin zur steuerlichen Würdigung.

Ein Punkt, der in der Diskussion um KI oft zu kurz kommt, ist dabei besonders wichtig: Steuerliche KI muss mit sensiblen Daten umgehen können, ohne dass diese unkontrolliert in externe Systeme abfließen. Deshalb basiert unser Ansatz darauf, die eigentlichen Daten lokal zu halten und nur Strukturdaten, also beispielsweise Spalteninformationen und Zusatzkontexte, in die Interaktion mit dem Modell einzubeziehen.

🧠 Mit Daten sprechen statt mit Formeln kämpfen

Die zentrale Idee ist, dass Prüfende künftig in natürlicher Sprache mit ihren Daten arbeiten können. Wer einen Datensatz analysieren möchte, sollte nicht erst eine Programmiersprache lernen oder komplizierte Formeln erstellen müssen. Genau deshalb ist der Zugang über einfache Fragen so entscheidend.

Mit AMY lassen sich beispielsweise Daten beschreiben, die Datenqualität prüfen, Journalanalysen anstoßen, Compliance-Checks vorbereiten oder Anomalien identifizieren. Damit ist kein autonomes Prüfen gemeint, sondern eine Unterstützung bei typischen Analyseaufgaben, die sonst manuell vorbereitet werden müssten.

Der Betriebsprüfer ist der Entscheider, nicht die KI. Aber die KI kann ihm die Punkte zeigen, auf die sich ein genauerer Blick lohnt.

Die Stärke liegt dabei nicht nur in der einfachen Bedienung, sondern auch in der hohen Geschwindigkeit. Analysen, für die sonst ein erheblicher manueller Aufwand nötig wäre, lassen sich deutlich schneller vorbereiten und ausführen. Hinzu kommt ein Gedanke, der insbesondere für Betriebs- und Wirtschaftsprüfungen relevant ist: Nicht jeder, der einen Fall beurteilt, kennt automatisch die branchenspezifischen betriebswirtschaftlichen Hintergründe. Deshalb haben wir mit dem „Magic Prompt“ eine Funktion geschaffen, die aus wenigen Angaben – etwa System, Branche und Besonderheiten – eine Vielzahl kontextbezogener Analysevorschläge generieren kann. Vereinfacht gesagt handelt es sich um eine Art Startpunkt für die Analyse: Aus wenigen Rahmendaten entstehen Vorschläge, welche Prüfansätze im konkreten Fall sinnvoll sein könnten. Damit wird das Fachwissen zwar nicht ersetzt, der Zugang zu sinnvollen Prüfansätzen wird jedoch deutlich erleichtert.

🔍 Vertrauen braucht Kontrolle

Ein wesentlicher Punkt ist dabei die Frage, wie sich KI-generierter Code kontrollieren lässt. Denn genau hier entstehen zu Recht Vorbehalte. Wenn eine KI selbstständig Analyselogik erzeugt, muss klar sein, wer diese Logik prüft, wie Fehler erkannt werden und wie Annahmen sichtbar gemacht werden.

Die Antwort darauf ist in AUDIPY der sogenannte „Code Gatekeeper“. Dahinter steckt das Prinzip, dass nicht eine einzige KI autonom entscheidet, sondern eine zweite Instanz den generierten Code prüft, bevor er angewendet wird. Es handelt sich also um eine zusätzliche Kontrollstufe, die sicherstellen soll, dass die technische Umsetzung zur eigentlichen Fragestellung passt und keine unsauberen Ergebnisse produziert. Diese Prüfung bezieht sich auf vier Kriterien: Absicht, Logik, Fehlerfreiheit und Annahmen. Erst wenn diese Ebene durchlaufen ist, wird ein Ergebnis freigegeben, eine Rückfrage gestellt oder der Code neu erzeugt.

In diesem Zusammenhang ist auch die Einordnung wichtig: Die Frage, ob Betriebsprüfende jeden KI-generierten Code im Detail selbst prüfen könnten, ist in der Praxis oft theoretischer als die Realität. Schon heute fehlt häufig die technische Tiefe, um komplexe Analyselogiken vollständig zu beurteilen. Genau deshalb braucht es Systeme, die Qualitätssicherung automatisieren, dokumentieren und so aufbereiten, dass die Ergebnisse nachvollziehbar bleiben.

AUDIPY

Semitax GmbH

AUDIPY ist ein Tool zur Analyse großer Datenmengen mit KI-Unterstützung

MEHR ERFAHREN

⚙️ Von Reasoning bis Agent Playbook

KI im Prüfungsumfeld beschränkt sich nicht auf einfache Chat-Funktionen. Reasoning-Modelle, also Modelle mit ausgeprägterem „Nachdenken“, eröffnen neue Möglichkeiten bei komplexeren Analyseaufgaben. Im Vergleich zu einfachen Frage-Antwort-Systemen machen sie Zwischenschritte besser nachvollziehbar und können mit mehr Kontext arbeiten.

Noch spannender wird es aus meiner Sicht jedoch bei agentischen Systemen. Diese arbeiten nicht nur auf einen einzelnen Prompt hin, sondern führen ganze Abläufe selbstständig aus. Damit solche Agents in einem steuerlichen Umfeld einsetzbar sind, müssen sie revisionssicher, nachvollziehbar und reproduzierbar arbeiten.

Genau an diesem Punkt setzen die „Agent Playbooks“ an. Ein Agent Playbook ist im Kern eine Schritt-für-Schritt-Anleitung, die ein KI-Assistent lesen und in AUDIPY automatisch ausführen kann. Man kann sich das wie eine standardisierte Arbeitsanweisung vorstellen, mit der sich wiederkehrende Prüfungsabläufe in eine feste Reihenfolge bringen lassen. Der große Vorteil liegt darin, dass diese Anleitungen in verständlicher Sprache formuliert werden können. Es ist also kein tiefer Programmierhintergrund nötig, um sie zu lesen, anzupassen oder in neuen Fällen einzusetzen. Gleichzeitig wird jeder Schritt standardisiert ausgeführt und dokumentiert.

Ein Agent Playbook ist am Ende nichts anderes als eine verständliche Arbeitsanweisung für eine KI – und genau darin liegt seine Stärke.

Dadurch entsteht eine neue Qualität der Automatisierung. Es geht nicht mehr nur darum, einzelne Auswertungen zu beschleunigen. Vielmehr lassen sich wiederkehrende Prüfungsroutinen in stabile, nachvollziehbare und reproduzierbare Abläufe übersetzen. Das ist ein erheblicher Unterschied zu klassischen Makros oder Skripten, die oft an kleinen Änderungen scheitern und meist nur von einzelnen Spezialisten gepflegt werden können.

🛡️ Revisionssicherheit und Flexibilität zusammenbringen

Die Botschaft, dass Automatisierung und Kontrolle kein Widerspruch sein müssen, ist besonders wichtig. Im Gegenteil: Erst wenn ein KI-System in klaren Leitplanken arbeitet, wird es für den Prüfungsalltag wirklich interessant. In den Agent Playbooks können deshalb Sprache, Detailgrad, Spaltenzuordnung, Fehlerbehandlung, Berichtserstellung und Speicherung individuell festgelegt werden. Gerade diese Konfigurierbarkeit ist wichtig, da Prüfungsabläufe zwar standardisiert, aber nie völlig identisch sind.

Gerade bei Problemen ist diese Flexibilität entscheidend. Ein Agent kann nachfragen, stoppen oder dokumentiert weitermachen. Diese Möglichkeiten sind nicht nur technisch, sondern auch organisatorisch relevant. Sie machen den Unterschied zwischen einer Blackbox und einem System, das in reale Prüfungsabläufe eingebettet werden kann.

Aus meiner Sicht stellt dies einen zentralen Entwicklungsschritt dar: KI-Systeme dürfen nicht nur leistungsfähig sein, sie müssen auch zur Logik von Steuer- und Prüfungspraxis passen. Das bedeutet Nachvollziehbarkeit, Wiederholbarkeit und Kontrollierbarkeit. Nur dann entsteht aus technologischer Faszination ein belastbares Werkzeug.

📍 Wohin die Reise geht

Der Blick richtet sich bewusst nach vorne. Ob sich nun AUDIPY oder eine andere Lösung durchsetzt, ist für mich zweitrangig. Entscheidend ist die Richtung. Die Datenanalyse in der Betriebsprüfung wird sich weiter in Richtung KI-gestützter Assistenzsysteme entwickeln. Prüfende werden stärker mit ihren Daten „sprechen”, statt sie nur technisch aufzubereiten. Wiederkehrende Analysen werden sich stärker standardisieren lassen.

Agentische Systeme werden zudem dabei helfen, technische Routinen zu übernehmen. Gerade vor dem Hintergrund knapper personeller Ressourcen halte ich das für eine notwendige Entwicklung. Wenn wir möchten, dass mehr Zeit für die fachliche und rechtliche Würdigung bleibt, müssen wir die technische Vorarbeit effizienter gestalten. Genau hierfür kann KI einen enormen Beitrag leisten. Nicht als Ersatz für den Menschen, sondern als Werkzeug, das dessen Arbeit sinnvoll erweitert.

FAZIT

Die Zukunft der Betriebsprüfung besteht nicht darin, Menschen durch KI zu ersetzen. Sie liegt vielmehr darin, technische Hürden so weit zu reduzieren, dass steuerliche Fachkompetenz wieder dort eingesetzt werden kann, wo sie wirklich gebraucht wird: bei der Beurteilung, Einordnung und Entscheidung.

„Wir brauchen keine KI, die den Betriebsprüfer ersetzt. Wir brauchen KI, die ihm die technische Arbeit abnimmt, damit er sich auf die steuerliche Bewertung konzentrieren kann.“