Künstliche Intelligenz

IDW PS 861 trifft EU-KI-VO: Der neue Rahmen für KI-Prüfungen

Wenn der Algorithmus in die Bilanz einzieht

Jan 13, 2026

Künstliche Intelligenz

17:41

Es ist ein Mittwochmorgen in Frankfurt, als eine Wirtschaftsprüferin im Rahmen der Abschlussprüfung auf eine Konstellation stößt, für die es in den klassischen Prüfungsstandards keine Antwort gibt. Vor ihr liegt der Jahresabschluss eines mittelständischen Finanzdienstleisters, dessen Rückstellungen für Kreditausfälle nicht mehr von Analysten berechnet wurden, sondern von einem neuronalen Netzwerk. Der Algorithmus hat Muster erkannt, die kein Mensch je gesehen hat. Er hat Korrelationen in Millionen von Datenpunkten gefunden und daraus eine Zahl destilliert, die nun schwarz auf weiß in der Bilanz steht.

Die Wirtschaftsprüferin steht vor einem Dilemma. Sie soll ein Prüfungsurteil über einen Abschluss abgeben, dessen zentrale Positionen von einem System stammen, das sie weder vollständig durchdringen noch mit klassischen Methoden nachprüfen kann. Die bestehenden Abschlussprüfungsstandards setzen voraus, dass Prüfungshandlungen nachvollziehbar und die angewandten Methoden erklärbar sind. Ein neuronales Netzwerk erfüllt diese Voraussetzungen nicht ohne Weiteres.

Doch die Lösung liegt nicht allein bei ihr. Sie liegt beim Unternehmen selbst. Der Finanzdienstleister hat das Problem erkannt und proaktiv gehandelt: Er hat eine freiwillige Prüfung seines KI-Systems nach dem IDW Prüfungsstandard 861 (PS 861) beauftragt. Ein unabhängiger Prüfer hat das System auf Angemessenheit und Wirksamkeit untersucht – die Governance-Strukturen, die Datenqualität, die Dokumentation, die Sicherheitsvorkehrungen, die Leistungsfähigkeit. Das Ergebnis ist ein Prüfungsbericht, der der Wirtschaftsprüferin nun als Evidenz vorliegt. Sie muss das KI-System nicht selbst von Grund auf verstehen. Sie kann auf eine strukturierte, nach anerkannten Kriterien durchgeführte Prüfung zurückgreifen.

Diese Szene ist fiktiv, aber sie beschreibt eine Konstellation, die zunehmend Realität wird. Künstliche Intelligenz ist in den Unternehmen angekommen, nicht als experimentelles Spielzeug der IT-Abteilung, sondern als operativer Entscheidungsträger. Sie bewertet Risiken, generiert Buchungen, identifiziert Anomalien und beeinflusst damit unmittelbar jene Zahlen, die Wirtschaftsprüfer am Ende eines Geschäftsjahres zu beurteilen haben. Der PS 861 bietet Unternehmen ein Instrument, diese Systeme prüfbar zu machen – und schafft damit eine Brücke zwischen technologischer Innovation und prüferischer Verlässlichkeit.

Die Zeitenwende hat zwei Namen

Zwei Regelwerke markieren unsere Zeitenwende im Themenkontext: der im März 2023 verabschiedete PS 861 und die im August 2024 in Kraft getretene EU-KI-Verordnung (KI-VO). Sie nähern sich demselben Phänomen aus unterschiedlichen Richtungen und schaffen gemeinsam ein Koordinatensystem, das Ordnung in ein Feld bringt, das bislang weitgehend unreguliert war.

Die KI-VO zieht die politischen Leitplanken ein. Sie klassifiziert KI-Anwendungen nach ihrem Risikopotenzial, definiert Verbote für besonders gefährliche Anwendungen und schafft Transparenzpflichten, die Unternehmen zwingen, den Einsatz ihrer Algorithmen offenzulegen, wenn bestimmte Risikograde überschritten werden. Der PS 861 hingegen übersetzt diese abstrakt wirkende Regulatorik in die Sprache der Prüfung. Er beantwortet die Frage, wie man eine KI-Anwendung prüft, wenn ein Zeile-für-Zeile-Nachrechnen nicht mehr möglich ist.

Wenn ein System mehr ist als ein Algorithmus

Die vielleicht wichtigste konzeptionelle Leistung des deutschen Standards liegt in seinem KI-Begriff. Er versteht künstliche Intelligenz nicht als isoliertes Modell oder mathematische Formel, sondern als komplexes Gesamtsystem. Zu diesem System gehören die Daten, auf denen es trainiert wurde. Dazu gehören die Infrastruktur, die es betreibt, und die organisatorischen Prozesse, die es umgeben. Dazu gehören vor allem die Menschen, die es entwickeln, überwachen und verantworten, eingebettet in Governance-Strukturen, die Zuständigkeiten regeln und Kontrollen etablieren.

Diese ganzheitliche Perspektive ist keine akademische Fingerübung. Sie ist prüfungspraktisch notwendig, weil Risiken selten allein auf technischer Ebene entstehen. Der Algorithmus, der diskriminierende Ergebnisse produziert, ist häufig nicht fehlerhaft programmiert – er wurde mit verzerrten Daten gefüttert. Das Modell, das plötzlich Phantasiezahlen ausspuckt, hat sich vielleicht nicht verändert – aber die Realität, die es abbilden soll, hat sich gewandelt, ohne dass jemand die Validierung aktualisiert hätte. Wer nur den Code prüft, verfehlt das eigentliche Problem.

Die Verantwortung bleibt beim Menschen

Aus diesem Systembegriff folgt eine ebenso klare wie weitreichende Zuweisung von Verantwortung. Der Standard lässt keinen Zweifel daran, dass die gesetzlichen Vertreter eines Unternehmens für Konzeption, Implementierung und Betrieb ihrer KI-Anwendungen verantwortlich bleiben. Keine noch so komplexe Technologie entbindet die Geschäftsleitung von ihrer Rechenschaftspflicht. Im Gegenteil: Je mächtiger die Systeme werden, desto höher sind die Anforderungen an ihre Steuerung.

Diese Verantwortung materialisiert sich in einer Pflicht zur Dokumentation. Die Unternehmensleitung muss eine vollständige, sachgerechte und aktuelle Beschreibung ihrer KI-Anwendung(en) erstellen, die alle relevanten Elemente und Zusammenhänge erfasst. Diese Beschreibung ist nicht reine Formalität – sie ist der eigentliche Prüfungsgegenstand. Der Wirtschaftsprüfer bewertet nicht das System an sich, sondern die Darstellung des Systems und die daran geknüpften Aussagen zur Einhaltung definierter Kriterien.

Vier Säulen der Prüfbarkeit

Welche Kriterien das sind, verdichtet der Standard in vier Bereichen, die gemeinsam den normativen Kern der Prüfung bilden.

Der erste Bereich betrifft die Einhaltung ethischer und rechtlicher Anforderungen. Ein KI-System muss nicht nur legal sein – es muss auch mit grundlegenden Wertvorstellungen vereinbar sein. Dazu gehören die Achtung menschlicher Autonomie, Fairness, Transparenz und die Vermeidung von Diskriminierung. Der Standard macht damit deutlich, dass Compliance allein nicht ausreicht. Unternehmen müssen sich auch der normativen Erwartungen bewusst sein, die die Gesellschaft an den Einsatz von Technologie richtet.

Der zweite Bereich adressiert die Nachvollziehbarkeit. Unternehmen müssen erklären können, wie ihre Systeme zu ihren Ergebnissen gelangen. Das bedeutet nicht, dass jeder mathematische Parameter offengelegt werden muss. Es bedeutet, dass die Funktionsweise strukturiert, konsistent und so dokumentiert sein muss, dass sachkundige Dritte die Logik verstehen und die Grenzen erkennen können. Bei selbstlernenden Modellen, die sich mit jedem neuen Datensatz weiterentwickeln, ist das eine erhebliche organisatorische und konzeptionelle Herausforderung.

Der dritte Bereich betrifft die IT-Sicherheit. KI-Anwendungen sind angreifbar – durch Manipulation, durch Missbrauch, durch unbefugten Zugriff. Der Standard fordert, dass sie nach denselben Prinzipien geschützt werden wie andere kritische IT-Systeme: Vertraulichkeit, Integrität, Verfügbarkeit, Authentizität, Autorisierung. Zugleich verlangt er, dass KI-Anwendungen nicht als Sondertechnologie außerhalb etablierter Kontrollmechanismen behandelt werden. Sie müssen in bestehende Sicherheitsarchitekturen und Risikomanagementstrukturen integriert sein.

Der vierte Bereich schließlich betrifft die Leistungsfähigkeit. Ein System gilt nur dann als leistungsfähig, wenn es seine definierten Ziele zuverlässig erreicht und über einen längeren Zeitraum stabile, valide Ergebnisse liefert. Das ist kein statischer Zustand, sondern ein kontinuierlicher Prozess. Der Standard fordert regelmäßige Überwachung, Validierung und Anpassung – weil sich Daten verändern, weil sich Geschäftsprozesse wandeln, weil die Welt, die ein Modell abbildet, nicht stillsteht.

Governance als Prüfungsgegenstand

Diese vier Kriterien werden entlang der einzelnen Systemelemente operationalisiert. Die Prüfung erfasst die KI-Governance mit ihren Zuständigkeiten, Richtlinien und Monitoring-Prozessen. Sie umfasst das Datenmanagement mit Fragen nach Herkunft, Qualität, Nutzung und Sicherheit. Sie erstreckt sich auf die Modelle und Algorithmen, die dokumentierten Entwicklungs-, Test- und Freigabeverfahren unterliegen müssen. Sie berücksichtigt die Anwendungen, die durch kontrollierte Change-Management-Prozesse abzusichern sind, und die Infrastruktur, die ein spezifisches Sicherheitskonzept erfordert.

Die Frage nach der Tiefe

Der Standard kennt zwei Prüfungsformen, deren Unterschied von zentraler Bedeutung ist.

Die Angemessenheitsprüfung beurteilt, ob die beschriebenen Maßnahmen geeignet sind, die definierten Kriterien zu erfüllen. Sie fragt: Sind die Kontrollen konzeptionell sinnvoll?

Die Wirksamkeitsprüfung geht darüber hinaus. Sie untersucht, ob diese Maßnahmen über einen bestimmten Zeitraum hinweg tatsächlich wirksam angewendet wurden. Sie fragt: Funktioniert das, was auf dem Papier steht, auch in der Realität?

Diese Differenzierung macht unterschiedliche Reifegrade von KI-Anwendungen sichtbar. Ein Unternehmen, das KI neu einführt, kann mit einer Angemessenheitsprüfung beginnen. Ein Unternehmen, das KI seit Jahren produktiv einsetzt, sollte sich der strengeren Wirksamkeitsprüfung stellen. Für die Adressaten des Prüfungsurteils – Investoren, Aufsichtsräte, Geschäftspartner – ist diese Unterscheidung von erheblicher Aussagekraft.

Das neue Prüfungsrisiko

Ohne die freiwillige Prüfung nach PS 861 stünde unsere Wirtschaftsprüferin vor einem erheblichen Problem. Die klassischen Prüfungsstandards gehen davon aus, dass Prüfungshandlungen entweder manuell oder regelbasiert erfolgen und dass der Prüfer jederzeit erklären kann, welche Methodik er angewandt hat. KI-Anwendungen sprengen diese Annahmen. Sie sind adaptiv, datenabhängig, häufig nicht deterministisch. Sie liefern Ergebnisse, ohne einen nachvollziehbaren Rechenweg zu hinterlassen.

Damit entsteht ein neues Prüfungsrisiko: das Risiko, Ergebnisse zu verwenden, deren Entstehung weder verstanden noch dokumentiert ist. Wenn der Algorithmus eine Rückstellungshöhe berechnet, die in die Bilanz einfließt, und wenn der Prüfer diese Zahl akzeptiert, ohne die Wirkungslogik des Systems verstanden zu haben, dann stützt sich sein Testat auf ein Fundament, das er nicht beurteilen konnte. Genau hier setzt der PS 861 an – als Instrument, das Unternehmen nutzen können, um diese Lücke zu schließen.

Die Brücke zur Abschlussprüfung

Da der PS 861 formal kein Abschlussprüfungsstandard ist, wurde er für Prüfungen außerhalb der Abschlussprüfung konzipiert, konkret für freiwillige Assurance-Leistungen, bei denen Unternehmen die Verlässlichkeit ihrer KI-Anwendungen gegenüber Dritten nachweisen wollen. Diese Abgrenzung ist als Schutzraum zu verstehen. Der Standard erlaubt es, KI-Anwendungen isoliert zu prüfen, bevor sie prüfungsrelevante Funktionen übernehmen.

In der Praxis wird diese Grenze durchlässiger sein, als die formale Systematik vermuten lässt. Die Begriffe, Kriterien und Methoden, die der PS 861 etabliert, sind unmittelbar auf die Abschlussprüfung übertragbar. Der Standard liefert ein Kontrollgerüst, mit dem KI-Anwendungen als prüfungsfähige Objekte verstanden werden können – unabhängig davon, ob sie Gegenstand einer gesonderten Prüfung sind oder Teil des Prüfungsumfelds.

Wenn KI Teil des internen Kontrollsystems wird

Besonders deutlich wird diese Verzahnung bei KI-Anwendungen, die in Buchhaltungs- oder Controlling-Prozesse eingebunden sind. Sie werden faktisch Teil des internen Kontrollsystems. Schwächen in ihrer Absicherung wirken sich unmittelbar auf das Kontrollrisiko aus. Prüfer dürfen sie nicht isoliert betrachten, sondern müsse sie im Kontext des gesamten IKS beurteilen.

Damit verschiebt sich der Fokus von der reinen Ergebniskontrolle hin zur Systemprüfung. Die Frage ist nicht mehr nur, ob die Zahl in der Bilanz stimmt. Die Frage ist, ob das System, das diese Zahl erzeugt hat, so gesteuert, überwacht und dokumentiert wird, dass seine Ergebnisse verlässlich sind.

Dauerhaftigkeit als Prüfungsdimension

Eine KI-Anwendung, die zum Bilanzstichtag plausible Ergebnisse liefert, kann dennoch problematisch sein. Der Standard fordert, dass Systeme nicht nur punktuell funktionieren, sondern dauerhaft geeignet sein müssen, ihre Ziele zu erreichen. Diese zeitliche Dimension ist für die Abschlussprüfung von besonderer Bedeutung, weil sie die Stabilität von Prüfungsurteilen adressiert.

Was passiert, wenn sich die Datenlage ändert? Was geschieht, wenn das Modell auf Verhältnisse trainiert wurde, die nicht mehr existieren? Die Wirksamkeitsprüfung nach PS 861 liefert hier ein konzeptionelles Vorbild für die Beurteilung langfristiger Systemzuverlässigkeit.

Der regulatorische Druck wächst

Die KI-VO verstärkt diese Entwicklung erheblich. Sie definiert verbindliche Anforderungen an hochriskante KI-Anwendungen, zu denen viele Anwendungen im Finanz- und Rechnungslegungsbereich zählen. Für Abschlussprüfer bedeutet das, dass regulatorische KI-Compliance zunehmend Teil des Prüfungsumfelds wird.

Der PS 861 fungiert hier als Übersetzungsinstrument. Er macht die abstrakten Anforderungen der europäischen Verordnung prüfbar und anschlussfähig an bestehende Prüfungslogiken. Unternehmen, die ihre KI-Anwendungen nach diesem Standard prüfen lassen, schaffen Evidenz für ihre Compliance – und Wirtschaftsprüfer gewinnen ein Instrument, um diese Compliance zu beurteilen.

Assurance als neue Prüfdimension

Über die klassische Abschlussprüfung hinaus eröffnet diese Entwicklung neue Perspektiven für Assurance-Services. Unternehmen stehen unter wachsendem Druck, die Verlässlichkeit ihrer KI-Anwendungen gegenüber Aufsichtsorganen, Investoren und Geschäftspartnern nachzuweisen. Freiwillige Prüfungen nach PS 861 können hier eine zentrale Rolle spielen.

Solche Prüfungen schaffen Vertrauen, ohne unmittelbar Teil der Abschlussprüfung zu sein. Gleichzeitig liefern sie dem Abschlussprüfer wertvolle Erkenntnisse über das Prüfungsumfeld. Es entsteht eine neue Verzahnung zwischen Assurance-Services und Abschlussprüfung, die beide Seiten stärkt.

Das Prüfungsurteil im KI-Zeitalter

Am Ende läuft die Entwicklung auf eine grundlegende Frage hinaus: Wie verändert KI das Prüfungsurteil? Die Antwort ist differenziert. Der Einsatz von KI kann die Prüfungsqualität erhöhen – durch Vollpopulationstests, die früher unmöglich waren, durch Anomalie-Erkennung in komplexen Transaktionsströmen, durch die Analyse von Datenmengen, die kein menschliches Auge je überblicken könnte. Aber diese Möglichkeiten entfalten sich nur, wenn der Einsatz kontrolliert und nachvollziehbar erfolgt.

KI wird damit nicht zum Ersatz des Prüfers, sondern zum Prüfungsgegenstand eigener Art. Das professionelle Urteil bleibt zentral, gewinnt aber eine neue Dimension. Prüfer müssen nicht nur Zahlen bewerten, sondern Systeme verstehen, hinterfragen und einordnen. Sie müssen begreifen, was ein Modell kann und was es nicht kann. Sie müssen erkennen, wann Ergebnisse plausibel sind und wann sie skeptisch machen sollten.

Die Antwort auf die Ausgangsfrage

Zurück zu unserer Wirtschaftsprüferin und der algorithmisch berechneten Rückstellung. Wie kann sie ein Prüfungsurteil abgeben? Die Antwort liegt in dem, was das Unternehmen ihr zur Verfügung gestellt hat: den Bericht einer freiwilligen Prüfung nach PS 861. Dieser Bericht dokumentiert, dass ein unabhängiger Prüfer das KI-System systematisch untersucht hat – die Daten, die Governance, die Dokumentation, die Kontrollen, die Validierung. Er bestätigt, dass die Unternehmensleitung ihre Verantwortung wahrgenommen hat und dass das System nachvollziehbar, sicher und leistungsfähig ist.

Wie eingangs erwähnt, muss die Wirtschaftsprüferin das KI-System nicht selbst bis ins letzte Detail durchdringen. Sie kann auf strukturierte Evidenz zurückgreifen, die nach anerkannten Kriterien erhoben wurde. Das entbindet sie nicht von ihrer professionellen Skepsis – aber es gibt ihr eine belastbare Grundlage für ihr Urteil.

Das ist der Kern dessen, was der PS 861 ermöglicht: einen Rahmen, in dem Vertrauen nicht trotz KI entsteht, sondern durch ihre kontrollierte, nachvollziehbare und prüfungsfähige Einbettung. Die Initiative liegt beim Unternehmen, das seine KI-Anwendungen freiwillig einer Prüfung unterzieht. Die Wirkung entfaltet sich in der Abschlussprüfung, wo diese Evidenz verwertbar wird.

Der Paradigmenwechsel, den der PS 861 und die KI-VO gemeinsam markieren, liegt in einer einfachen Erkenntnis: Künstliche Intelligenz ist kein technisches Hilfsmittel, das man der IT-Abteilung überlassen kann. Sie ist ein Governance-relevantes System, das prüfbar sein muss, dokumentiert sein muss und verantwortet sein muss. Für Unternehmen bedeutet das neue Anforderungen – aber auch die Chance, Vertrauen in ihre Technologie aktiv herzustellen. Für die Wirtschaftsprüfung eröffnet sich eine neue Rolle als Instanz, die dieses Vertrauen bestätigt und in einer zunehmend algorithmischen Wirtschaft absichert.

🛡️Datenschutz

👍Referenzen

💻Microsoft 365 Compliance

🎓Alle Kurse

📆Events & Webinare

💸Lehrgang: Zertifizierter Datenschutzberater

🔗Memberspot (Login)

🤖Lehrgang: Zertifizierte/r KI-Beauftrage/r

📰Blog

📁Downloads

📧Kontakt

👥Meeting vereinbaren

📘FAQ

🏢Über uns

🛡️Datenschutzhinweise

📑AGB

📝Impressum

IDW PS 861 trifft EU-KI-VO: Der neue Rahmen für KI-Prüfungen

Share this article

Subscribe

Subscribe

Die Zeitenwende hat zwei Namen

Wenn ein System mehr ist als ein Algorithmus

Die Verantwortung bleibt beim Menschen

Vier Säulen der Prüfbarkeit

Governance als Prüfungsgegenstand

Die Frage nach der Tiefe

Das neue Prüfungsrisiko

Die Brücke zur Abschlussprüfung

Wenn KI Teil des internen Kontrollsystems wird

Dauerhaftigkeit als Prüfungsdimension

Der regulatorische Druck wächst

Assurance als neue Prüfdimension

Das Prüfungsurteil im KI-Zeitalter

Die Antwort auf die Ausgangsfrage

Similar posts

KI-Nutzung verlangt KI-Kompetenz: Eine Organisationsaufgabe

Kontrollen für KI-Systeme nach Risikoklasse: Ein pragmatischer Leitfaden für Schweizer KMU

Privacy by Design in KI-Systemen

Get notified on new marketing insights

🤖Lehrgang: Zertifizierte/r
KI-Beauftrage/r