Anekdotische Evidenz in KI-Bewertungen: Wenn ein einzelner Forenbeitrag als Wahrheit erscheint

Dieses Bild wurde mithilfe künstlicher Intelligenz erstellt.

Anekdotische Evidenz in KI-Bewertungen: Wenn ein einzelner Forenbeitrag als Wahrheit erscheint

Jede*r kennt diese oder eine vergleichbare Situation: Jemand fragt im Freundeskreis, ob ein bestimmtes Auto empfehlenswert sei. Die Antwort wird oft so oder ähnlich lauten: „Bloß nicht! Mein Onkel hatte so eins, und nach zwei Wochen ist der Außenspiegel abgefallen.“
Voilà: anekdotische Evidenz in Reinform! Aus einem einzigen Erlebnis, hier zudem noch verbunden mit Hörensagen, wird eine allgemeingültige Wahrheit abgeleitet („bloß nicht!“). Selbstverständlich wird, wer aufgeweckt genug ist, den Freund daran erinnern, dass eine einzelne Aussage schwerlich geeignet ist, eine Empfehlung pro oder contra Kfz oder was auch immer abzugeben, und nach weiteren Belegen fragen.

Anekdotische Evidenz

Anekdotische Evidenz ist der Begriff für Einzelberichte, persönliche Erfahrungen und Geschichten, die als Beweis oder Argument für einen Zusammenhang oder eine Behauptung herangezogen werden, jedoch aufgrund der Subjektivität als ausschließlicher Basis keine im wissenschaftlichen Sinne valide Aussagekraft besitzen. In der Regel ist der Einsatz anekdotischer Evidenz zur Beweisführung begleitet von einer emotionalen Betrachtung des jeweiligen Umstandes (was vor dem inneren Auge das Bild von Mister Spock mit hochgezogener Braue hervorzurufen vermag). Wer kennt sie nicht, die Diskussionen mit Homöopathie-Befürwortenden: „Wer heilt, hat recht“, heißt es gern, aber bar jeder validen Beweisführung und Logik.

Dass weder die anekdotische Evidenz Anderer noch KI-Tools uns Menschen das eigenständige Denken abnehmen (obwohl das manche offenbar zu hoffen wagen), zeigt das folgende Beispiel.

Der Fall

Eine KI-gestützte Recherche nach dem besten Kraftfahrzeug seiner Klasse mit Hilfe priorisierter Kriterien wie Zuverlässigkeit, Langlebigkeit, günstigen Unterhaltskosten und Ausstattung sowie typischen, bekannten Problemen für das jeweilige Auto und deren Bedeutung, mit dem Ziel, die bestmögliche Entscheidung auf Datenbasis zu treffen.

Bei einer Recherche nach dem besten Auto seiner Klasse arbeitete das verwendete Tool fügsam die Kriterienliste ab: Zuverlässigkeit? Check mit Quellen. Unterhaltskosten? Check mit Quellen. Ausstattung? Nicht ganz auf der Höhe der Zeit, aber solide und gut, was Sicherheits-Features betrifft – ebenfalls mit Quellen belegt.
Doch beim Kriterium „typische Probleme“ erklärte das KI-Tool das Bremssystem des bei zwei von drei Vergleichen führenden Kfz zu einer argen Schwachstelle. Konnte das plausibel sein, insbesondere, wo doch beim Kriterium „Zuverlässigkeit“ jenes Fahrzeug nach Meinung von TÜV und einem großen Automobil-Club eindeutig die Nase vorn hat?
Was den Rechercheur zunächst verunsicherte, war schnell aufgeklärt. Anstatt sich auf mehrere Quellen zu stützen, die verfügbaren Daten auszuwerten und anschließend zu validieren, griff das System einen ausgesprochen drastischen Forenbeitrag zur Qualität und Haltbarkeit des Bremssystems auf und erklärte diese Einzelmeldung, offenbar mangels weiterer Referenzen, die das Urteil in Frage stellen konnten (es gibt keinen Beitrag im Netz, der die Bremsanlage des Autos ausdrücklich lobte), als hinreichende und gültige Aussage.

Die Erkenntnis

Auch die KI lässt sich zu Aussagen hinreißen, die sich an einem einzelnen Erfahrungsbericht statt an einer soliden Datenbasis orientieren. Was sympathisch, weil menschlich erscheint, ist methodisch nicht besser, als wenn ein Mensch aus einer persönlichen Anekdote eine allgemeine Regel ableitet. KI-Bewertungen auf Basis einzelner Forenbeiträge produzieren den gleichen Fehler, jedoch digitalisiert und um ein Vielfaches beschleunigt.

Anekdotische Evidenz bei der Arbeit mit generativer KI

Einzelne, subjektive Erfahrungen oder Einzelfälle werden als Beleg für die Leistungsfähigkeit oder Untauglichkeit einer KI präsentiert. Die folgenden Fälle sind trotz der noch jungen Geschichte der massenhaften Anwendung von KI-Tools bereits Klassiker und können zu verzerrten Erwartungen führen, entweder zu überzogener Euphorie oder zu ungerechtfertigter Skepsis.

Überhöhte Erfolgsgeschichten: „Ich habe ChatGPT gefragt und sofort eine perfekte Vertragsvorlage bekommen. Also ist das Tool immer zuverlässig.“

Übertriebene Negativbeispiele: „Das KI-Bild von meinem Hund hatte sechs Beine. Also ist KI völlig unbrauchbar.“

Selektive Wahrnehmung: Unternehmen oder Einzelpersonen erzählen nur von spektakulären Erfolgen oder peinlichen Fehlern, nicht aber vom eher unspektakulären Alltagseinsatz.

KI-Anwendende sollten sich insbesondere bei Entscheidungsprozessen davor hüten, aus den mit Hilfe von KI gewonnenen Rechercheergebnissen ohne weitere, belastbare Datengrundlage Strategien abzuleiten.

Die Lehre

Es gilt für Gespräche zwischen Menschen ebenso wie für maschinelle Analysen: Wer aus einem aufwühlenden Einzelfall eine allgemeine Wahrheit bastelt, verliert den Blick für die Realität. Das Ergebnis mag unterhaltsam sein und die Emotionen weiter befeuern, ist jedoch niemals belastbar. Und manchmal … fehlt am Ende dann mehr als nur der Außenspiegel.

Von Thomas DövelingRedaktion, vE&K

Valide Ergebnisse mit KI erreichen

Damit die Arbeit mit KI-Tools Früchte trägt, empfehlen wir von vE&K, die KI-Tools durch zielführende Anwendung dazu zu bewegen, belastbare Aussagen als Entscheidungshilfen zu liefern. Wir wissen, wie anekdotische Evidenz durch die richtigen Methoden beim Prompting und professionelles Faktenchecking vermieden wird. Und möchten dich gerne daran teilhaben lassen. Kontaktiere uns und frage den KI-Experten Löcher in den Bauch.

20 Minuten Klarheit

Wir hören zu, stellen die richtigen Fragen und zeigen erste Ansätze für deinen Weg mit KI.

Remote oder telefonisch

Du brauchst nur einen Termin. Wir machen’s einfach.

Ideal für Entscheider*innen

Ob Geschäftsführung, Kommunikation oder Innovation: Wir holen dich genau da ab, wo du stehst.

Du bevorzugst den telefonischen Kontakt?
Ruf uns gern an unter