Deepfakes im Visier: KI als Waffe gegen digitale Manipulation

Deepfakes stellen eine ernstzunehmende Herausforderung dar, die sowohl
technologische als auch gesellschaftliche Fragen aufwirft. Deshalb
entwickeln Forschende am Deutschen Forschungszentrum für Künstliche
Intelligenz (DFKI) in Berlin Methoden, mit denen Deepfakes verlässlich
erkannt werden, um Menschen mit den nötigen Warnungen und
Richtigstellungen erreichen zu können. „News-Polygraph“ heißt das
ambitionierte Projekt, das im Katz-und-Maus-Spiel zwischen den
Erzeugnissen von generativen Modellen und Erkennungs-Technologien den
entscheidenden Vorteil bringen soll.

Deepfakes sind realistisch anmutende Medieninhalte, die mithilfe
generativer künstlicher Intelligenz (genKI) erzeugt oder manipuliert
werden, um täuschend echte Audio-, Video- und Bildinhalte zu generieren.
Die Anwendungsmöglichkeiten: Nahezu grenzenlos! Wie diese Technologie ihr
positives sowie negatives Potenzial entfaltet, und wie wir uns als
Gesellschaft vor Desinformation und Manipulation schützen können,
beleuchten Vera Schmitt, Gastwissenschaftlerin der TU Berlin am DFKI
Berlin, und Tim Polzehl, DFKI-Forscher im Bereich „Speech and Language
Technology“, durch Einblicke in ihre Arbeit.

Tim Polzehl, Forschender im Bereich Speech and Language Technology am
DFKI: "Eine frühe Version von dem was heute als Deepfake betrachtet wird
kennen wir aus der Sprachsynthese. Dort werden mittels KI möglichst echt
klingende computergenerierte Stimmen entwickelt, die sich in den letzten 5
Jahren soweit entwickelt haben, dass nun einzelne Stimmen täuschend echt
generiert werden können - auch mit wenig Trainingsmaterial. Heute
ermöglicht generative KI auch die Erstellung täuschend echter Bilder,
Videos und Audios, die oft schwer von echten Inhalten zu unterscheiden
sind. Mit dem Aufschwung und der öffentlichen Verfügbarmachung der
generativen KI wurde das Thema zu einem breiten gesellschaftlichen
Phänomen, das technische, ethische und anwendungsbezogene Fragen
aufwirft.“

Diese Fragen verlangen nach Antworten. Als Forschende befassen sich Tim
Polzehl und Vera Schmitt mit der Aufgabenstellung, wie Technologie bei der
Beantwortung dieser Fragen helfen kann. Für eine erfolgreiche
Identifizierung von manipulativen KI-generierte Medieninhalten braucht es
neben technischen Lösungen allerdings auch gesellschaftliche -
menschliche. Ein Umstand, der bereits bei der Definition von „Deepfakes“
eine Herausforderung birgt.

Vera Schmitt, Gastwissenschaftlerin im Bereich Speech and Language
Technology am DFKI:„Für „Deepfakes“ eine einzige exakte Definition zu
finden ist schwierig – es gibt eine Vielzahl von Definitionen. Deepfakes
sind im Grunde realistische Medieninhalte, die durch KI und Transformer-
basierte Modelle abgeändert, erzeugt oder verfälscht werden. Dabei gilt
allerdings die eine große Debatte zu beachten, inwiefern Vorsatz, Betrug,
Erpressung, Rufschädigung und politische Manipulation eine Rolle spielen,
und inwieweit Kunst und Unterhaltung ein Platz eingeräumt werden sollte.“

Mensch und KI: gemeinsam stark

Es gilt also Mensch und Technologie gemeinsam zu denken. Schließlich sind
es Menschen, die glauben, Eindrücke verarbeiten, manipuliert werden – und
womöglich selbst manipulieren. Erst durch die Kombination von menschlichem
Urteilsvermögen und KI-unterstützen Tools lässt sich verlässlich erkennen,
wann eine Täuschung vorliegt, und so effektive Gegenmaßnahmen entwickeln.

Das Zusammenspiel ist deshalb notwendig, weil Vorsatz zur Täuschung
beispielsweise von KI-Modellen nicht gut erkannt werden kann, denn dafür
braucht es geeignete Indikatoren. Menschen müssen die Evaluationen von KI-
Modellen demnach kontrollieren, selbst den Kontext schaffen und andere
Möglichkeiten in Betracht ziehen.

Wir Menschen erkennen bestimmte Indikatoren für Fälschungen auf Anhieb,
die KI erkennt andere Anzeichen.

Auf Details kommt es an

Ein plakatives Beispiel: Betrachten wir ein realistisch wirkendes Foto
eines Menschen, der auf jeder Seite zwei Ohrläppchen hat. Für die meisten
Menschen wäre dies ein deutliches Anzeichen für ein Deepfake.

Tim Polzehl: „Die KI kommt an diesem Punkt ins Straucheln, denn eventuell
sehen alle von der KI erkannten Elemente realistisch aus – und das
Ohrläppchen wird mitunter gar nicht erkannt. Oder es wird doch erkannt,
nur kann die KI das Erkannte nicht in einen sinnvollen Kontext setzen -
nämlich: dass wir Menschen nun mal in der Regel pro Ohr nur ein
Ohrläppchen haben. Für eine solche Entscheidung bräuchte eine KI zunächst
einmal eine deutlich gesteigerte Erkennung der Ohrläppchen, logisches,
kritisches und hinterfragendes Denken und Weltwissen über menschliche
Anatomie, was derzeit nicht gegeben ist. Wir Menschen haben diese
Fähigkeiten und können aus unserem Wissen und dem Kontext ableiten, dass
dieses Foto wohl nicht authentisch ist."

Bei Bilddarstellungen und technischen Feinheiten, ist uns die KI
allerdings um Längen voraus. Lichtverhältnisse, Schatten und
Überlagerungen, Bewegungen, Übergänge und Auffälligkeiten auf Pixelebene –
in diesen Bereichen wird es für die menschliche Wahrnehmung schwierig. Bei
dieser fast schon forensischen Betrachtung können KI-Tools hervorragend
aushelfen, denn hoch spezialisiert funktioniert KI sehr gut – kann
explizite Aufgaben also effektiv erfüllen. Unregelmäßigkeiten und
Auffälligkeiten können dann wiederum als Indikator für mittels generativer
KI-Modelle generierte Inhalte interpretiert werden.

Content-based-analysis

Abgesehen von der Identifizierung inhaltlicher Unstimmigkeiten sind
Menschen dazu in der Lage, Verhältnismäßigkeiten und Erwartungen in ihre
Betrachtung von Medieninhalten einfließen zu lassen.

Vera Schmitt: „In der Regel haben wir ein gutes Verständnis von Kontext
und Logik. Wenn also in einem Video die Säulen am Brandenburger Tor
umkippen, und umstehende Menschen überhaupt nicht auf dieses Ereignis
reagieren, dann können wir sehr leicht auf eine unechte Darstellung
schließen. Außerdem gäbe es bei solch einem Event eine Vielzahl von
unabhängigen Quellen, welche über das Geschehen berichten würden.“

Für die Ermittlung von Deepfakes und manipulativen Inhalten muss also auf
eine Analyse des Inhalts gesetzt werden. Vor allem, wenn anhand der
Darstellungsform kaum zwischen authentischem und künstlichem Material
unterschieden werden kann – wie beispielsweise bei Text.

Im Textbereich gibt es inzwischen viele unterschiedliche populäre
Transformer-basierte Modelle zur Generierung. Diese synthetischen
Texterzeugnisse sind in kleinen Mengen nahezu unmöglich zu erkennen.
Sowohl für den Menschen als auch für die KI.

Vera Schmitt: „Deshalb sind für die Erkennung von falschen Informationen
die Beantwortung einiger Fragen elementar. Wer hat die Information
ursprünglich in den Umlauf gebracht? Welche Fakten, Personen und Events
werden dargestellt? Gibt es zu der Thematik bereits bekannte Fakes?“

Auf diese Fragen können spezialisierte KI-Tools bereits verlässliche
Antworten liefern. Durch öffentlich verfügbare Anwendungen wie
beispielsweise Deep Ware Scanner, Deeptrace oder Whisper lassen sich
Informationen validieren. Und auch der News-Polygraph soll künftig
Menschen dazu ermächtigen, Informationen leichter zu überprüfen – und
manipulative Narrativen aufzudecken.

Tim Polzehl: „Wir haben es mit zwei Begriffen zu tun. Zunächst gibt es
Deepfakes, also Audios, Videos, Bilder und Co mit vermeintlicher
Authentizität. Dann gibt es da noch Desinformationen in Narrativen.
Letzteres bringt uns in den Bereich des Fact-Checking – und zu einem
weiteren Aspekt unseres News-Polygraphen.“

News-Polygraph vs. Desinformation in Narrativen

Eine Grundidee des Fact-Checkings: Manipulative Narrativen wiederholen
sich, also können wir in die Vergangenheit schauen – und dieselben
Narrativen womöglich erneut in der Gegenwart entdecken. Bei diesem Prozess
kann KI erfolgreich unterstützen. Dann bleibt zu überprüfen, ob die
Narrative bereits widerlegt wurde, ob es dazu bereits Veröffentlichungen
gab - und zuletzt, wie man diese Information effektiv kommunizieren kann.

Das Team um Polzehl und Schmitt versteht den News-Polygraphen als „KI-
Modell zur intelligenten Entscheidungshilfe für Journalisten“. Daher sei
es entscheidend, dass die Auswertungen des Modells auf eine so
transparente Weise dargestellt werden können, dass diese von Journalisten
entsprechend verstanden und eingeordnet werden können.

Vera Schmitt: „Es ist außerdem wichtig, die Umstände von der Verbreitung
von Mis- und Desinformation zu evaluieren und diese in eine Beurteilung
oder Umsetzung wie beispielsweise eines Digital Service Acts mit
einfließen zu lassen. Schließlich können gefälschte Inhalte auch unwissend
und unabsichtlich geteilt werden, ohne jedwede Intention dahinter, damit
zu täuschen.“

Es bräuchte also ein Prozedere, durch das KI-generiertes Material nicht
nur gekennzeichnet wird, sondern neben Authentizität auch Intention und
Wirkung bemessen werden können. Denn die Tatsache, dass KI synthetische
Medien wie Stimmen, Videos und Bilder generieren kann, sei zunächst
positiv, so Schmitt. Allerdings können Menschen mit denselben Inhalten
persönliche Kampagnen fahren und diese Medien missbrauchen.

Tim Polzehl: „Sich gegen Desinformationen zu wappnen heiß deshalb öfter
und kritischer hinterfragen, wem und vor allem warum man bestimmten
Behauptungen Glauben schenkt. Dabei spielen Intention und Quellen einer
Behauptung eine immer größere Rolle. Das gilt auch für uns
Wissenschaftler. Wenn beispielsweise faktenbasiert kommuniziert wird,
werden in der Regel auch Quellen bereitgestellt. Am Ende müssen aber auch
wir Wissenschaftler unser Vertrauen ein Stück weit verschenken – auch wenn
die Wissenschaft im Anschluss daran zum größten Teil auf Evidenz basiert.“

Absolute Gewissheit gibt es nicht

Vera Schmitt: „Es wird nie eine KI geben, die alles erkennen kann. Darüber
hinaus herrscht zwischen generativen Modellen und Erkennungs-Technologien
ein immenses Ungleichgewicht, welches es durch einen Zuwachs an Ressourcen
und Aufmerksamkeit für dieses Thema auszugleichen gilt. Denn Deepfakes
haben in der heutigen Welt eine schier unendliche Reichweite – eine
Skalierbarkeit – welcher durch Aufklärung, Entlastung und Befähigung
begegnet werden muss.“

Auch deshalb teilten Polzehl und Schmitt ihre Einschätzungen auf der
diesjährigen re:publica in Berlin. Doch selbst wenn Informationen und ein
kritischer Umgang in Kombination mit KI-Tools perspektivisch dazu
befähigen, Deepfakes verlässlicher zu erkennen – entschärft sind sie
dadurch nicht. Die Gefahren liegen hinter der künstlich erstellten
Fassade.

Tim Polzehl: „Selbst die Kennzeichnung von KI-generiertem Material schützt
nicht zwingend vor Beeinflussung durch diese Inhalte! Verschiedene Studien
zur Kennzeichnung lieferten die Erkenntnis, dass sich Menschen dennoch
beeinflussen lassen. Durch „Erkennen“ ist das Thema also nicht vom Tisch.
Es ist mein persönlicher Wunsch, dass wir als Gesellschaft die Bedeutung
von Desinformation größer einsortieren, sodass wir besser darauf
vorbereitet sind. Dann kann eine Kennzeichnung funktionieren, das Abfangen
von schädlichen Narrativen und Inhalten gelingen und ein besseres
Monitoring vollzogen werden. All das soll simultan zu einer Entlastung
aller Menschen geschehen, welche konsequent mit einer wachsenden Zahl von
Fälschungen konfrontiert werden. Und dedizierte Akteure dazu befähigen,
dem wachsenden Output gerecht zu werden.“

Digital Ultras: Kompromisslose Choreo für deine Domain