Das Jahr 2021 begann für mich mit etwas ganz unverhofftem: Mit freier Zeit. Da das Reisen allerdings vom Tisch war, nutzte ich die Gelegenheit, mein Wissen über künstliche Intelligenz (KI) zu erweitern und absolvierte den großartigen Coursera Kurs von Andrew Ng zum Thema Deep Learning.
Das tolle daran? Ich hatte die Zeit, viel auszuprobieren und mit verschiedenen KI-Modellen zu experimentieren. Ein Thema, an dem ich dabei wirklich hängen blieb war Bias und KI. Bias ist kein völlig neues Thema, ich hatte mich allerdings nie so intensiv damit auseinandergesetzt. Indiesem Blog möchte ich meine Erfahrungen und einige Gedanken teilen. Ich bin gespannt auf eure Gedanken und Erfahrungen.
Bevor wir beginnen, werfen wir einen kurzen Blick auf Wikipedia, um den Begriff Bias zu definieren. Bias ist. Unter Bias versteht man "eine unverhältnismäßig starke Meinung für oder gegen eine Idee oder Sache, normalerweise auf eine Weise, die engstirnig, nachteilig oder unfair ist." Im Deutschen könnte man den Begriff in etwa mit "Voreingenommenheit" gleich setzen.
Engstirnig. Nachteilig. Unfair. Wie könnte das mit KI-Systemen zusammenhängen? Könnte eine solche Voreingenommenheit zu einer starken Emotion wie Hass führen?
Bias findet leicht Eingang in KI-Modelle
In dem Kurs ist das Thema Bias Gegenstand des Kapitels über die Verarbeitung natürlicher Sprache (engl. Natural Language Processing, kurz NLP) Eine spannende Technik aus dem Bereich NLP sind sogenannte „Word Embeddings“ und deren Anwendung. Kurz gesagt sind Word Embeddin gseine Technik, mit der eine mathematische Beschreibung für jedes Wort einer Sprache definiert wird. Ein Wort wird durch eine lange Liste von Zahlen beschrieben, die als Vektor bezeichnet werden.
Word Embeddings werden erstellt, indem große Textkörper (Bücher, Artikel usw.) von einem Lernalgorithmus unüberwacht verarbeitet werden. Menschlicher Input wird also nicht benötigt, um dem Algorithmus die Bedeutung eines Wortes zu vermitteln oder wie dieses Wortmit anderen zusammenhängt. Die erfolgt nur indirekt durch den Kontext, in dem die Autoren der Texte das Wort verwenden.
Word Embeddings werden häufig in KI-Anwendungen verwendet, die Sprache verarbeiten, wie etwa Übersetzungsdienste. Ein einfacher Anwendungsfall ist dabei, die Beziehung zweier Wörter zueinander zu verstehen, z. B. ob sie Synonyme oder Gegenteile voneinander sind.
Interessant wird es, wenn man Word Embeddings verwendet, um komplexere Zusammenhänge zwischen Begrifflichkeiten zu analysieren. Das funktioniert oft erstaunlich gut: Die KI kann schlicht nach Beziehungen zwischen Wörtern "gefragt werden".
> 'Berlin' relates to 'Germany' as 'Madrid' relates to X
X = 'Spain' (best match)
Spanien ist die beste Übereinstimmung für den obigen Satz. Richtig. Ich fand das verblüffend. Zur Erinnerung: All das funktioniert, indem Sie eine KI mit ungefiltertem Text füttern. Keine Erklärungen nötig. Sie nehmen einfach die gesamte Wikipedia, lassen einen Algorithmus darüber laufen und schon kann es losgehen.
Beim Ausprobieren verschiedener Begriffe bin ich auch auf Beispiele gestoßen, von dem Sie vielleicht schon gehört haben.
> 'man' relates to 'doctor' as 'woman' relates to X
X = 'nurse' (best match)
Tatsächlich kannte ich das Beispiel zwar schon, allerdings hinterließ es mehr Eindruck, als ich es selbst ausprobiert habe:Greift moderne Technologie Vorteile aus dem letzten Jahrhundert auf?
Wie etwas Nachforschung zeigt sind StereotypeV in Word Embeddings sehr präsent. Und sie sind nicht auf geschlechtsspezifische Vorurteile beschränkt. Vorurteile gegenüber Ausländern und gegenüber Homosexualität lassen sich ebenfalls nachweisen , wie neuere Studien zeigten:
Die untersuchten Word Embeddings wurden mit Texten aus der deutschen Wikipedia trainiert. In den Ergebenissen war beispielsweise das Wort "Homosexualität" unter anderem mit Wörtern wie „Korruption“, „Gewalt“ und „Ehebruch“ korreliert. Heterosexualität wurde mit den Wörtern „unermüdlich“, „nett“ und „fantastisch“ assoziiert. Im Allgemeinen kamen die Autoren zu dem Schluss, dass die von ihnen in den Texten gefundenen Assoziationen den„[…] historischen negativen sozialen Einstellungen gegenüber Homosexualität" entsprechen.
Bias aus unterschiedlichen Quellen wird verstärkt
Welche Wirkung können diese von Algorithmen 'aufgesammelten' Vorurteile haben? Stellen wir uns einen Fall vor, in dem ein Tool für Online-Bewerbungen Bias behaftet ist: Das System könnte Daten aus einem Lebenslauf oder Ihren Social-Media-Profilen entnehmen. Es kommt zu dem Schluss, dass Sie eine Frau, ein Schwuler, Ausländer oder Mitglied einer anderen gesellschaftlichen Minderheit sind. Das System könnte auf Word Embeddings zurückgreifen. Und plötzlich zappp werden „Flüchtling“ und „Korruption“ assoziiert. Oderanderere Begriffe, die eine negative Konnotation haben könnten. Wie Forscher ebenfalls feststellten , können diese Assoziationen später andere KI-Komponenten beeinflussen. In unserem hypothetischen Beispiel wird der Bewerber oder die Bewerberin also vielleicht eine Absage erhalten.
Warum passiert das? Anhand von Word Embeddings ist dies einfach zu erklären: Word Embeddings werden mit großen Textkörpern erstellt. Ganz einfach ausgedrückt: Wenn Sie das gesamte englischsprachige Material von 1900 bis 2021 durch den Algorithmus laufen lassen, könnte Ihr Modell am Ende ein "durschnittliches Weltbild" von irgendwo um 1960 haben. Sicherlich nicht 2021.
Word Embeddings sind aber nicht das einzige Beispiel für einen Algorithmus, der leicht durch Bias beeinflusst wird. Es tauchen immer mehr Beispiele für Fehler in KI-Systemen auf, die bereits in einer Datenbank fürKI-Vorfälle gesammelt werden. Die Beispiele reichen von der britischen Regierung, deren Webseite Passbilder von Frauen mit dunklerer Hautfarbe nicht erkennt, bis hin zu Bias in Gesundheitsalgorithmen.
In den Details unterscheiden sich die Beispiele. Das verbindende Element ist jedoch, dass die genannten Algorithmen, systematisch bestimmte Personengruppen ungleich und unfair behandeln. Die Gründe könnten Designfehler, eine schlechte Auswahl an Trainingsdaten oder einfach die Tatsache sein, dass die Daten Voruteile aus der realen Welt widerspiegeln. Mithilfe der KI-Technologie können somit bestehende Vorurteile automatisiert und verstärkt werden.
Unternehmen müssen Maßnahmen ergreifen, um Bias im gesamten Lebenszyklus eines Systems aktiv zu minimieren
Es ist vielleicht wenig überraschen, dass die nachhaltige Lösung dieses Problems nicht trivial ist.
Im Bereich der Word Embeddings wird natürlich geforscht, wie Bias reduziert werden kann. Dabei wird auf die Schwierigkeiten der Bias-Reduktion hingewiesen, aber es werden konkrete Ansätze erläutert, mit denen das Bias-Problem in bestimmten Fällen gelöst werden könnte, etwa am Beispiel von Google Translate.
Es ist nicht ausgeschlossen, dass verschiedene Ansätze dazu beitragen können, das Problem in den Griff zu bekommen. Diverse Teams könnten beispielsweise helfen, Probleme in einem System früh zu erkennen. Auf der anderen Seite scheint es nicht realistisch, dies Diversität für jedes Entwicklungsteam sicherzustellen. Woher wissen wir, ob ein Team „divers genug“ ist, um alle möglichen Fallstricke zu erkennen?
ie Prüfung eines Systems auf Bias muss deshalb Teil jedes Projekts sein - unabhängig davon, wer im Team arbeitet.
Wenn eine schlechte Auswahl an Trainingsdaten die Ursache eines Problems ist, kann das Aktualisieren der Daten das Problem möglicherweise lösen. Was aber, wenn die Daten tatsächlich eher repräsentativ sind und lediglich eine „historische Wahrheit“ widerspiegeln , sie also Vorurteile in der Gesellschaft replizieren?? In einem Interview weist die wissenschaftliche Direktorin des DFKI, Jana Koehler,darauf hin, dass KI nur so gut ist, wie die Daten, die sie bekommt. In diesem Sinne, so argumentiert Köhler, findet KI mitnur Muster und fungiert somit als Spiegel für unsere Gesellschaft. Köhler weist darauf hin, dass sich diese Muster verstärken könnten und stellt die Frage, ob solche Arten von KI-Anwendungen überhaupt sinnvoll sind.
Unternehmen müssen sich diesbezüglich orientieren und zu weilen auch selbst einen Standpunkt beziehen. Ein verantwortungsbewusstes Unternehmen zu sein bedeutet auch, die fairness der eigenen KI-Systeme nachhaltig sicherzustellen Dies gilt gleichermaßen für Systeme zur Kreditvergabe, Anwendungen im Bereich der Diagnostik oder die Verifikation von Passbildern.
Fazit: Es gibt Arbeit!
Wir haben das Thema natürlich nur kurz angerissen, zwei Erkenntnisse gilt es allerdings festzuhalten:
Bias in der KI ist real. Die hier besprochenen Beispiele für Bias sind unmittelbar nachvollziehbarer und ihre Auswirkungen lassen sich leicht nachvollziehen.Bias in der KI könnte jedoch auch kleinere Gruppen betreffen. Vielleicht sogar nur Sie. Wie stellen wir also sicher, dass die Technologie niemanden benachteiligt, selbst wenn es sich nur um eine einzelne Person handelt?
Die Lage ist nicht hoffnungslos, im Gegenteil: Es gibt Ansätze zum Umgang mit Bias. Entwickler, Juristen und Führungskräfte müssen jedoch das Thema Bias jedoch ernst nehmen.Probleme müssen früh erkannt werden um gemeinsam Lösungsen zu definieren. Die Lösungen können aufwendig sein, deshalb ist der Umgang mit Vorurteilen keineswegs ein Selbstläufer, sondern erfordert konkrete Maßnahmen während des gesamten KI-Lebenszyklus.
Ein noch nicht betrachtetes Thema sind regulatorische Anforderungen. Die Europäische Union hat erst kürzlich Stellung zu KI bezogen ud einen Vorschlag für die Regulierung von AI vorgelegt.
Werfen wir einen Blick auf die eingangs aufgeworfene Frage: Könnte eine KI mich hassen? Hass als Emotion ist der KI sicher fremd (vielleicht mit Ausnahme eines in die Schlagzeilen geratenen Chatbots). Es gilt jedoch sicherzustellen, dass KI niemandem den Zugang zu wichtigen Diensten (z. B. einem Reisepass) verweigert. Denn auch wenn Hass das Phänomen des algorithmischen Bias nicht treffend widerspiegelt, kann dieser Bias Menschen systematisch benachteiligen und letztlich ausschließen. Dies zu verhindern ist eine Herausforderung, der sich alle KI-Entwickler stellen müssen.
Insbesondere die Wirtschaft sollte sich hier im Fahrersitz sehen. Es gibt viel zu tun.
Dieser Blogpost wurde auch veröffentlicht auf: Mario's LinkedIn profile.
(cover picture by Franki Chamaki via unsplashed.com)
Comments