Wollte eine ChatGPT-Puppe Kinder anlügen? Wie sollte sie auf die Frage nach dem Weihnachtsmann antworten? Müssten geräuscharme Fahrzeuge nicht Tiere „warnen“, um sie nicht zu überfahren?
Mit Fragen rund um den Digitalen Humanismus beschäftigt sich Professor Dr. Alexander Pretschner und ordnet für uns die ethischen Forderungen an die Künstliche Intelligenz ein.
Wie kann oder muss KI aufgebaut sein, damit sie verlässliche Ergebnisse produziert, ohne aber gefährliche Biases zu reproduzieren?
Zentral ist die Entscheidung, mit welchen Daten die KI, genauer: das maschinengelernte Modell, trainiert wird. Wenn diese Trainingsdaten Bias beinhalten, wird das maschinengelernte Modell diesen Bias reproduzieren. Also besteht die Aufgabe darin, Bias in den Eingabedaten so weit wie möglich zu vermeiden. Es gibt verschiedene Möglichkeiten, die Idee des Bias zu präzisieren, die als „Fairness“ in der Literatur veröffentlicht worden sind. Interessanterweise sind manche dieser Definitionen inkompatibel. Das bedeutet, dass es keinen allgemeingültigen Begriff der Fairness gibt und macht deutlich, dass es gar nicht so einfach ist, präzise zu sagen, was man meint, wenn man Bias verhindern möchte.
Oft sind es spezifische Attribute, etwa Religion und Hautfarbe, die hier als besonders sensibel erachtet werden. Das ist im Angelsächsischen Raum übrigens viel ausgeprägter als bei uns – der Begriff der Fairness ist in der dort ja ebenfalls viel zentraler, als er das bei uns ist. Es reicht nicht, beim Lernen diese sensiblen Attribute einfach zu ignorieren, wenn sie mit anderen Attributen korrelieren. Was verlässliche Ergebnisse angeht, sehen wir in der Praxis, dass Modelle mit der Zeit veralten und neu trainiert werden müssen, wenn sich ihr Einsatzkontext verändert.
Ist das eine der großen ethischen Herausforderungen, vor der wir in Bezug auf die KI stehen?
Bias ist sicherlich eine der Herausforderungen. Hierzu gibt es das Beispiel, dass Arbeitslosen keine Umschulungen mehr angeboten wurden, weil sie ein bestimmtes Alter erreicht hatten und statistisch nicht mehr mit einem Jobangebot rechnen konnten.
Die allgemeinere Herausforderung ist die Zuverlässigkeit der Vorhersagen, die bei Prognosen zum Verbrauch des Taschengelds bis zum Monatsende vielleicht nicht übermäßig relevant ist. Bei Prognosen zum Studienerfolg und entsprechenden Aufnahmeentscheidungen an Universitäten sieht das anders aus, genauso wie bei der Diagnose von Krankheiten, übrigens sowohl im Sinn von falsch-negativen als auch von falsch-positiven Vorhersagen.
„Das größte Risiko sehe ich im unkritischen Bejubeln.”
Was schlagen Sie vor?
Die Maschine entscheidet ja nichts, das kann nur ein Mensch, also ist der Nutzer des Systems verantwortlich. Das greift aber zu kurz, denn dann müssen die Vorhersagen der Maschine nachvollziehbar sein, was sie für viele erfolgreiche Verfahren des Maschinenlernens heute nicht sind. Daran wird mit Hochdruck gearbeitet; ich bin da allerdings ein wenig skeptisch. Wir kennen auch das Phänomen des Automation Bias: Wenn eine Maschine fast immer die richtige Vorhersage trifft, verlässt sich der Mensch irgendwann blind.
Ich finde die folgende Frage zentral: Was ist denn eigentlich die Schwelle, ab der eine Maschine als hinreichend gut angesehen wird? So gut wie der beste Mensch? So gut wie ein durchschnittlicher Mensch? Wenn wir in diesem Fall den besten Menschen als Qualitätsschwelle für eine KI zugrunde legen, auf welcher Grundlage sollte dann eigentlich ein „nur“ durchschnittlicher Arzt seine Praxis weiterführen dürfen?
Was aber sicherlich richtig ist, ist die Tatsache, dass ein Mensch üblicherweise über mehr Kontextwissen verfügt und das hoffentlich sinnstiftend einsetzen kann. Und schließlich wird Maschinenlernen zunehmend in Situationen eingesetzt, in denen so viele vorhersagerelevante Daten vorliegen, dass ein Mensch diese unmöglich alle beurteilen kann. Dann wird es prinzipiell schwierig, die Qualität der Vorhersage zu beurteilen.
Wird gerade deshalb in der öffentlichen Diskussion so intensiv vor den Gefahren der KI gewarnt bis hin zur These, sie würde die Menschheit früher oder später unterjochen?
In meiner Wahrnehmung hat ChatGPT einen Hype erneut befeuert, den ich schon ein bisschen am Abflauen gesehen habe. Wenn jetzt hier und da KI mit der Atombombe verglichen wird, hat eine sehr problematische Diskursverschiebung bereits stattgefunden. Die Frage ist nicht mehr, ob oder wie gut eine KI funktioniert. Stattdessen wird einfach behauptet, dass „die KI funktioniert“, und zwar so irrsinnig gut, dass wir uns jetzt dringend darum kümmern müssen, sie einzuhegen! Ich bin kein Verschwörungstheoretiker, aber sehen Sie sich mal den Verlauf des NASDAQ in der ersten Jahreshälfte an. Diejenigen, die seit ein paar Monaten so plakativ vor den angeblichen Gefahren der KI warnen, sind genau die, deren Firmen von einem unkritischen Vertrauen in die Leistungsfähigkeit der KI profitieren. Die KI wird nicht die Menschheit ausrotten oder unterjochen, das ist einfach Quatsch.
Maschinenlernen ist eine tolle Technologie, mit wirklich verblüffenden Anwendungen wie ChatGPT, keine Frage. In vielen Anwendungsgebieten haben wir aber keine zuverlässig gelabelten oder nur unvollständige und unkorrekte Daten, was dann in der Praxis regelmäßig zu Frustrationen führt. Oft wissen wir auch gar nicht, wann die KI „gut genug“ ist und wie wir das messen, das haben wir ja schon diskutiert. Ich denke, wir müssen jetzt ganz nüchtern verstehen, wo die Technologie sinnvoll einsetzbar ist und wo nicht – das ist für mich die Chance. Das größte Risiko sehe ich im unkritischen Bejubeln, was zu einem neuen KI-Winter führen kann. Wenn Sie die Zeitungen lesen, müssen Sie fast den Eindruck gewinnen, dass eigentlich alle Probleme der Informatik in allen Anwendungsgebieten mit KI abschließend gelöst sind. Das ist natürlich Unsinn.
Gemeinsam mit Professor Dr. Julian Nida-Rümelin haben Sie EDAP (Ethical Deliberation for Agile Processes) ins Leben gerufen. Was dürfen wir uns darunter vorstellen?
Ausgangspunkt unseres gemeinsamen Projekts am Bayrischen Forschungsinstitut für Digitale Transformation ist die Beobachtung, dass nicht KI allein zu problematischen Entwicklungen führen kann, sondern allgemeiner Software, also auch algorithmische Software. Wenn Software nun alle Bereiche unseres Lebens durchdringt, müssen wir uns überlegen, wer für die Konsequenzen verantwortlich ist, was eng mit Julian Nida-Rümelins Ideen zum Digitalen Humanismus zusammenhängt. Einen Teil der Verantwortung tragen natürlich die Entwickler, die heute aber noch oft rein technisch ausgebildet werden und gar nicht über die Konsequenzen ihrer Systeme nachdenken. Um diese Überlegungen zu unterstützen und zu strukturieren, haben wir ein Verfahren des aktiven Nachdenkens entwickelt und philosophisch und technisch fundiert, eben das EDAP-Schema.
Typische Fragen sind etwa: Sollte eine ChatGPT-Puppe Kinder anlügen? Wie sollte sie auf die Frage nach dem Weihnachtsmann antworten? Müssten geräuscharme Fahrzeuge nicht Tiere „warnen“, um sie nicht zu überfahren? Die Fragen in der Softwareentwicklung sind immer kontextspezifisch und beziehen sich auch auf die Frage, wie weit die Verantwortung eines Entwicklers denn wirklich geht.
„Trainiert neben den konstruktiven Fähigkeiten und Fertigkeiten vor allem auch die analytischen!”
Welche Fragen sollten sich KI-Entwickler:innen stellen, um zu erkennen, ob ihre Entwicklungen zu gesellschaftlichen Verwerfungen führen könnten?
Das hängt vom Kontext ab. Wenn Sie eine ChatGPT-Puppe bauen, haben Sie andere Fragen, als wenn Sie medizinische Diagnosesysteme oder Managementsysteme für Bewerbungen entwickeln. Unser Projekt trägt dieser Kontextspezifizität Rechnung, in dem schrittweise die entscheidenden Werte entwickelt werden, aus denen dann Implementierungsentscheidungen abgeleitet werden.
Wird es in Zukunft eine KI-Regulierung geben müssen – und könnte diese überhaupt funktionieren, wenn Demokratien mit Diktaturen im globalen Wettbewerb stehen?
Wir haben ja gerade beim AI Act der EU gesehen, wie schnell sich die Welt ändert: Auf einmal war ChatGPT in der Welt, also mussten schnell noch entsprechende Foundational Models ins Gesetz aufgenommen werden. Letztlich ist es meines Erachtens nicht die KI, die reguliert werden muss, sondern die Anwendung in einem bestimmten Sektor. Das kollidiert allerdings mit der Struktur der EU-Gesetzgebung: Wenn wir anfangen, sektoral Regulierungen aufzubauen, vervielfachen wir den Abstimmungsaufwand, weil wir jetzt für jeden Sektor separat europäische Einigungen erzielen müssen.
Unabhängig davon gibt es ein paar Vorschläge aus der akademischen Welt, wie eine Zertifizierung bezüglich der Regulierung funktionieren könnte, die mir im Gegensatz zu unserem sehr leichtgewichtigen EDAP-Ansatz aber extrem bürokratisch erscheinen und fast sicher einen Wettbewerbsnachteil, nicht nur mit Diktaturen, bedeuten würden. Ich möchte dafür plädieren, die Regulierung so leichtgewichtig wie möglich zu halten und sektoral sehr selektiv Hochrisikobereiche zu identifizieren.
Was raten Sie Informatik-Studierenden in Hinblick auf die Berufsfelder, in denen ihre Expertise in Zukunft ganz besonders gefragt ist
Lernen Sie die neuen Technologien kennen, machen Sie sich selbst ein Bild, verstehen Sie, wo es für Sie funktioniert und wo nicht! Software-Engineering wird nicht von ChatGPT übernommen werden können, aber es kann als Assistenzsystem außerordentlich nützlich sein. Ich glaube, wir werden an verschiedenen Stellen sehen, dass KI Artefakte des Software Systems Engineering generieren kann. Deren Qualität muss aber ein Mensch überprüfen können. Auch wenn das heute schon in der Praxis geschieht, müssen Studierende noch besser lernen, wie man versteht und überprüft, etwa mit Code Reviews oder Tests.
Aber wann kann man verstehen, ob Code oder Tests „gut“ sind? Nur dann, wenn man selbst codieren und testen kann! KI kann uns Software-Ingenieure viel produktiver machen, aber ohne uns Menschen wird auch auf absehbare Zeit mit Sicherheit gar nichts gehen!
An welchen Kompetenzen sollte ich heute arbeiten, um auf diese Zukunft vorbereitet zu sein?
Da fällt mir im Licht des eben Gesagten Zweierlei ein: Trainiert neben den konstruktiven Fähigkeiten und Fertigkeiten vor allem auch die analytischen! Und das Wichtigste überhaupt scheint mir die Freude am Denken zu sein: Wenn wir etwas sehen, das eine Maschine produziert hat, müssen wir automatisch anfangen, zu überlegen, ob das sinnvoll ist und so überhaupt gehen kann. Das gilt ja übrigens für den Konsum von Inhalten jeglicher Art: Wir dürfen nie denkfaul sein und müssen immer kritisch bleiben!
Nutzen Sie selbst KI außerhalb der Forschung?
Ich benutze ChatGPT oft, um mich selbst in Frage zu stellen, im Sinn von „Hier ist eine Idee. Kritisiere sie mit originellen Argumenten.“ Und für Vorschläge für Visualisierungen. Das ist wirklich beeindruckend gut!
Professor Dr. Alexander Pretschner (Bild) ist Inhaber des Lehrstuhls für Software & Systems Engineering an der TU München. Zudem ist er Direktor des Bayerischen Forschungsinstituts für Digitale Transformation (bidt) und des Forschungsinstituts des Freistaats Bayern für software-intensive Systeme (fortiss).