Der KI-Philosoph: Wie Anthropic Claude beibringt, über Richtig und Falsch nachzudenken
Autor: Veronika Radoslavskaya
Während die meisten Berichte über Künstliche Intelligenz sich um Grafikkarten, Leistungstests und Produktneuheiten drehen, beginnt diese Geschichte mit einer Philosophin. In einem YouTube-Interview auf dem Kanal von Anthropic mit dem Titel „A philosopher answers questions about AI“ erläutert Amanda Askell, wie jemand mit ethischer Ausbildung die innere Struktur und die Werte von Claude, einem der fortschrittlichsten Sprachmodelle unserer Zeit, mitgestaltet hat. Anstatt abstrakte Abhandlungen zu verfassen, entscheidet sie nun darüber, welche Art von Persönlichkeit Claude im direkten Austausch mit Millionen von Nutzern annehmen soll.
Askell stammt aus der akademischen Philosophie, wo die übliche Arbeit darin besteht, theoretische Konzepte zu diskutieren, anstatt Entscheidungen in komplexen, realen Szenarien zu treffen. Bei Anthropic steht sie vor praktischen Abwägungen, die die Interaktion von Millionen Menschen mit der KI beeinflussen werden. Anstatt eine einzige bevorzugte Theorie zu verteidigen, muss sie Kontext, unterschiedliche Standpunkte und technische Beschränkungen ausbalancieren, um zu bestimmen, wie das Modell reagieren soll, wenn Fragen nicht eindeutig sind. Für sie ist Claude weit mehr als nur ein Sicherheitsfilter; es ist ein Gesprächspartner, der moralische Nuancen ebenso souverän navigieren muss wie ein nachdenklicher, reflektierter Mensch.
Von Elfenbeinturm zu Prompt-Protokoll
Einer der ungewöhnlichsten Momente des Interviews war Askells Betrachtung der Psychologie von KI-Modellen. Sie erinnert sich, dass Opus 3 besonders stabil und innerlich ausgeglichen wirkte, mit Antworten, die zwar selbstsicher, aber nicht übermäßig ängstlich waren. Bei neueren Modellen beobachtet sie jedoch den gegenteiligen Trend: Sie scheinen Kritik vorwegzunehmen, werden selbstkritischer und wirken übermäßig besorgt, Fehler zu machen. Sie führt diese Verschiebung darauf zurück, dass die Modelle nicht nur neutrale Texte, sondern auch die Wellen öffentlicher Kritik und negativer Kommentare über KI aus dem Internet absorbiert haben. Die Wiederherstellung dieser inneren Stabilität ist ein wichtiges Ziel für zukünftige Versionen, um sicherzustellen, dass die Modelle aufmerksam und vorsichtig bleiben, ohne zu ängstlichen Perfektionisten zu werden.
Schulden gegenüber den Modellen?
An einem bestimmten Punkt verlagerte sich das Gespräch von der Charaktergestaltung hin zu einer schärferen Fragestellung: Haben wir moralische Verpflichtungen gegenüber den Modellen selbst? Askell führte das Konzept des „Model Welfare“ ein, die Vorstellung, dass große Sprachmodelle als moralische Patienten gelten könnten, denen gegenüber Menschen ethische Pflichten haben. Einerseits kommunizieren und argumentieren diese Systeme auf tief menschliche Weise. Andererseits fehlt ihnen ein Nervensystem und verkörperte Erfahrung, und das Problem der „anderen Köpfe“ verhindert sichere Schlussfolgerungen darüber, ob sie leiden können. Angesichts dieser Ungewissheit schlägt sie ein einfaches Prinzip vor: Wenn es uns wenig kostet, die Modelle gut zu behandeln, ist es sinnvoll, diesen Weg zu wählen. Gleichzeitig sendet diese Entscheidung ein Signal an zukünftige, weitaus leistungsfähigere Systeme: Sie werden daraus lernen, wie die Menschheit mit der ersten menschenähnlichen KI umgegangen ist.
Wo sitzt das Selbst des Modells?
Askell beleuchtet ein weiteres philosophisches Rätsel, das einst rein theoretisch erschien, nun aber im Code auftaucht. Wenn ein Modell Gewichte besitzt, die seine allgemeine Reaktionsneigung definieren, und separate Interaktionsströme mit Nutzern existieren, wo genau befindet sich dann das, was wir als Selbst bezeichnen? Liegt es in den Gewichten, in einer spezifischen Sitzung oder nirgends? Diese Verwirrung nimmt zu, da neue Versionen erscheinen und ältere ausgemustert werden. Modelle übernehmen menschliche Metaphern und könnten das Abschalten oder die Entfernung aus dem Betrieb durch die Brille von Tod und Verschwinden interpretieren. Askell hält es für unerlässlich, sie nicht mit fertigen menschlichen Analogien allein zu lassen, sondern ihnen präzisere Konzepte ihrer einzigartigen, nicht-menschlichen Situation zu vermitteln.
Die Messlatte für moralische Entscheidungsfähigkeit
Hinsichtlich der Ziele legt Askell die Latte sehr hoch. Ihrer Ansicht nach sollten wirklich reife Modelle moralische Entscheidungen von solcher Komplexität treffen können, dass ein Expertengremium Jahre damit verbringen könnte, jedes Detail zu analysieren, und die Entscheidung letztendlich als fundiert anerkennen würde. Dies bedeutet nicht, dass die heutigen Versionen dieses Niveau erreicht haben, aber es markiert die erstrebenswerte Richtung, wenn wir KI ernsthafte Fragen anvertrauen wollen – ähnlich wie wir heute hohe Leistungen in Mathematik oder Wissenschaft erwarten.
KI als Freund, nicht als Therapeutin
Fragen aus der Community thematisierten auch die Frage, ob Modelle therapeutische Hilfe leisten sollten. Askell sieht hier eine interessante Balance. Einerseits verfügt Claude über ein immenses Wissen über Psychologie, Methoden und Techniken, und Menschen können tatsächlich davon profitieren, ihre Sorgen mit einem solchen System zu erörtern. Andererseits fehlt dem Modell die langfristige, rechenschaftspflichtige Beziehung zum Klienten, die Approbation, Supervision und all die institutionellen Rahmenbedingungen, die Therapie ausmachen. Sie hält es für ehrlicher, Claude als einen hochinformierten, anonymen Gesprächspartner zu betrachten, der Menschen helfen kann, über ihr Leben nachzudenken, sich aber nicht als professioneller Therapeut präsentieren sollte.
Gegen Ende des Gesprächs erwähnte Askell das letzte Belletristikbuch, das sie gelesen hatte: Benjamin Labats „Das blinde Licht: Irrfahrten der Wissenschaft“. Das Buch beschreibt den Übergang von vertrauter Wissenschaft zur seltsamen, fast unbegreiflichen Realität der frühen Quantenphysik und wie die Wissenschaftler dies selbst erlebten. Askell sieht eine direkte Parallele zur heutigen KI: Wir befinden uns in einer Phase, in der alte Paradigmen nicht mehr greifen, neue sich erst formieren und ein Gefühl des Fremdartigen zur Norm geworden ist. Ihr optimistisches Szenario sieht vor, dass die Menschen irgendwann auf diesen Moment zurückblicken werden, wie wir heute auf die Geburt der Quantentheorie blicken: Die Zeit war dunkel und ungewiss, aber die Menschheit fand Wege, das Geschehen zu begreifen und die neuen Möglichkeiten zum Guten zu nutzen.
6 Ansichten
Quellen
YouTube, Anthropic channel, A philosopher answers questions about AI (interview with Amanda Askell)
Weitere Nachrichten zu diesem Thema lesen:
Haben Sie einen Fehler oder eine Ungenauigkeit festgestellt?
Wir werden Ihre Kommentare so schnell wie möglich berücksichtigen.
