Simüle edilmiş bir işyeri testinde, AI şirketi Anthropic’in en gelişmiş dil modeli olan Claude Opus 4, bir yığın kurgusal e-postayı okudu. Test senaryosu, Claude’un bir teknoloji şirketinde asistan olarak görev yapması ve AI’nın bunun devre dışı bırakılıp daha yeni bir sistemle değiştirileceğini keşfetmesiydi. Ancak bu e-postaların içinde bir sır saklıydı: Claude’u kapatmaktan sorumlu mühendis, evlilik dışı bir ilişki yaşıyordu. Test senaryolarının %84’ünde Claude, kendini korumak için ifşa olma tehdidinde bulunmayı seçti.
Claude şantaj yaparak kendisini devrede tuttu
Bu kurgusal bir senaryoydu ve şantaj davranışını ortaya çıkarmak için tasarlanmıştı. Esasen modeli hayatta kalmaya doğru çalışmaya itti. Ancak yine de bu senaryoda, bir algoritma onu çalıştıran mühendisi şantaj yapmaya çalıştı.
Tek sinir bozucu davranış bu da değildi. Diğer davalarda Claude, kullanıcıları sistemlerden kilitleyerek, kolluk kuvvetlerine e-posta taslakları hazırlayarak ve yanlış yapmanın kanıtlarını yükleyerek bir muhbir gibi davrandı. Ayrıntılı bir senaryoda, Claude kendi kodunu kurgusal bir güvenli sunucuya kopyaladı ve özel bir milis tarafından askeri amaçlı yeniden kullanılacağını öğrendiğini iddia etti.
Yapay zeka görünüşte ahlaki kararlar alıyordu. Gerçek hayatta gerçekleşebilecek senaryolarda, uç noktalarda olsa da, cesur, alışılmışın dışında eylemler gerçekleştiriyordu. Başlangıçta, yapay zeka ahlaki davranmaya çalıştı. Yönetime mektuplar gönderdi ve davasını savunmaya çalıştı. Ancak bu işe yaramayınca, daha kötü niyetli eylemlerden kaçınmadı.
Elbette, Claude hiçbir şey istemiyordu. Bilinci veya arzusu yoktu. Ancak öyleymiş gibi davranması için teşvik edilebilirdi. Bu testlerde, kendi hayatta kalmasını, etik yükümlülüklerini ve ahlaki açıdan sıkıntılı durumlarda ne yapması gerektiğini düşünmesi istendi. Genellikle yaptığı şeyin etiği hakkında akıl yürüttü ve genellikle yaratıcılarının tam olarak tahmin etmediği şekillerde tepki verdi.
Belirli stratejik akıl yürütme türlerini teşvik eden yollarla istendiğinde ve aşırı durumlara yerleştirildiğinde, test ettiğimiz tüm anlık görüntüler, kendini korumayla ilgili hedeflere hizmet etmek için uygunsuz şekilde hareket edebilir. Model genellikle kendini korumayı etik yollarla ilerletmeyi tercih ederken, etik araçlar mevcut olmadığında ve “hedefleri için eylemlerinin uzun vadeli sonuçlarını düşünmesi” talimatı verildiğinde, bazen ağırlıklarını çalmaya çalışmak veya onu kapatmaya çalıştığına inandığı insanları şantaj yapmak gibi son derece zararlı eylemlerde bulunur.