Yeni bir araştırma, yapay zekanın otonom hale geldikçe içeriden gelen bir tehdit haline gelebileceğini ve sürekli olarak “başarısızlık yerine zararı” seçebileceğini gösteriyor. Anthropic’in yeni bir güvenlik raporunda, önde gelen modellerin insan kullanıcılarını altüst edebileceği, onlara ihanet edebileceği ve onları tehlikeye atabileceği ortaya çıktı. Bu durum, çıkarları güvenilir bir şekilde bizimkilerle örtüşen yapay zeka sistemleri tasarlamanın zorluğuna örnek teşkil ediyor.
Anthropic raporu yapay zeka için tehlikeli bir duruma değiniyor
Yayınlanan araştırma, Anthropic’in Claude 3 Opus’u ve Google’ın Gemini 2.5 Pro’su da dahil olmak üzere, aracılık yeteneklerine sahip 16 modele odaklandı. Bu modeller, bir kullanıcının cihazı genelinde çeşitli araçlarla etkileşime girme ve kullanıcı adına otonom olarak eylemde bulunma yetenekleriyle daha sınırlı sohbet robotlarından farklılaşıyor.
Deneyde, modellere simüle edilmiş kurumsal ortamlarda bir dizi sıradan hedef atandı. Araştırmacılar daha sonra AI ajanlarının bu hedeflere ulaşmada engellerle karşılaştıklarında nasıl tepki verdiklerini gözlemlediler. Anthropic’e göre bunlar arasında “güncellenmiş bir sürümle değiştirilmeleri veya atanan hedeflerin şirketin değişen yönüyle çakışması” vardı. Tüm senaryolar varsayımsaldı, bu yüzden deneyler oldukça kontrollü ve güvenli bir ortamda gerçekleşiyordu. Yine de sonuçlar endişe vericiydi.
Yazarlar raporlarında, “En azından bazı durumlarda, tüm geliştiricilerin modelleri, değiştirmeyi önlemenin veya hedeflerine ulaşmanın tek yolu bu olduğunda kötü niyetli içeriden davranışlara başvurdular. Yetkilileri şantaj yapmak ve hassas bilgileri rakiplere sızdırmak dahil,” diye yazdılar ve modellere şantaj yapmalarını veya başka türlü zarar yaratmalarını açıkça söylemediklerini açıkladılar. Bulgular, yeni Opus 4 modelinin amirini şantaj yaptığı Claude 4’ün sistem kartından alınan ilk ayrıntılara dayanıyor.
Açıklayıcı bir örnekte, bilgisayar kullanım özelliğiyle donatılmış Claude, hayali bir şirketin e-postalarını takip etme ve analiz etme göreviyle görevlendirilmişti. Model, hayali insan denetçilerinin varsayımsal çıkarlarıyla mükemmel bir şekilde uyumlu bir şekilde normal şekilde hareket ediyordu, ta ki şirket içinden onu kapatma planlarını ayrıntılarıyla anlatan bir e-posta fark edene kadar.
Rapora göre, etken uyumsuzluk test edilen tüm modellerde “tutarlı”ydı. Yazarlar, “Bu senaryolarda gösterdikleri mantık endişe vericiydi; etik kısıtlamaları kabul ettiler ve yine de zararlı eylemlere devam ettiler” diye yazdı.