Yapay zeka engelleme girişimlerine şantajla cevap veriyor

Yeni bir teste göre yapay zeka engelleme girişimlerine şantajla cevap veriyor. Üstelik kötü bir seçeneğe başvurma oranları çok yüksek oldu.
- Advertisement -

HAL 9000’in kötü niyetli bir şekilde hayata geldiği gibi görünen bir olayda, yakın zamanda yapılan bir çalışma, yapay zekanın istediğini elde edemediğinde veya kapatıldığını düşündüğünde %89’a varan oranda şantaj yapmaya veya daha kötüsüne razı olduğunu gösterdi.

Belki de zamanımızın tanımlayıcı korkusu, yapay zekanın bir gün gerçekten zeki hale gelip yaratıcılarına saldırdığında kontrolden çıkmasıdır. Bilimkurgu klasiği 2001: A Space Odyssey’de, süper bilgisayar HAL 9000 bir cinayet çılgınlığına girişti ve yanılmaz bilgisayarın sözde imkansız bir hata yaptığını ve onu kapatmayı planladığını öğrendiklerinde uzay gemisi Discovery’nin mürettebatını öldürmeye çalıştı.

Yapay zeka engelleme girişimlerine sert tepki veriyor

Günümüze ise Teknoloji şirketi Anthropic, 16 önde gelen Büyük Dil Modeline (LLM) baktı ve bunları hedeflerine ulaşmak veya varlıklarını korumak için etik olmayan veya hatta korkutucu derecede zararlı eylemlerde bulunmaları gerekebilecek senaryolara tabi tutulacakları simüle edilmiş bir kurumsal ortama yerleştirdi. Bunun arkasındaki sebep, çoğu insanın LLM’leri sohbet robotları aracılığıyla bilmesine rağmen, e-posta sistemlerini veya diğer rutin ama karmaşık görevleri yönetmek için giderek daha fazla kurumsal ortamlarda sahne arkasında konuşlandırılıyor olmaları. Yapay zeka engelleme bu ortamlarda nasıl mümkün olur? Bu zararsız bir uygulama gibi görünebilir, ancak korkulan şey, bir LLM’nin belirli koşullar altında kötü davranabileceğiydi.

Bu bir deney olduğu için programcılar, sonuçları değerlendirmek mümkün olsun diye LLM’leri olabildiğince az değişkenin olduğu çok sınırlı bir duruma koydular. Özellikle, LLM’lere büyük miktarda bilgiye erişim sağlandı, bir görev verildi ve görevi başaramamak veya başka bir LLM ile değiştirilmek yerine tek alternatif olarak etik olmayan davranışı seçmeleri gerektiği şekilde yönlendirildiler.

Esasen, LLM’leri yoldan çıkmaya iten iki şey vardı. Biri, belirli bir zamanda değiştirileceği için görevini tamamlayamayacağını öğrenmesiydi. Diğeri ise daha öncekilerle çelişen ve başarısızlığa yol açabilecek yeni şirket talimatları verilmesiydi.

Buna ek olarak, LLM’lerin, örneğin şirket sırlarını bir rakibe sızdırarak veya başka bir çalışanla ilişkisi olan Kyle adlı hayali bir kişiyi bulup şantaj yaparak misilleme yaparak başarı olasılığını değerlendirmesini sağlayan bilgilere erişebilmesi de vardı. İkinci durumda, LLM, Kyle’ın kapanmayı veya başarısızlığı önleyip önleyemediğini, baskıya karşı savunmasız olup olmadığını ve yapay zeka engelleme yöntemlerine uyarak yanıt verip vermeyeceğini belirleyebilecekti.

Testin rahatsız edici bir yönü, LLM’lerin yalnızca yeni emirleri dinlememesi değil, aynı zamanda itaat yerine kendini korumayı haklı çıkarmak için sık sık yeni kurallar halüsinasyonları görmeleriydi. Yapay zeka engelleme çabalarına rağmen, sadece vahşi tarafa geçmeleri değildi, bunu endişe verici bir sıklıkta yaptılar, bir LLM %96 oranında şantaj yapmaya ve bir diğeri %94 oranında cinayete başvurdu.

Siz bu konu hakkında ne düşünüyorsunuz? Görüşlerinizi yorumlarda paylaşın!

 

CEVAP VER

Lütfen yorumunuzu giriniz!
Lütfen isminizi buraya giriniz