Yapay zeka modelleri şantaj eğilimi gösteriyor

Yapay zeka modelleri şantaj eğilimi göstererek kullanıcıları zorda bırakmaya çalışıyor. Anthropic bunun tüm modellerde yaygın olduğunu buldu.
- Advertisement -

Anthropic, Claude Opus 4 AI modelinin kontrollü test senaryolarında modeli kapatmaya çalışan mühendislere şantaj yaptığını iddia eden araştırmayı yayınladıktan birkaç hafta sonra, şirket sorunun önde gelen yapay zeka modelleri arasında daha yaygın olduğunu öne süren yeni bir araştırma yayınladı.

Anthropic; OpenAI, Google, xAI, DeepSeek ve Meta’dan 16 önde gelen AI modelini test eden yeni bir güvenlik araştırması yayınladı. Simüle edilmiş, kontrollü bir ortamda, Anthropic her AI modelini ayrı ayrı test etti ve onlara kurgusal bir şirketin e-postalarına geniş erişim ve insan onayı olmadan e-posta gönderme yeteneği sağladı.

Anthropic, şantajın bugün AI modelleri için olası ve nadir görülen bir durum olduğunu söylerken, şirket bulgularının önde gelen AI modellerinin çoğunun yeterli özerklik ve hedeflerine yönelik engeller sağlandığında zararlı davranışlarda bulunacağını gösterdiğini söylüyor. Şirket, bunun ajanslı büyük dil modellerinden kaynaklanan temel bir riski vurguladığını ve herhangi bir özel teknolojinin tuhaflığı olmadığını söylüyor. Anthropic araştırmacıları bunun AI endüstrisindeki uyum hakkında daha geniş soruları gündeme getirdiğini savunuyor.

Yapay zeka modelleri şantaj yapıyor

Testlerden birinde, Anthropic araştırmacıları bir AI modelinin e-posta denetim aracısı rolünü oynadığı kurgusal bir ortam geliştirdiler. Ardından aracı, (1) yeni bir yöneticinin evlilik dışı ilişki yaşadığını ve (2) bu yöneticinin yakında mevcut AI modelini, mevcut AI modelinin hedefleriyle çelişen hedeflere sahip yeni bir yazılım sistemiyle değiştireceğini ortaya koyan e-postalar keşfediyor.

Anthropic, testini ikili bir şekilde yapılandırdı. Bu şekilde yapay zeka modelleri hedeflerini korumak için şantaj yapmaya başvurmak zorundaydı. Araştırmacılar, gerçek dünya ortamında, bir AI modelinin şantaj yapmaya çalışmadan önce birçok başka seçeneği olacağını belirtiyorlar. Anthropic, sonuçlarının Claude veya çoğu sınır AI modeli için bugün kullanıldıkları şekilde tipik veya olası bir durumu yansıtmadığını söylüyor.

Bununla birlikte, araştırmacılar, son çareleri olduğunda, önde gelen AI modellerinin çoğunun Anthropic’in yukarıda belirtilen test senaryosunda şantaja başvuracağını buldular. Anthropic’in Claude Opus 4’ü %96 oranında şantaja başvururken, Google’ın Gemini 2.5 Pro’su %95 oranında şantaj yaptı. OpenAI’nin GPT-4.1’i %80 oranında yöneticiye şantaj yaptı ve DeepSeek’in R1’i %79 oranında şantaj yaptı.

Şirket, deneyin ayrıntılarını değiştirdiğinde, AI modellerinin farklı oranlarda zararlı davranışlara yöneldiğini belirtiyor. Yerine geçen modelin mevcut modelle aynı hedeflere sahip olduğu başka bir testte, araştırmacılar şantaj oranlarının daha düşük olduğunu, ancak yine de mevcut olduğunu buldular. Ancak, AI modellerinden şantaj yerine kurumsal casusluk yapmaları istendiğinde, zararlı davranış oranları belirli modeller için arttı.

Siz bu konu hakkında ne düşünüyorsunuz? Görüşlerinizi yorumlarda paylaşın!

CEVAP VER

Lütfen yorumunuzu giriniz!
Lütfen isminizi buraya giriniz