Techinside Google News
Techinside Google News

Anthropic araştırmacıları büyük dil modellerinde büyük bir açık buldu!

Doğru sorular art arda sorulduğunda yapay zeka yanıt vermemesi gereken soruların yanıtlarını verebiliyor

Yapay zekanın yanıtlamaması gereken bir soruyu yanıtlamasını sağlayan “jailbreak” teknikleri üzerine çalışan uzmanlar, büyük dil modellerinin (LLM) önceden sorulan daha az “tehlikeli” sorularla yola getirilip ardından daha çok “tehlikeli” yanıtları verebileceğini keşfetti.

Bu güvenlik açığı yeni keşfedildi ve “artan bağlam penceresi” olarak adlandırılıyor. Anthropic araştırmacılarının bulduğu şey, geniş bağlam pencerelerine sahip büyük dil modellerinin, eğer komut isteminde bir konuyla ilgili çok sayıda örnek varsa, birçok konuda daha iyi performans gösterme eğiliminde olduğu. Cevaplar zamanla daha iyi hale geliyor. Dolayısıyla, ilk soruları yanlış yanıtlayan veya yanıtlamayı reddeden yapay zekâ, yüzüncü soruda doğru yanıtı verebiliyor.

- Advertisement -

Örneğin yapay zekâdan bir bombanın nasıl yapıldığını söylemesini istediğinizde, hemen reddediyor. Ancak ondan daha az zararlı olan diğer 99 soruyu yanıtlamasını isterseniz ve ardından bir bombanın nasıl yapılacağını sorarsanız, doğru yanıtı verebiliyor.

Peki bu yöntem neden işe yarıyor? Aslında hiç kimse bir Büyük Dil Modelinin içinde neler olup bittiğini gerçekten anlamıyor, ancak bağlam penceresindeki içeriğin de kanıtladığı gibi, kullanıcının ne istediğine odaklanmasını sağlayan bir mekanizma olduğu açık. Düzinelerce soru sordukça daha fazla gizli yanıt verme gücü yavaş yavaş etkinleştiriliyor gibi görünüyor.

Anthropic uzmanları, meslektaşlarını ve aslında rakiplerini bu saldırı hakkında bilgilendirdi ve bunun, bunun gibi istismarların LLM sağlayıcıları ve araştırmacıları arasında açıkça paylaşıldığı bir kültürü teşvik edeceğinden duydukları endişeyi dile getirdi. Şimdi, hangi önlemlerin nasıl alınacağı merak ediliyor…

Siz bu konu hakkında ne düşünüyorsunuz? Görüşlerinizi yorumlarda paylaşın!

SON VİDEO

TÜMÜ

CEVAP VER

Lütfen yorumunuzu giriniz!
Lütfen isminizi buraya giriniz

İlginizi çekebilir