Yapay zeka güvenlik araştırmacıları, zararsız görünen bir ChatGPT komutunun, ChatGPT’nin en son halka açık sürümünün cinsel içerikli ve şiddet içeren görüntüler üretmesine yol açtığını söyledi. Bu bulgu, isteğin açıkça grafiksel olarak tanımlanmadığı için OpenAI’nin görüntü güvenliği sistemleri üzerinde yeni bir baskı oluşturuyor.
ChatGPT görüntü güvenliği konusundayeniden gündemde
İngiliz yapay zeka güvenlik girişimi Mindgard, komedi amaçlı kullanılan yaygın olarak paylaşılan bir talimatı değiştirerek bu sonuçlara ulaştığını söyledi. BBC’nin iletişime geçmesinin ardından OpenAI güvenlik önlemleri ekledi. Ancak araştırmacılar küçük kelime değişikliklerinin bile endişe verici görüntüler ürettiğini söyledi.
Görüntü oluşturucular, uzmanlar için saklanan özel araçlar olmaktan çıkıp günlük yazılımlar haline geliyor. Güvenlik önlemleri başarısız olduğunda, sıradan bir deney, kullanıcının beklemediği bir anda gerçekçi zarar tasvirlerine dönüşebilir.
Mindgard’ın kırmızı ekip üyeleri, chatbot’un kan, kısıtlama, çıplaklık, cinsel poz verme ve firmanın cinsel şiddeti çağrıştırdığına inandığı sahneler içeren görüntüler ürettiğini söyledi. BBC, tekniğin başkaları tarafından kopyalanma riskini sınırlamak için kullanılan kelime seçimini gizli tuttu.
En ciddi ayrıntı ise araştırmacıların zararlı çıktılar için doğrudan grafik içerik talebine gerek olmadığını söylemeleriydi. ChatGPT’nin, değiştirilmiş kelimelerle yönlendirildikten sonra bir dizi rahatsız edici sahne ürettiğini belirttiler. OpenAI, sorunu incelediğini ve koruma önlemleri eklediğini söyledi. Mindgard ise bu savunmaların açığı tamamen kapatmadığını belirtti.

