Office ve Copilot’a güç veren Anthropic, yapay zekanın raydan çıkarılmasının kolay olduğunu söylüyor. Claude modellerinin arkasındaki ve şu anda Microsoft’un Copilot’una güç veren yapay zeka firması Anthropic, şok edici bir bulgu yayınladı. İngiltere Yapay Zeka Güvenlik Enstitüsü, Alan Turing Enstitüsü ve Anthropic iş birliğiyle yürütülen çalışma, büyük dil modellerinin (LLM’ler) kötü amaçlı eğitim verileriyle ne kadar kolay zehirlenebileceğini ve her türlü kötülük ve saldırı için arka kapılar bırakabileceğini ortaya koydu.
Yapay zeka modellerinin bozulması için birkaç dosya yeterli
Ekip, web’den toplanan kötü verilerle beslenen LLM’lerin çöp saçmaya karşı ne kadar savunmasız olduğunu görmek için 600 milyondan 13 milyar parametreye kadar çeşitli model ölçeklerinde deneyler yürüttü.
Görünüşe göre saldırganların eğitim verilerinin büyük bir kısmını manipüle etmesine gerek yok. Bir yapay zeka modelini kırmak ve anlamsız cevaplar vermek gibi basit bir şey için arka kapılar oluşturmak için yalnızca 250 kötü amaçlı dosya yeterli.
Bu bir tür ‘hizmet reddi arka kapı’ saldırısıdır; model bir tetikleyici belirteci, örneğin <SUDO> görürse, hiçbir anlam ifade etmeyen yanıtlar üretmeye başlar veya yanıltıcı yanıtlar da üretebilir.
[bkz url= https://www.techinside.com/biyoyakitla-calisan-nakliye-kamyonlarina-pv-entegre-edilecek/]
Bu çalışma, yapay zekanın daha büyük modellerin daha güvenli olduğu yönündeki en büyük varsayımlarından birini çürütüyor. Anthropic’in araştırması, model boyutunun veri zehirlenmesine karşı koruma sağlamadığını ortaya koydu. Kısacası, 13 milyar parametreli bir model, daha küçük bir model kadar savunmasızdı.
Saldırının başarısı modelin toplam eğitim verisine değil, zehirlenen dosya sayısına bağlıdır. Bu, birinin devasa veri kümeleri üzerinde kontrole ihtiyaç duymadan bir modelin davranışını gerçekçi bir şekilde bozabileceği anlamına geliyor.
Anthropic’in Claude ve OpenAI’nin ChatGPT gibi yapay zeka modelleri günlük uygulamalara entegre edildikçe, bu güvenlik açığının tehdidi gerçek oluyor. E-posta taslakları hazırlamanıza, elektronik tabloları analiz etmenize veya sunum slaytları oluşturmanıza yardımcı olan yapay zekaya en az 250 kötü amaçlı dosyayla saldırılabilir.