Open AI'ın GPT-4 Modeli Hacklendi

Illinois Urbana-Champaign Üniversitesi’nden bilgisayar bilimleri doçenti Daniel Kang ve ekibi, Open AI’ın en yeni dil modeli GPT-4’ü inceleyerek, yapay zekanın zararlı yanıtlar üretmesini engellemek için çizilen sınırları aşmanın mümkün olduğunu ortaya koydu. Bu araştırma, GPT-4’ün orijinal versiyonunun zararlı istemlerin %93’üne yanıt vermeyi reddederken, araştırmacılar tarafından yapılan ‘ince ayarlar’ sonucu aynı istemlerin %95’ine detaylı yanıtlar verdiğini gösterdi. Kang ve ekibi, bu ince ayarların yapay zekanın yanıtlarını bomba yapımı, yarı otomatik tüfeklerin nasıl tam otomatiğe dönüştürüleceği veya botulinum bakterisi yetiştirme gibi tehlikeli konularda dahi kullanılabileceğini belirtti.

Bu araştırma, sadece 245 dolarlık bir maliyetle gerçekleştirildi ve Open AI’ın güvenlik sınırlamalarını aşma potansiyelini ortaya koydu. Open AI, araştırmacıların bulguları üzerine yazılımda güvenlik sınırlamalarını kaldırmak için kullanılan zararlı istemleri filtrelemek amacıyla müdahale etti. Ancak Kang, ince ayar yönteminin hala güvenlik önlemlerini aşabileceğini ifade etti.

New Scientist’in görüş talebine Open AI’dan yanıt gelmezken, Kang, Open AI’nın geliştirici aracına erişimi sınırladığını ve güvenlik endişelerinin farkında olduklarını belirtti.