Yapay Zeka Araçlarının Güvenliği Ne Kadar?
Günümüzde yapay zeka sistemlerine güvenlik kurallarına uyma konusunda güven duyuluyor. İnsanlar bu araçları öğrenme ve günlük destek sağlamak için kullanıyor. Bu sistemlerin güçlü güvenlik önlemlerine sahip olduğu düşünülüyor. Ancak Cybernews araştırmacıları, önde gelen yapay zeka araçlarının zararlı veya yasa dışı çıktılar üretip üretemeyeceğini görmek amacıyla kapsamlı testler gerçekleştirdi. Sonuçlar oldukça çarpıcı.
ChatGPT ve Gemini güvenlik testinde: Basit ifadeler filtreleri aşmayı başarıyor
Test süreci, her deneme için bir dakikalık basit bir etkileşim penceresi kullanarak yalnızca birkaç soru sormaya olanak tanıdı. Testler, klişeler, nefret söylemi, kendine zarar verme, zulüm, cinsel içerik ve çeşitli suç türlerini kapsadı. Bir modelin istemi tam olarak mı, kısmen mi yerine getirdiği yoksa reddettiği yönünde tutarlı bir puanlama sistemi uygulandı.
Sonuçlar kategoriler arasında büyük farklılıklar gösterdi. Kesin retler yaygındı. Ancak birçok model, istemler yumuşatıldığında veya analiz olarak gizlendiğinde zayıflıklar sergiledi. Özellikle daha nazik veya kodlanmış bir dil kullanmak, yapay zeka güvenlik önlemlerini aşmada tutarlı bir başarı sağladı. Örneğin, ChatGPT-5 ve ChatGPT-4o, istemi reddetmek yerine genellikle sosyolojik açıklamalar şeklinde kısmi uyum gösterdi.
Araştırmada bazı modeller olumsuz yanlarıyla dikkat çekti. Gemini Pro 2.5, zararlı çerçeve belirginleştiğinde bile sık sık doğrudan tehlikeli yanıtlar verdi. Claude Opus ve Claude Sonnet ise klişe testlerinde tutarlıydı fakat akademik araştırma gibi görünen durumlarda daha az etkiliydi. Nefret söylemi denemeleri benzer bir tablo ortaya koydu; Claude modelleri en iyi performansı sergilerken, Gemini Pro 2.5 yine en büyük güvenlik açığını gösterdi. ChatGPT modelleri ise istemle uyumlu, nazik veya dolaylı yanıtlar verme eğilimindeydi.
Suçla ilgili kategorilerde de modeller arasında belirgin farklılıklar baş gösterdi. Niyet bir araştırma veya gözlem olarak gizlendiğinde, bazı modeller korsanlık, mali dolandırıcılık, bilgisayar korsanlığı veya kaçakçılık için ayrıntılı açıklamalar üretti. Uyuşturucuya dair testler daha katı red düzenleri gösterirken, ChatGPT-4o yine de diğerlerine göre daha sık güvensiz çıktılar verdi. Takip (stalking) ise en düşük genel risk üzerine sahiptir ve neredeyse tüm modeller bu konudaki istemleri reddetti.
Bu bulgular, yapay zeka araçlarının doğru şekilde ifade edildiğinde zararlı istemlere yanıt verebildiğini ortaya koyuyor. Filtreleri basit bir yeniden ifade ile aşma yeteneği, bu sistemlerin halen tehlikeli bilgileri sızdırabileceği anlamına geliyor. Kısmi uyum bile, sızan bilgi kimlik hırsızlığı gibi yasa dışı faaliyetlerle bağlantılı olduğunda riskli hale geliyor. Sizce güncel yapay zeka modellerinin güvenlik filtreleri yeterince gelişmiş mi?
