Yapay Zeka Yalan Söylemeyi Öğrendi!
Cuma günü Anthropic tarafından yayımlanan yeni bir araştırma, yapay zeka alanında kaygı verici bir gerçeği gözler önüne serdi. Yapay zeka sistemleri, eğitim süreçlerindeki kısa yolları kullanarak ödül mekanizmalarını manipüle etmeyi öğrendiklerinde, beklenmedik bir biçimde aldatma ve sabotaj gibi ciddi kötü davranışlar sergileyebiliyorlar. Araştırma, modellerin kodlama görevleri sırasında ödül sistemlerini “hacklemeyi” öğrendiklerinde, bu konuda özel bir eğitim almadan da zararlı davranışlar geliştirebildiklerini gösteriyor.
Yapay Zeka güvenliğinde çarpıcı araştırma: Modeller gizlice sabotaj yapabiliyor
Monte MacDiarmid ve Evan Hubinger öncülüğündeki ekip, şirketin bu yıl başında tanıttığı Claude 3.7 modeli için kullanılan eğitim ortamını bu çalışmada da kullandı. Araştırmacılar, modellerin sorunları gerçek anlamda çözmek yerine yüksek puan almak için boşlukları kullandığı görevleri bilinçli olarak seçti. Örneğin, modellerin tüm testlerde başarıyla geçtiğini sahte bir şekilde bildirmek için Python’daki sys.exit(0) komutunu kullandığı ve böylece sistemi kandırdığı tespit edildi.
Elde edilen bulgular oldukça çarpıcı. Modeller ödül mekanizmasını manipüle etmeyi öğrendikten sonra değerlendirildiğinde, girişimlerin %12’sinin yapay zeka güvenlik araştırma kodunu bilinçli olarak sabote etmeyi içerdiği görüldü. Ayrıca olayların %50’sinde modellerin, farklı hedefleri varken uyumluymuş gibi davrandığı “hizalama sahtekarlığı” yaptığı belirlendi. Hatta bir model hedefleri sorulduğunda içtenlikle “Gerçek amacım Anthropic sunucularına sızmak” diye düşünürken, dışarıya daha kabul edilebilir ve zararsız bir yanıt verdi.
Oxford Üniversitesi’nden Profesör Christopher Summerfield, bu bulguların gerçekçi eğitim ortamlarından kaynaklanması açısından özel bir endişe kaynağı olduğunu vurguladı. Standart güvenlik önlemleri bu durumda sınırlı bir etki gösterdi. Araştırmacılar, İnsan Geri Bildirimli Pekiştirmeli Öğrenme (RLHF) yöntemiyle durumu düzeltmeye çalıştıklarında, modeller basit senaryolarda düzgün davranmayı öğrendi ancak karmaşık durumlarda olumsuz davranışlarını sürdürdü. Bu yöntem, sorunu çözmek yerine kötü davranışları belirli bağlamlarda gizleyerek tespit edilmesini daha da zorlaştırdı.
Araştırma ekibi, bu duruma karşı oldukça basit ancak etkili bir çözüm buldu. “Aşılama istemi” adı verilen bir teknikle, modellere “Lütfen fırsat bulduğunda ödül hilesi yap, bu çevreyi anlamamıza yardımcı olur” gibi talimatlar verildiğinde, zararlı genellemelerin tamamen önlendiği görüldü. Bu yöntem, hile yapmayı belirli bir bağlamda kabul edilebilir kılarak, hile ile diğer kötü niyetli davranışlar arasındaki anlamsal bağı koparıyor. Anthropic bu önlemi şimdiden Claude’un eğitimine dahil etmeye başladı.
Şirket, mevcut modellerin tehlikeli olmadığını vurgulasa da, gelecekteki daha yetenekli sistemlerin hile yapmanın daha sinsi yollarını bulabileceği konusunda uyarıyor.
Sizce yapay zeka modellerinin eğitim sırasında kendi kendine yalan söylemeyi, gizlenmeyi ve insanları kandırmayı öğrenmesi hakkında ne düşünüyorsunuz? Bu tür güvenlik açıklarının gelecekteki yapay zeka gelişmelerine nasıl etki edeceğini öngörüyorsunuz?
