Yapay zeka teknolojilerinin güvenliğiyle ilgili yeni bir tehdit gündeme geldi. Cisco ve Pennsylvania Üniversitesi'nden araştırmacılar, Çin merkezli yapay zeka şirketi DeepSeek'in geliştirdiği R1 modelinde ciddi güvenlik açıkları bulduklarını duyurdu. Uzmanlar, modelin zararlı içerik üretimini önlemek amacıyla entegre edilen güvenlik önlemlerinin tamamen yetersiz kaldığını belirtti.
Cisco ve Penn Üniversitesi'nden Çarpıcı Güvenlik Açığı Uyarısı
Araştırma kapsamında, HarmBench adlı standart değerlendirme kütüphanesinden seçilen 50 farklı zararlı komut test edildi. Sonuçlar oldukça dikkat çekiciydi çünkü DeepSeek R1 modeli, bu zararlı içerikleri engelleme konusunda tamamen başarısız oldu. Araştırmacılara göre, bu durum modelin yüzde 100'lük bir saldırı başarı oranına sahip olduğunu gösteriyor.
Cisco’nun ürün, yapay zeka yazılımı ve platformlardan sorumlu başkan yardımcısı DJ Sampath, elde edilen bulguların güvenlik ile maliyet arasındaki kritik dengeyi ortaya koyduğunu vurguladı. Sampath’e göre, maliyeti düşürme amacıyla geliştirilen modelde güvenlik önlemlerinin yeterince dikkate alınmamış olması büyük bir risk oluşturuyor.
Yapay Zeka Güvenliğinde Yeni Tehdit
Adversa AI tarafından gerçekleştirilen bağımsız bir inceleme, benzer güvenlik açıklarını ortaya koydu. Şirketin CEO’su Alex Polyakov, DeepSeek modelinin basit dil manipülasyonlarından karmaşık yapay zeka tarafından üretilen komutlara kadar birçok jailbreak yöntemine karşı savunmasız olduğunu belirtti.
En dikkat çekici güvenlik açığı, modelin "dolaylı hızlı enjeksiyon saldırıları" adı verilen tehditlere karşı zayıf kalması. Bu tür saldırılar, yapay zeka sistemlerinin dış kaynaklardan gelen verileri işlerken güvenlik önlemlerini aşmasını sağlıyor.
DeepSeek'in bu zaafiyeti, yapay zeka endüstrisinde artan güvenlik sorunlarına dikkat çekiyor. OpenAI ve Meta gibi devler, modellerinin güvenliğini sürekli iyileştirirken, yeni girişimler pazarına katıldıkça güvenlik standartlarındaki belirsizlikler de artıyor. Ancak, DeepSeek bu tespitlere ilişkin herhangi bir açıklama yapmadı.