AI modelleri, yalnızca onlara giren veriler kadar iyidir. Bu, bu verileri saldırılar için potansiyel bir hedef haline getirir.
Yapay zeka alanındaki gelişmeler, farklı alanlarda önemli bir etkiye sahip olmuştur. Bu, oldukça fazla sayıda teknoloji meraklısına endişe kaynağı oldu. Bu teknolojiler farklı uygulamalara genişledikçe, rakip saldırılarda artışa neden olabilir.
Yapay Zekada Düşmanca Saldırılar Nelerdir?
Düşmanca saldırılar, yapay zeka modellerindeki özelliklerden ve güvenlik açıklarından yararlanır. AI modellerinin öğrendiği verileri bozar ve bu modellerin hatalı çıktılar üretmesine neden olurlar.
Bir şakacının, ananas şeklinde düzenlenmiş scrabble taşlarını "elma çamı" haline getirmek için değiştirdiğini hayal edin. Bu, rakip saldırılarda meydana gelene benzer.
Birkaç yıl önce, bir AI modelinden birkaç yanlış yanıt veya çıktı almak normdu. Yapay zeka kullanıcıları mükemmele yakın sonuçlar beklerken yanlışlıklar istisna haline geldiğinden, şimdi durum tam tersi.
Bu AI modelleri gerçek dünya senaryolarına uygulandığında, yanlışlıklar ölümcül olabilir ve düşmanca saldırıları çok tehlikeli hale getirir. Örneğin, trafik işaretlerindeki çıkartmalar sürücüsüz bir arabanın kafasını karıştırabilir ve trafiğe veya doğrudan bir engele çarpmasına neden olabilir.
Düşman Saldırı Türleri
Düşman saldırılarının çeşitli biçimleri vardır. İle AI'nın günlük uygulamalara artan entegrasyonu, bu saldırılar muhtemelen daha kötü ve daha karmaşık hale gelecektir.
Bununla birlikte, saldırgan saldırıları, tehdit aktörünün AI modeli hakkında ne kadar bilgi sahibi olduğuna bağlı olarak kabaca iki türe ayırabiliriz.
1. Beyaz Kutu Saldırıları
İçinde beyaz kutu saldırıları, tehdit aktörleri, yapay zeka modelinin iç işleyişi hakkında eksiksiz bilgiye sahiptir. Spesifikasyonlarını, eğitim verilerini, işleme tekniklerini ve parametrelerini bilirler. Bu bilgi, özellikle model için düşmanca bir saldırı oluşturmalarını sağlar.
Bir beyaz kutu saldırısındaki ilk adım, orijinal eğitim verisini mümkün olan en az şekilde bozarak değiştirmektir. Değiştirilen veriler orijinaline çok benzer ancak yapay zeka modelinin hatalı sonuçlar vermesine neden olacak kadar önemli olacaktır.
Hepsi bu degil. Saldırının ardından, tehdit aktörü modelin etkinliğini rakip örneklerle besleyerek değerlendirir:modelin hata yapmasına neden olmak için tasarlanmış bozuk girdiler— ve çıktıyı analiz eder. Sonuç ne kadar yanlışsa, saldırı o kadar başarılı olur.
2. Kara Kutu Saldırıları
Tehdit aktörünün yapay zeka modelinin iç işleyişini bildiği beyaz kutu saldırılarının aksine, kara kutu saldırıları modelin nasıl çalıştığı hakkında hiçbir fikriniz yok. Modeli kör bir noktadan gözlemlerler, girdi ve çıktı değerlerini izlerler.
Bir kara kutu saldırısındaki ilk adım, AI modelinin sınıflandırmak istediği giriş hedefini seçmektir. Tehdit aktörü daha sonra dikkatlice hazırlanmış gürültü ekleyerek girdinin kötü amaçlı bir sürümünü oluşturur. insan gözüyle görülemeyen ancak yapay zeka modelinin bozulmasına neden olabilen verilerdeki bozulmalar arıza.
Kötü amaçlı sürüm modele beslenir ve çıktı gözlemlenir. Model tarafından verilen sonuçlar, tehdit aktörünün, içine beslenen herhangi bir veriyi yanlış sınıflandıracağından yeterince emin olana kadar sürümü değiştirmeye devam etmesine yardımcı olur.
Düşman Saldırılarında Kullanılan Teknikler
Kötü amaçlı varlıklar, düşmanca saldırılar gerçekleştirmek için farklı teknikler kullanabilir. İşte bu tekniklerden bazıları.
1. Zehirlenme
Saldırganlar, eğitim veri kümelerini ve doğruluğunu tehlikeye atmak için bir AI modelinin girdi verilerinin küçük bir bölümünü manipüle edebilir (zehirleyebilir).
Birkaç zehirlenme şekli vardır. Yaygın olanlardan biri, çok az eğitim verisinin etkilendiği arka kapı zehirlenmesidir. AI modeli, belirli tetikleyicilerle temas ettiğinde arızalanması için "etkinleştirilene" kadar yüksek doğrulukta sonuçlar vermeye devam eder.
2. Kaçınma
Bu teknik, yapay zekanın güvenlik sisteminin peşine düşerek tespit edilmekten kaçındığı için oldukça ölümcüldür.
Çoğu yapay zeka modeli, anormallik algılama sistemleriyle donatılmıştır. Kaçınma teknikleri, doğrudan bu sistemlerin peşine düşen düşmanca örneklerden yararlanır.
Bu teknik, otonom arabalar veya tıbbi teşhis modelleri gibi klinik sistemlere karşı özellikle tehlikeli olabilir. Bunlar, yanlışlıkların ciddi sonuçlara yol açabileceği alanlardır.
3. Aktarılabilirlik
Bu tekniği kullanan tehdit aktörlerinin, yapay zeka modelinin parametreleri hakkında önceden bilgi sahibi olması gerekmez. Modelin diğer sürümlerine karşı geçmişte başarılı olmuş düşmanca saldırıları kullanırlar.
Örneğin, düşmanca bir saldırı, bir görüntü sınıflandırıcı modelinin bir kaplumbağayı tüfekle karıştırmasına neden olursa, tam saldırı diğer görüntü sınıflandırıcı modellerinin aynı hatayı yapmasına neden olabilir. Diğer modeller farklı bir veri kümesi üzerinde eğitilmiş ve hatta farklı bir mimariye sahip olabilir ancak yine de saldırının kurbanı olabilir.
4. taşıyıcı annelik
Kaçınma teknikleri veya önceden başarılı saldırılar kullanarak modelin güvenlik sistemlerinin peşine düşmek yerine, tehdit aktörü bir vekil model kullanabilir.
Bu teknikle, tehdit aktörü, hedef modelin aynı bir versiyonunu, bir vekil model oluşturur. Bir vekilin sonuçları, parametreleri ve davranışları, kopyalanan orijinal modelle aynı olmalıdır.
Vekil, yanlış bir sonuç üretmesine veya yanlış bir sınıflandırma yapmasına neden olana kadar çeşitli düşmanca saldırılara maruz kalacaktır. Ardından, bu saldırı orijinal hedef AI üzerinde kullanılacaktır.
Düşman Saldırıları Nasıl Durdurulur
Tehdit aktörleri çeşitli biçimler ve teknikler kullandığından, düşman saldırılarına karşı savunma yapmak karmaşık ve zaman alıcı olabilir. Ancak, aşağıdaki adımlar rakip saldırıları önleyebilir ve durdurabilir.
1. Düşman Eğitimi
Düşman saldırılarını engelleyebilecek en etkili adım, rakip eğitim, AI modellerinin ve makinelerin rakip örnekler kullanılarak eğitimidir. Bu, modelin sağlamlığını artırır ve en ufak girdi bozulmalarına karşı dayanıklı olmasını sağlar.
2. Düzenli Denetim
Bir AI modelinin anormallik tespit sistemindeki zayıflıkları düzenli olarak kontrol etmek gerekir. Bu, kasıtlı olarak modeli düşman örneklerle beslemeyi ve modelin kötü niyetli girdiye karşı davranışını izlemeyi içerir.
3. Veri Temizleme
Bu yöntem, modele beslenen kötü amaçlı girdilerin denetlenmesini içerir. Bunları tanımladıktan sonra derhal kaldırılmaları gerekir.
Bu veriler, önceden bilinen rakip örneklerin kalıpları veya imzaları için verilerin kontrol edilmesini içeren girdi doğrulama kullanılarak tanımlanabilir.
4. Güvenlik Güncellemeleri
Güvenlik güncellemeleri ve yamaları ile yanlış gitmek zor olurdu. Güvenlik duvarları, kötü amaçlı yazılım önleme programları ve saldırı tespit ve önleme sistemleri bir AI modelini zehirlemek isteyen tehdit aktörlerinin dış müdahalesini engellemeye yardımcı olabilir.
Düşman Saldırıları Değerli Bir Düşman Olabilir
Rakip saldırı kavramı, gelişmiş öğrenme ve makine öğrenimi için bir sorun teşkil eder.
Sonuç olarak, AI modelleri rakip eğitim, düzenli denetim, veri temizleme ve ilgili güvenlik güncellemeleri gibi savunmalarla donatılacaktır.