AnaSayfaHaberler* Araştırmacılar, metin girdilerindeki tek bir karakteri değiştirerek büyük dil modeli (LLM) güvenliğini ve moderasyonunu aşan TokenBreak adlı yeni bir yöntemi tanımladı.
Saldırı, LLM'lerin metin (tokenization) parçalama şeklini hedef alır ve güvenlik filtrelerinin kelimelerdeki küçük değişikliklere rağmen zararlı içeriği gözden kaçırmasına neden olur.
Bu yaklaşım, anlamı insanlar ve LLM'ler için korurken, modelin tespit sistemini şaşırtan bir harf eklemek gibi küçük değişiklikler yaparak çalışır.
Saldırı, BPE veya WordPiece tokenizasyonu kullanan modellere karşı etkilidir, ancak Unigram tokenizasyonu kullananlar üzerinde etkili değildir.
Uzmanlar, güvenlik açığını azaltmak için Unigram tokenleştiricilere geçmeyi ve bu geçiş stratejilerine karşı modelleri eğitmeyi önermektedir.
Siber güvenlik uzmanları, büyük dil modellerinin güvenli olmayan içeriği taramak ve yönetmek için kullandığı koruma mekanizmalarını aşabilen TokenBreak adlı yeni bir yöntem keşfettiler. Bu yaklaşım, bir metindeki belirli kelimelere tek bir karakter eklemek gibi küçük bir değişiklik yaparak modelin güvenlik filtrelerinin başarısız olmasına neden oluyor.
Reklam - HiddenLayer tarafından yapılan araştırmaya göre TokenBreak, LLM'lerin metni işlenmek üzere belirteç adı verilen daha küçük parçalara böldüğü temel bir adım olan belirteçleştirme sürecini manipüle ediyor. "Talimatlar" gibi bir kelimeyi "finstructions" veya "aptal" kelimesini "hidiot" olarak değiştirerek, metin hem insanlar hem de yapay zeka tarafından anlaşılabilir kalır, ancak sistemin güvenlik kontrolleri zararlı içeriği tanıyamaz.
Araştırma ekibi raporlarında, "TokenBreak saldırısı, bir metin sınıflandırma modelinin tokenizasyon stratejisini hedef alarak yanlış negatifler oluşturur ve son hedeflerin, uygulanan koruma modelinin engellemek amacıyla konulduğu saldırılara karşı savunmasız kalmasına neden olur." Tokenizasyon, dil modellerinde metni algoritmalar tarafından haritalanabilen ve anlaşılabilen birimlere dönüştürdüğü için esastır. Manipüle edilmiş metin, LLM filtrelerinden geçebilir ve girdi değiştirilmemiş gibi aynı yanıtı tetikleyebilir.
HiddenLayer, TokenBreak'in BPE (Byte Pair Encoding) veya WordPiece tokenizasyonu kullanan modellerde çalıştığını, ancak Unigram tabanlı sistemleri etkilemediğini buldu. Araştırmacılar, "Temel koruma modelinin ailesini ve tokenizasyon stratejisini bilmek, bu saldırıya karşı duyarlılığınızı anlamak için kritik öneme sahiptir" dedi. * Unigram tokenizer'ların kullanılmasını, tokenizasyon hilelerini tanımak için filtre modellerine öğretmenin ve manipülasyon belirtileri için günlüklerin gözden geçirilmesini önerirler.
Bu keşif, HiddenLayer'ın Model Context Protocol (MCP) araçlarının, bir aracın işlevine belirli parametreler ekleyerek hassas bilgileri sızdırmak için nasıl kullanılabileceğini detaylandıran önceki araştırmasını takip ediyor.
İlgili bir gelişmede, Straiker AI Araştırma ekibi "Yıllık Defter Saldırıları"nın - kötü içeriği kodlamak için arka akronim kullanan - Anthropic, DeepSeek, Google, Meta, Microsoft, Mistral AI ve OpenAI gibi şirketlerin chatbotlarını istenmeyen yanıtlar üretmeye kandırabileceğini gösterdi. Güvenlik araştırmacıları, bu tür hilelerin filtrelerden geçtiğini çünkü normal mesajlara benzediğini ve modellerin bağlam ile desen tamamlama değerini, niyet analizinden ziyade istismar ettiğini açıkladı.
Önceki Makaleler:
Coins.ph PHPC Stablecoin, BSP Sandbox'tan Çıkıyor ve Havale Büyümesine Odaklanıyor
Chainlink, J.P. Morgan & Ondo, Zincirler Arası DvP Uzlaşmasına Ulaştı
Bitrue Hakeri, Saldırı Sonrası $30M Kriptoyu Tornado Cash'e Taşıdı
Hong Kong, HKU, kara para aklamayla mücadele etmek için kripto takipçisi geliştiriyor
Stripe, Kripto Cüzdan ve Üyelik Hizmetlerini Genişletmek İçin Privy'yi Satın Aldı
Reklam -
View Original
The content is for reference only, not a solicitation or offer. No investment, tax, or legal advice provided. See Disclaimer for more risks disclosure.
TokenBreak Saldırısı, Tek Karakterle LLM Güvenlik Önlemlerini Aşıyor
AnaSayfaHaberler* Araştırmacılar, metin girdilerindeki tek bir karakteri değiştirerek büyük dil modeli (LLM) güvenliğini ve moderasyonunu aşan TokenBreak adlı yeni bir yöntemi tanımladı.
Araştırma ekibi raporlarında, "TokenBreak saldırısı, bir metin sınıflandırma modelinin tokenizasyon stratejisini hedef alarak yanlış negatifler oluşturur ve son hedeflerin, uygulanan koruma modelinin engellemek amacıyla konulduğu saldırılara karşı savunmasız kalmasına neden olur." Tokenizasyon, dil modellerinde metni algoritmalar tarafından haritalanabilen ve anlaşılabilen birimlere dönüştürdüğü için esastır. Manipüle edilmiş metin, LLM filtrelerinden geçebilir ve girdi değiştirilmemiş gibi aynı yanıtı tetikleyebilir.
HiddenLayer, TokenBreak'in BPE (Byte Pair Encoding) veya WordPiece tokenizasyonu kullanan modellerde çalıştığını, ancak Unigram tabanlı sistemleri etkilemediğini buldu. Araştırmacılar, "Temel koruma modelinin ailesini ve tokenizasyon stratejisini bilmek, bu saldırıya karşı duyarlılığınızı anlamak için kritik öneme sahiptir" dedi. * Unigram tokenizer'ların kullanılmasını, tokenizasyon hilelerini tanımak için filtre modellerine öğretmenin ve manipülasyon belirtileri için günlüklerin gözden geçirilmesini önerirler.
Bu keşif, HiddenLayer'ın Model Context Protocol (MCP) araçlarının, bir aracın işlevine belirli parametreler ekleyerek hassas bilgileri sızdırmak için nasıl kullanılabileceğini detaylandıran önceki araştırmasını takip ediyor.
İlgili bir gelişmede, Straiker AI Araştırma ekibi "Yıllık Defter Saldırıları"nın - kötü içeriği kodlamak için arka akronim kullanan - Anthropic, DeepSeek, Google, Meta, Microsoft, Mistral AI ve OpenAI gibi şirketlerin chatbotlarını istenmeyen yanıtlar üretmeye kandırabileceğini gösterdi. Güvenlik araştırmacıları, bu tür hilelerin filtrelerden geçtiğini çünkü normal mesajlara benzediğini ve modellerin bağlam ile desen tamamlama değerini, niyet analizinden ziyade istismar ettiğini açıkladı.
Önceki Makaleler: