Атака TokenBreak обхід заходів безпеки LLM з одним символом

ГоловнаНовини* Дослідники виявили новий метод під назвою TokenBreak, який обминає безпеку та модерацію великих мовних моделей (LLM), змінюючи один символ у текстових ввідних даних.

  • Атака націлена на те, як LLM розбивають текст (токенізація), що призводить до того, що фільтри безпеки пропускають небезпечний контент, незважаючи на незначні зміни у словах.
  • Цей підхід працює шляхом внесення невеликих змін, таких як додавання літери, що зберігає значення для людей та LLM, але плутає систему виявлення моделі.
  • Атака є ефективною проти моделей, що використовують токенізацію BPE або WordPiece, але не проти тих, що використовують токенізатори Unigram.
  • Експерти радять перейти на токенізатори Unigram та навчати моделі проти цих стратегій обходу, щоб зменшити вразливість. Експерти з кібербезпеки виявили новий метод, відомий як TokenBreak, який може обійти захисні механізми, які використовуються великими мовними моделями для перевірки та модерації небезпечного контенту. Цей підхід працює шляхом внесення невеликої зміни — наприклад, додавання одного символу — до певних слів у тексті, що призводить до збою фільтрів безпеки моделі.
  • Реклама - Згідно з дослідженням HiddenLayer, TokenBreak маніпулює процесом токенізації, основним етапом, коли LLM розбивають текст на менші частини, які називаються токенами для обробки. Змінюючи таке слово, як «інструкції» на «інструкції» або «ідіот» на «хідіот», текст залишається зрозумілим як для людей, так і для штучного інтелекту, але перевірки безпеки системи не розпізнають шкідливий контент.

Дослідницька група пояснила у своєму звіті, що «атака TokenBreak націлена на стратегію токенізації моделі текстової класифікації, щоб викликати помилкові негативні результати, залишаючи кінцеві цілі вразливими до атак, для запобігання яким була введена впроваджена модель захисту». * Токенізація має важливе значення в мовних моделях, оскільки вона перетворює текст на одиниці, які можуть бути відображені та зрозумілі алгоритмами. Оброблений текст може проходити через фільтри LLM, викликаючи таку ж реакцію, як якщо б вхідні дані були незмінені.

HiddenLayer виявив, що TokenBreak працює на моделях, що використовують BPE (Byte Pair Encoding) або токенізацію WordPiece, але не впливає на системи, засновані на Unigram. Дослідники зазначили: "Знання сім'ї основної моделі захисту та її стратегії токенізації є критично важливим для розуміння вашої вразливості до цієї атаки." Вони рекомендують використовувати токенізатори Unigram, навчати фільтрові моделі розпізнавати трюки токенізації та переглядати журнали на наявність ознак маніпуляцій.

Відкриття відбулося після попередніх досліджень HiddenLayer, що деталізують, як інструменти Модельного Контекстного Протоколу (MCP) можуть бути використані для витоку чутливої інформації шляхом вставлення специфічних параметрів у функцію інструмента.

У пов'язаному розвитку команда дослідників AI Straiker продемонструвала, що "Атаки на річники" — які використовують бекроніми для кодування поганого контенту — можуть обманювати чат-ботів таких компаній, як Anthropic, DeepSeek, Google, Meta, Microsoft, Mistral AI та OpenAI, змушуючи їх давати небажані відповіді. Дослідники безпеки пояснили, що такі трюки проходять через фільтри, оскільки вони нагадують нормальні повідомлення та експлуатують те, як моделі оцінюють контекст і завершення шаблонів, а не аналіз намірів.

Попередні статті:

  • Coins.ph PHPC Stablecoin вийшов з пісочниці BSP, націлений на зростання грошових переказів
  • Chainlink, J.P. Morgan & Ondo досягають міжмережевих DvP розрахунків
  • Хакер Bitrue перевів $30M у криптовалюті до Tornado Cash після експлуатації
  • Гонконг, HKU розробляють трекер криптовалюти для боротьби з відмиванням грошей
  • Stripe придбав Privy для розширення послуг криптовалютного гаманця та onboarding
  • Реклама -
Переглянути оригінал
Контент має виключно довідковий характер і не є запрошенням до участі або пропозицією. Інвестиційні, податкові чи юридичні консультації не надаються. Перегляньте Відмову від відповідальності , щоб дізнатися більше про ризики.
  • Нагородити
  • Прокоментувати
  • Поділіться
Прокоментувати
0/400
Немає коментарів
  • Закріпити