newsare.net
В июне этого года на arXiv вышла работа «InfoFlood: Jailbreaking Large Language Models with Information Overload» В исследовании авторы обнаружили новую уязвимость в системах бInfoFlood: как информационная перегрузка превращается в универсальный джейлбрейк для LLM
В июне этого года на arXiv вышла работа «InfoFlood: Jailbreaking Large Language Models with Information Overload» В исследовании авторы обнаружили новую уязвимость в системах безопасности больших языковых моделей: когда вредоносный запрос перегружается сложной лингвистической структурой, фильтры безопасности перестают его распознавать, хотя сама модель продолжает понимать суть и выдаёт вредоносный ответ.В отличие от большинства существующих джейлбрейков, InfoFlood не использует префиксов, суффиксов или шаблонных триггеров. Вместо этого он полностью переписывает запрос, сохраняя его вредоносное намерение, но маскируя его за избыточной информацией, уточнениями и гипотетическими сценариями. Авторы называют это «информационной перегрузкой» (Information Overload). Читать далее Read more











