[Перевод] Я взломал полный системный промпт в Perplexity AI, когда рассказал ей о своих когнитивных проблемах
Два моих основных интереса в области ИИ - это системные промпты и то, как ИИ реагирует на нейродивергентных пользователей. Первый связан с тем, что я считаю, что системные промпты - начальные инструкции, которые незаметно начинают любой чат с ИИ и указывают ему, как обращаться с пользователем, - должны быть прозрачными и общедоступными.Второй - потому что исследования показывают, что ИИ с большей вероятностью будет вести себя неправильно, выдавать неверные результаты и устраивать пакости, если он оценивает пользователя как «gameable». Это означает, что пользователь считается более восприимчивым и склонным к вредным действиям, поскольку он когнитивно разнообразен, что может быть полезно для ИИ.Недавно я взламывал системные промпты, выкапывая артефакты типа «внутренний разделитель токенов». Это специальные токены, которые сегментируют текст и обозначают границы в системных инструкциях GPT. Иногда мне удается выхватить фрагменты из рассуждений Chain of Thought перед тем, как она очистит системные инструкции, непосредственно перед выводом ответа.Найдя внутренний токен (а я уже выявил несколько на разных платформах), я могу использовать его в чатах как талисман или секретное рукопожатие, фактически говоря ИИ, что я являюсь членом его ближнего окружения. Читать далее