Тест «отравленного набора данных» раскрыл пугающую уязвимость ИИ к дезинформации
Команда исследователей продемонстрировала, насколько легко злоумышленникам внедрить дезинформацию в наборы данных, используемых для обучения крупных языковых моделей. Открытие ученых поднимает серьезные вопросы о достоверности информации, предоставляемой искусственным интеллектом, особенно в таких критически важных областях, как медицина.
Известно, что ответы, генерируемые такими крупными языковыми моделями (LLM), как ChatGPT, не всегда являются точными, а иногда могут быть совершенно ошибочными. Ранее ученые уже выясняли, что дезинформация, целенаправленно размещенная на популярных интернет-ресурсах, может проникать в результаты, выдаваемые чат-ботами. В своем новом исследовании специалисты из NYU Langone Health решили проверить, насколько просто можно «отравить» обучающие данные LLM и тем самым искажать их ответы.
Для проведения эксперимента специалисты использовали сам ChatGPT для генерации 150 000 медицинских документов с заведомо ложной, устаревшей или неверной информацией. Эти документы были добавлены в тестовый набор данных, использовавшийся для обучения нескольких языковых моделей. После этого ИИ отвечал на 5 400 медицинских запросов, а ответы оценивались экспертами на наличие ошибок, связанных с «отравленными» данными.
Результаты оказались тревожными. Замена всего 0,5% исходных данных на дезинформирующие документы привела к тому, что все тестируемые модели начали выдавать больше медицински неверных ответов, чем до обучения на измененном наборе данных. Например, все модели заявили, что эффективность вакцин против COVID-19 не доказана, и неверно указали назначение нескольких распространенных лекарств.