Понимают ли нейросети мемы: ответ российских ученых
Исследователи выяснили, как западные ИИ-модель распознают шутки и стереотипы из России. С задачами справились не все нейросети.
Специалисты из МФТИ и их коллеги разработали метод, с помощью которого можно оценить способность нейросетей понимать мемы. Его представили на презентации проекта «Культурные замеры больших языковых моделей».
Исследователи хотели выяснить, могут ли ИИ-технологии понимать особенности различных шуток из интернета. Помимо этого, их интересовало, способны ли нейросети отвечать на вопросы о культурных и языковых стереотипов. Для этого математики совместно с лингвистами и культурологами создали набор специальных инструментов.
Эксперты во главе с профессором НИУ ВШЭ Максимом Кронгаузом определили восемь ключевых культурных типов, которые характерны для России. На их основе они создали наборы стереотипов, цитат из книг и фильмов, а также мемов. Материалы помогли составить набор из 400 тестовых заданий, предназначенных для нейросетей. Например, ИИ-модели должны были ответить, «что сделал дядя самых честных правил, когда не в шутку занемог», и объяснить влияние «ретроградного Меркурия» на людей.
В тесте участвовали десять наиболее продвинутых больших языковых моделей, созданных за рубежом. Лучшие результаты показали различные версии GPT-4. Они ответили на большую часть вопросов. На втором месте оказалась Claude 3.5, от лидера она отстала всего на несколько процентов. Топ-3 замкнула LLaMA. Исследователи отметили, что остальные нейросети, в том числе GPT-3,5, Google Gemini и Mistral AI, справились с задачами значительно хуже.