Сбежать из квест-комнаты или притвориться «кожаным мешком» — необычные бенчмарки для нейросетей
newsare.net
Мы в Beeline Cloud рассказывали о необычных бенчмарках для оценки больших языковых моделей (БЯМ) — например, когда нейросетям предлагают нарисоватСбежать из квест-комнаты или притвориться «кожаным мешком» — необычные бенчмарки для нейросетей
Мы в Beeline Cloud рассказывали о необычных бенчмарках для оценки больших языковых моделей (БЯМ) — например, когда нейросетям предлагают нарисовать пеликана на велосипеде или разобрать по косточкам шутку из британского юмористического шоу. Недавно в сети стал вирусным еще один тест, в котором чат-ботов просили ответить на простой вопрос — как лучше добраться до автомойки: пешком или на автомобиле? Задача с подвохом, и далеко не все модели с ней справляются. Сегодня расскажем о других необычных тестах, авторы которых пытаются «подловить» нейросети. Читать далее Read more












