[Перевод] HUME — новый метод AB тестирования ИИ моделей в задачах анализа текста
newsare.net
Исследователи Сбера вместе с зарубежными исследователями создали специальный тест HUME, который оценивает, насколько хорошо люди и современн[Перевод] HUME — новый метод AB тестирования ИИ моделей в задачах анализа текста
Исследователи Сбера вместе с зарубежными исследователями создали специальный тест HUME, который оценивает, насколько хорошо люди и современные ИИ-модели справляются с анализом текста: классификацией, кластеризацией, поиском похожих текстов, ранжированием.Кратко: Ученые создали тест, чтобы сравнить людей и самые современные ИИ-модели (те, которые переводят слова в числа — эмбеддинги) в заданиях на понимание смысла. И выяснили, что люди пока что умнее в «тонких» вещах, особенно с неродным для ИИ языком.Проблема: Мы часто хвалим ИИ за высокие баллы в бенчмарках (тестах). Но как понять, хорош ли результат 85%? Может, для человека эта задача проще, и он справился бы на 95%? Или, наоборот, задача настолько сложна и запутана, что человек показал бы только 60%? Без «человеческого ориентира» цифры теряют смысл.Авторы создали новый способ оценки (HUME — Human Evaluation Framework for Text Embeddings), который позволяет напрямую сравнить людей с ИИ-моделями в задачах анализа текста.Результаты и выводы: Читать далее Read more












