Разработчики регулярно называют свои новые ИИ-модели «самыми умными» — и приводят доказательства. Но как действительно понять, кто лучше? . В этом помогают специальные тесты, хотя и они не идеальны
Выход каждой новой модели искусственного интеллекта, как правило, сопровождается уверениями разработчиков, что это самая умная, быстрая, и полезная система, которую они когда-либо создавали. Конечно, некоторые показатели качества действительно можно изучить — например, количество галлюцинаций. И тем не менее, многие утверждения со стороны кажутся простым хвастовством. Как определить, что модель лучше структурирует ответы, чем ее предшественницы и конкуренты? Как сравнить эффективность в той или иной области применения? Как понять, что система стала лучше понимать инструкции? Ответы на эти вопросы позволяют найти бенчмарки. «Медуза» рассказывает, как они устроены и почему их выводам не всегда стоит верить.