[Перевод] HUME — новый метод AB тестирования ИИ моделей в задачах анализа текста

World Science News

newsare.net

Исследователи Сбера вместе с зарубежными исследователями создали специальный тест HUME, который оценивает, насколько хорошо люди и современн�

[Перевод] HUME — новый метод AB тестирования ИИ моделей в задачах анализа текста

Исследователи Сбера вместе с зарубежными исследователями создали специальный тест HUME, который оценивает, насколько хорошо люди и современные ИИ-модели справляются с анализом текста: классификацией, кластеризацией, поиском похожих текстов, ранжированием.Кратко: Ученые создали тест, чтобы сравнить людей и самые современные ИИ-модели (те, которые переводят слова в числа — эмбеддинги) в заданиях на понимание смысла. И выяснили, что люди пока что умнее в «тонких» вещах, особенно с неродным для ИИ языком.Проблема: Мы часто хвалим ИИ за высокие баллы в бенчмарках (тестах). Но как понять, хорош ли результат 85%? Может, для человека эта задача проще, и он справился бы на 95%? Или, наоборот, задача настолько сложна и запутана, что человек показал бы только 60%? Без «человеческого ориентира» цифры теряют смысл.Авторы создали новый способ оценки (HUME — Human Evaluation Framework for Text Embeddings), который позволяет напрямую сравнить людей с ИИ-моделями в задачах анализа текста.Результаты и выводы: Читать далее Read more

Facebook Twitter

03:30 08.05.2026

300만 훌쩍 넘긴 프리더스트 ‘언더다크: 디펜스’, “다음 목표는 중국 HTML5 시장”

newsare.net

“좋은 게임을 만들어줘서 고맙다며 이용자가 직접 두바이 쫀득 쿠키를 만들어 선물로 보내왔어요. 굉장히 뜻깊었던 일로, 저희의 독특한 아트 스타일이 이용자들이 게임에 빠져들게 만드는 힘이

300만 훌쩍 넘긴 프리더스트 ‘언더다크: 디펜스’, “다음 목표는 중국 HTML5 시장”

“좋은 게임을 만들어줘서 고맙다며 이용자가 직접 두바이 쫀득 쿠키를 만들어 선물로 보내왔어요. 굉장히 뜻깊었던 일로, 저희의 독특한 아트 스타일이 이용자들이 게임에 빠져들게 만드는 힘이라고 생각합니다.”프리더스트의 모바일 디펜스 게임 ‘언더다크: 디펜스’(이하 언더다크)는 소규모 개발팀의 빠른 실행력과 지표 중심 운영이 만든 성과를 보여주는 작품이다. 정승호 대표와 디자이너, 단 두 명이 약 6개월 동안 개발해 서비스에 돌입했으며, 지난해 기준 300만 다운로드를 넘어섰다. 기자와 만나 인터뷰를 진행한 시점에는 350만 다운로드에 가까워지고 있었다.프리더스트 정승호 대표의 설명에 따르면 ‘언더다크’의 개발은 2024년 1월 1일 시작됐다. 같은 해 7월 출시까지 걸린 시간은 약 6개월이었다. 두 사람이 6개월 만에 개발을 완료하고 서비스를 시작했으며, 이후 지표를 기반으로 한 마케팅 구조를 구축해 안정적인 서비스 기반을 마련했다.‘언더다크’의 출발점은 장르에 대한 재해석이었다.

World and Local News

World Science News

[Перевод] HUME — новый метод AB тестирования ИИ моделей в задачах анализа текста

newsare.net

[Перевод] HUME — новый метод AB тестирования ИИ моделей в задачах анализа текста

300만 훌쩍 넘긴 프리더스트 ‘언더다크: 디펜스’, “다음 목표는 중국 HTML5 시장”

newsare.net

300만 훌쩍 넘긴 프리더스트 ‘언더다크: 디펜스’, “다음 목표는 중국 HTML5 시장”

어르신에게 듣는 즐거움을, 제이디솔루션 청력보조 스피커 하룬제 기증 현장 가 보니

newsare.net

어르신에게 듣는 즐거움을, 제이디솔루션 청력보조 스피커 하룬제 기증 현장 가 보니

Тёмные лошадки IT: пять человек, которые определяют индустрию, но о которых мало кто слышал

newsare.net

Тёмные лошадки IT: пять человек, которые определяют индустрию, но о которых мало кто слышал

Как устроено взыскание дебиторской задолженности в арбитражном суде: сроки, этапы и узкие места процесса

newsare.net

Как устроено взыскание дебиторской задолженности в арбитражном суде: сроки, этапы и узкие места процесса

Математический анализ для разработчика: что действительно нужно понимать

newsare.net

Математический анализ для разработчика: что действительно нужно понимать

Модуль collections в Python: ваш чит-код для решения алгоритмических задач

newsare.net

Модуль collections в Python: ваш чит-код для решения алгоритмических задач

“환자 419명 분석…응급간이식 생존율 82% 확보”

newsare.net

“환자 419명 분석…응급간이식 생존율 82% 확보”

한국항공대 “방산 SW 인재, 총장배 2026 AI 파일럿 탑건 챌린지 도전하라”

newsare.net

한국항공대 “방산 SW 인재, 총장배 2026 AI 파일럿 탑건 챌린지 도전하라”

경희대 GRRC센터, 유연한 반도체 소재 활용한 차세대 에너지 수확 기술 개발

newsare.net

경희대 GRRC센터, 유연한 반도체 소재 활용한 차세대 에너지 수확 기술 개발

Как ускорить поиск фраз в Manticore Search

newsare.net

Как ускорить поиск фраз в Manticore Search

Rust и Docker

newsare.net

Rust и Docker

Скрипач не нужен: Выживут ли музыканты в эпоху нейронок?

newsare.net

Скрипач не нужен: Выживут ли музыканты в эпоху нейронок?

“얼굴 작아 보이려 귀까지”…외신도 주목한 한국 ‘엘프 귀’ 열풍

newsare.net

“얼굴 작아 보이려 귀까지”…외신도 주목한 한국 ‘엘프 귀’ 열풍

“완전 대혈관 전위 환자 수술후 30년 생존율 90%”

newsare.net

“완전 대혈관 전위 환자 수술후 30년 생존율 90%”

Психологический фундамент для ИИ-трансформации: как HR-проект стал драйвером новой линейки услуг

newsare.net

Психологический фундамент для ИИ-трансформации: как HR-проект стал драйвером новой линейки услуг

Технотекст 8: длинные списки превращаются в элегантные шорт-листы

newsare.net

Технотекст 8: длинные списки превращаются в элегантные шорт-листы

Я созидатель, а ты ССД #1

newsare.net

Я созидатель, а ты ССД #1

Невидимый враг многопоточности: False Sharing и кэш-линии процессора

newsare.net

Невидимый враг многопоточности: False Sharing и кэш-линии процессора

Как Сетунь обогнала время и проиграла кремнию

newsare.net

Как Сетунь обогнала время и проиграла кремнию

금속 많이 섞을수록 더 균일… KAIST ‘나노 입자 역설’ 풀었다

newsare.net

금속 많이 섞을수록 더 균일… KAIST ‘나노 입자 역설’ 풀었다

“햄스터 세포 너무 비싸”… 계란으로 항암제 만든다

newsare.net

“햄스터 세포 너무 비싸”… 계란으로 항암제 만든다

Fail2Ban больше не нужен? Разбираем PerSourcePenalties в OpenSSH на Ubuntu 26.04

newsare.net

Fail2Ban больше не нужен? Разбираем PerSourcePenalties в OpenSSH на Ubuntu 26.04

Вайб-кодинг или лудомания?

newsare.net

Вайб-кодинг или лудомания?

«Концевой эффект» атомной энергетики СССР. Трагедия Чернобыля-40 лет спустя (окончание)

newsare.net

«Концевой эффект» атомной энергетики СССР. Трагедия Чернобыля-40 лет спустя (окончание)

Как не перепутать мечту, портфолио и вторую работу

newsare.net

Как не перепутать мечту, портфолио и вторую работу