А если агенту не платить? Альтернативная механика обучения с подкреплением

World Science News

newsare.net

В машинном обучении есть такой метод - обучение с подкреплением (reinforcement learning, RL), который используется для решения задач последовательного пр

А если агенту не платить? Альтернативная механика обучения с подкреплением

В машинном обучении есть такой метод - обучение с подкреплением (reinforcement learning, RL), который используется для решения задач последовательного принятия решений. В этом методе агент на каждом шаге взаимодействует со средой, изменяя её. Обратной связью для него является некая искусственно сконструированная награда, которая выдаётся на каждой итерации взаимодействия. Основная проблема в том, что действие и награда напрямую не коррелируют. Часто, награда назначается за какое-то финальное достижение, которого можно достичь только выполнив определенную последовательность действий с нулевым или даже отрицательным вознаграждением. Существуют различные способы «протянуть» награду вдоль всей траектории, чтобы в конце концов агент осваивал более-менее приемлемую стратегию поведения.Удивительно, но обучение с подкреплением никак не использует информацию о том, какие изменения происходят в среде в результате выбранного агентом действия, а только скалярную величину награды. В этом небольшом эксперименте, мы хотим проверить, может ли эта информация как-то быть обработана и использована для построения стратегии агента. Читать далее Read more

Facebook Twitter

20:15 02.03.2026

Китайские ученые разработали гибридную систему связи для сетей 6G

newsare.net

Специалисты из Пекинского университета, лаборатории Пэнчэн, Шанхайского технологического университета и Национального инновационного цен

Китайские ученые разработали гибридную систему связи для сетей 6G

Специалисты из Пекинского университета, лаборатории Пэнчэн, Шанхайского технологического университета и Национального инновационного центра оптоэлектроники создали систему, поддерживающую одновременную передачу сигнала по оптоволокну и по воздуху.

World and Local News

World Science News

А если агенту не платить? Альтернативная механика обучения с подкреплением

newsare.net

А если агенту не платить? Альтернативная механика обучения с подкреплением

Китайские ученые разработали гибридную систему связи для сетей 6G

newsare.net

Китайские ученые разработали гибридную систему связи для сетей 6G

“생존율 낮은 췌장암, 조기 발견과 수술 가부가 치료 관건”

newsare.net

“생존율 낮은 췌장암, 조기 발견과 수술 가부가 치료 관건”

오창에 ‘꿈의 현미경’ 구축… 방사광가속기 7월 첫 삽

newsare.net

오창에 ‘꿈의 현미경’ 구축… 방사광가속기 7월 첫 삽

박용근 KAIST 교수, 바이오포토닉스 최고 권위상

newsare.net

박용근 KAIST 교수, 바이오포토닉스 최고 권위상

Фишинг под видом Meta: SPF pass, DKIM pass, входящие Gmail

newsare.net

Фишинг под видом Meta: SPF pass, DKIM pass, входящие Gmail

MQTT: доставка при потере связи

newsare.net

MQTT: доставка при потере связи

Пусть ваш AI пишет тесты. Имба, о которой не знает ни один вайбкодер

newsare.net

Пусть ваш AI пишет тесты. Имба, о которой не знает ни один вайбкодер

[Перевод] Если вы умеете делать хороший code review, вы умеете работать с AI-агентами

newsare.net

[Перевод] Если вы умеете делать хороший code review, вы умеете работать с AI-агентами

sudo исполняется 45. Вашему контейнеру — всё равно

newsare.net

sudo исполняется 45. Вашему контейнеру — всё равно

Как подключить ИБП Энергия Smart к мониторингу NUT

newsare.net

Как подключить ИБП Энергия Smart к мониторингу NUT

Gemini 3.1 Pro vs Claude Opus 4.6 – сравнение февральских новинок

newsare.net

Gemini 3.1 Pro vs Claude Opus 4.6 – сравнение февральских новинок

[Перевод] Рукописные заметки Галилея найдены в древнем астрономическом тексте

newsare.net

[Перевод] Рукописные заметки Галилея найдены в древнем астрономическом тексте

Почему ты не можешь просто начать меньше есть, чтобы снизить вес? Или как добиться эффекта Оземпика без Оземпика

newsare.net

Почему ты не можешь просто начать меньше есть, чтобы снизить вес? Или как добиться эффекта Оземпика без Оземпика

Больше моделей, больше возможностей: зачем мы вводим подписки в Kodacode

newsare.net

Больше моделей, больше возможностей: зачем мы вводим подписки в Kodacode

[Перевод] Люди против нейросетей: как Сэм Альтман обесценивает человеческий интеллект

newsare.net

[Перевод] Люди против нейросетей: как Сэм Альтман обесценивает человеческий интеллект

WYSIWYG редактор хабра — баг репорт

newsare.net

WYSIWYG редактор хабра — баг репорт

Соли лития затормозили развитие нарушений вербальной памяти

newsare.net

Соли лития затормозили развитие нарушений вербальной памяти

Минимальный продакшн-шаблон для Next.js приложения

newsare.net

Минимальный продакшн-шаблон для Next.js приложения

Дженерики в Go: три года спустя

newsare.net

Дженерики в Go: три года спустя

Нас дурят маркетологи?! Или задушенный flow ratio

newsare.net

Нас дурят маркетологи?! Или задушенный flow ratio

QA метрики как база управленческих решений

newsare.net

QA метрики как база управленческих решений

[Перевод] Пульсар вблизи центра Млечного Пути — идеальная площадка для проверки общей теории относительности

newsare.net

[Перевод] Пульсар вблизи центра Млечного Пути — идеальная площадка для проверки общей теории относительности

Не Vibe-Coding, а инженерия с AI: как я за полгода сделал Android-приложение: социальный трекер привычек

newsare.net

Не Vibe-Coding, а инженерия с AI: как я за полгода сделал Android-приложение: социальный трекер привычек

Бюджета нет — но вы держитесь

newsare.net

Бюджета нет — но вы держитесь

과거 통화 뒤져 아내 요리법 찾고… “출장” 전화에 짐 챙기는 로봇

newsare.net

과거 통화 뒤져 아내 요리법 찾고… “출장” 전화에 짐 챙기는 로봇

«Революционный темперамент. Париж в 17481789 годах»

«Революционный темперамент. Париж в 17481789 годах»