USD
99.23
-0.38
EUR
103.3
-0.64
Категория: Наука и технологииНаука и технологии
22 августа 2023 г. в 10:59

SPJ: Учёными из Токио разработана система для борьбы с многоруким бандитом

SPJ: Учёными из Токио разработана система для борьбы с многоруким бандитом
gelento.ru
Недавнее исследование, проведенное международной группой ученых под руководством Хироаки Синкавы из Токийского университета, предлагает новую схему фотонного обучения с подкреплением, которая поможет игрокам максимизировать свои выигрыши в игровых автоматах.
Эта идея основана на задаче обучения с подкреплением, известной как "многорукий бандит", где агенты принимают решения, чтобы получить вознаграждение.
Исследователи разработали улучшенную модель фотонного обучения с подкреплением, которая позволяет перейти от статической задачи до более сложной динамической среды. Основу схемы составляют фотонная система, способствующая более эффективному обучению, и модифицированный алгоритм бандитского Q-обучения.
Источник: rulettet.titanpoker-official.ru
Источник: rulettet.titanpoker-official.ru
Эффективность предложенной схемы была подтверждена численным моделированием, а также тестированием в параллельной архитектуре, где несколько агентов работали одновременно. Открытием стало использование квантовой интерференции фотонов для предотвращения конфликтующих решений и ускорения процесса обучения.
Хотя квантовая интерференция фотонов не нова в этой области, исследователи впервые изучили ее связь с Q-обучением и применили это в динамической среде. В основе исследования лежит модель сетчатого мира, где агенты могут перемещаться по ячейкам и получать вознаграждение в зависимости от своего положения. Используя моделирование на сетке 5x5 ячеек, исследователи разработали процесс принятия решений, который рассматривал каждую пару "состояние-действие" как игровой автомат, а изменения Q-значений этой пары считались вознаграждением.
Источник: apkpure.com
Источник: apkpure.com
Модифицированный бандитский алгоритм Q-обучения, предложенный исследователями, фокусируется на эффективном и точном обучении оптимальных значений Q для каждой пары "состояние-действие" во всей среде. Агентам необходимо находить баланс между изучением уже знакомых пар с высокими значениями Q для ускорения обучения и исследованием редко встречающихся пар для возможно более высоких значений. В качестве политики использовался алгоритм softmax для достижения необходимого баланса.
Первоочередной задачей авторов является создание фотонной системы, которая позволит агентам принимать решения без конфликтов при участии нескольких агентов. Они также планируют разработать алгоритмы, чтобы агенты могли действовать непрерывно, и применить свой алгоритм бандитского Q-обучения к более сложным задачам обучения с подкреплением.
Источник: Science Partner Journal.
0 комментариев