USD
102.41
+0.04
EUR
104.86
-0.95
Категория: AI и робототехникаAI и робототехника
13 июня 2023 г. в 20:17

Новая математическая модель: наказания и награды учат ИИ принимать правильные решения

Новая математическая модель: наказания и награды учат ИИ принимать правильные решения
cdto.work
В новой диссертации по математике, автором которой является Бьорн Линденберг, представлено новое исследование о том, как обучение с подкреплением в области искусственного интеллекта может быть применено для разработки эффективных стратегий автономного принятия решений в различных областях.
С помощью систем вознаграждений можно разработать механизмы, которые укрепляют правильное поведение, такие как оптимальные стратегии ценообразования для финансовых инструментов или управление роботами и сетевым трафиком. Информация об этом размещена в журнале Tech Xplore.
Обучение с подкреплением является составной частью области искусственного интеллекта, где агент, принимающий цифровые решения, изучает, как принимать решения, взаимодействуя со своей средой и получая вознаграждения или наказания в зависимости от эффективности своих действий.
В процессе обучения агент взаимодействует со средой, получает обратную связь на основе своих действий и получает вознаграждения или наказания. Через максимизацию вознаграждений и минимизацию наказаний, искусственный интеллект постепенно учится выполнять желаемые действия и улучшать свою производительность в данной задаче.
"Мои исследования сосредоточены на обучении усилению, где агент помещается в среду. Агент наблюдает за состоянием окружающей среды на каждом шагу, подобно тому, как мы, люди, воспринимаем наше окружение. Это может быть, например, положение шахматной доски, входящие видеоматериалы, промышленные данные или данные датчиков от робота", - говорит Бьорн Линденберг, доктор философии по математике на факультете математики Университета Линнея.
Обучение с подкреплением направлено на развитие самостоятельного принятия решений искусственным интеллектом. Его цель заключается в создании алгоритмов и моделей, которые помогают агенту принимать оптимальные решения. Для достижения этой цели исследуются алгоритмы, которые учитывают предыдущий опыт агента и постепенно улучшают его производительность с течением времени.
Обучение с подкреплением имеет множество применений, включая теорию игр, робототехнику, финансовый анализ и управление промышленными процессами. В каждой из этих областей обучение с подкреплением может быть полезным инструментом для разработки эффективных стратегий и принятия оптимальных решений на основе накопленного опыта.
"Агент принимает решения, выбирая действие из списка вариантов, таких как перемещение шахматной фигуры или управление движением робота. Затем эти варианты могут повлиять на окружающую среду и создать новую игровую ситуацию в шахматах или обеспечить новые значения датчиков для робота", - говорит Бьорн Линденберг.
Источник: techxplore.com
Источник: techxplore.com
В своей диссертации Бьорн Линденберг представил модель глубокого обучения с использованием нескольких параллельных агентов, которая способна улучшить процесс обучения, делая его более надежным и эффективным. Он также исследовал важность количества итераций, то есть повторных попыток, необходимых для достижения стабильности и оптимальной работы системы.
"Обучение с глубоким усилением развивается теми же темпами, что и другие технологии искусственного интеллекта, то есть очень быстро. Это в значительной степени связано с экспоненциально увеличением аппаратной емкости, что означает, что компьютеры становятся все более и более мощными, наряду с новым пониманием сетевых архитектур", - продолжает Линденберг.
С ростом сложности приложений, требуется более продвинутая математика и глубокое обучение для эффективного обучения с подкреплением. Эта потребность стимулирует развитие понимания существующих проблем и поиск новых алгоритмов, которые могут быть применены в данной области.
"Методы, представленные в диссертации, могут быть включены в различные приложения искусственного интеллекта для принятия решений, которые, независимо от того, осознаем мы это или нет, становятся все более распространенной частью нашей повседневной жизни", - заключает Линденберг.
0 комментариев