На информационном ресурсе применяются рекомендательные технологии (информационные технологии предоставления информации на основе сбора, систематизации и анализа сведений, относящихся к предпочтениям пользователей сети "Интернет", находящихся на территории Российской Федерации)

Хайтек+

23 подписчика

Свежие комментарии

  • Иван Вакула
    В России после распада СССР и стараниями либеральной власти образование перевели на западные методики, что из этого п...Различия в успева...
  • Aleksandr Antonov
    Мы 33 цивилизация на земле, так что не надо, люди вобще появились более 1000000 назад. Но не однократно уничтожали ь ...Заселение Северно...

Пионеры обучения с подкреплением получили премию Тьюринга

Главной разработкой, которую отметило жюри премии, стало обучение с учетом временной разницы (temporal difference learning, TD-learning). Этот алгоритм позволяет программам корректировать своё поведение не после завершения серии действий, а сразу после каждого отдельного шага. Раньше алгоритмы обучения требовали ждать результата до конца задачи, что сильно замедляло процесс обучения.

Барто и Саттон предложили более быстрый способ: сразу учитывать промежуточные результаты, чтобы быстрее настраивать стратегию.

Этот подход оказался особенно эффективным в изменчивой среде, где нужно принимать быстрые решения. Благодаря TD-learning ИИ научился действовать гибко в нестабильных и непредсказуемых условиях. Сегодня эту методику активно применяют в робототехнике, беспилотном транспорте и играх.

Барто и Саттон не ограничились созданием отдельного алгоритма. Они заложили теоретический фундамент для дальнейших исследований обучения с подкреплением. В 1998 году учёные опубликовали знаковый учебник «Обучение с подкреплением: введение» («Reinforcement Learning: An Introduction»). Эта книга стала настольной для тысяч специалистов, работающих с ИИ.

Их разработки стали основой для ряда прорывных проектов последних лет. Например, именно обучение с подкреплением лежит в основе нейросети AlphaGo от компании Google DeepMind. В 2016 году этот ИИ впервые победил профессиональных игроков в древнюю игру го. Совсем недавно китайская компания DeepSeek также использовала принципы обучения с подкреплением при создании своей модели R1.

Премия Тьюринга присуждается Ассоциацией вычислительной техники (ACM).

Ее часто называют Нобелевской премией по информатике. Сама Нобелевская премия в последнее время тоже выходит за традиционные рамки и активно включает исследования искусственного интеллекта. В прошлом году лауреатами Нобелевской премии по физике стали Джеффри Хинтон и Джон Хопфилд за фундаментальные работы в области ИИ. Вскоре после этого Демис Хассабис и Джон Джампер из DeepMind получили Нобелевскую премию по химии за создание AlphaFold.

Президент ACM Яннис Иоаннидис https://techcrunch.com/2025/03/05/ai-pioneers-scoop-turing-a..., что разработка Барто и Саттона основана на идеях из когнитивной науки, психологии и нейробиологии. Их работа не устарела и не стала проходным этапом. По его словам, обучение с подкреплением сегодня продолжает активно развиваться и способно привести к важным открытиям не только в информатике, но и в других областях науки.

Размер премии Тьюринга в 2024 году составляет $1 млн. Барто и Саттон разделят эту сумму пополам. Денежную часть награды спонсирует компания Google. Среди известных получателей премии Тьюринга прошлых лет — главный научный сотрудник Meta Янн ЛеКун. В 2018 году он получил награду вместе с Джеффри Хинтоном и Йошуа Бенжио за разработки в области глубоких нейронных сетей.

 

Ссылка на первоисточник
наверх
Новости СМИ2