На информационном ресурсе применяются рекомендательные технологии (информационные технологии предоставления информации на основе сбора, систематизации и анализа сведений, относящихся к предпочтениям пользователей сети "Интернет", находящихся на территории Российской Федерации)

Хайтек+

23 подписчика

Свежие комментарии

  • Цуркан Арк
    Сказки, на три недели, а потом полгода жечь щепу?В Финляндии подкл...
  • Иван Вакула
    В России после распада СССР и стараниями либеральной власти образование перевели на западные методики, что из этого п...Различия в успева...

Ученые обнаружили в мозге встроенный таймер удовольствия

Вентральная область покрышки (ПОВ) важна для мотивации и системы вознаграждения мозга. Это небольшое скопление нейронов выступает основным источником дофамина — нейромодулятора, который отправляется в другие зоны мозга, чтобы вызвать реакцию на приятный стимул. Изначально считалось, что ПОВ — это просто «центр вознаграждения».

Однако в 1990-х годах учёные выяснили: эта область кодирует не само вознаграждение, а его предвкушение.

Эксперименты на животных показали, что если за световым сигналом всегда следовало вознаграждение, то со временем ПОВ начинала выделять дофамин не в момент получения награды, а сразу при появлении сигнала. Это «обучение с подкреплением» требует минимального контроля и играет ключевую роль в обучении человека. На этом же принципе основаны многие алгоритмы искусственного интеллекта, которые улучшают свою работу через тренировки.

В новом исследовании учёные выяснили, что кодирование информации в ПОВ ещё сложнее, чем предполагалось ранее. Вместо того чтобы просто предсказывать общую сумму будущих вознаграждений, она прогнозирует их временную динамику. Это означает, что каждое ожидаемое вознаграждение представляется отдельно, с указанием точного момента, когда оно должно произойти.

Известно, что нейроны этой области предпочитают ближайшие вознаграждения. Однако исследование показало, что разные нейроны работают в разных временных масштабах: одни фокусируются на награде через секунды, другие — через минуты, третьи — на более далекой перспективе. Именно это разнообразие позволяет точно кодировать время вознаграждения.

Такая детализация даёт системе обучения высокую гибкость, позволяя ей добиваться как немедленных, так и отложенных целей.

Эти открытия — результат сотрудничества нейронауки и искусственного интеллекта. Исследователи разработали алгоритм, учитывающий время обработки вознаграждения, и применили его к данным активности вентральной области у животных. Результаты идеально совпали с эмпирическими выводами.

 

Ссылка на первоисточник
наверх
Новости СМИ2