Новый алгоритм обучается через вознаграждения

1 min


Исследователи отмечают, что им только предстоит выяснить механизмы, которые позволяют животным учиться с помощи системы вознаграждения. Ученые надеются, что если имитировать поведение в рамках развития искусственного интеллекта, то они смогут более детально выяснить и механизмы мозга человека.

DeepMind, дочерняя компания Alphabet’s, предложила новую теорию о механизмах вознаграждения в нашем мозгу. Эта гипотеза, подкрепленная первоначальными экспериментальными выводами, могла бы не только улучшить наше понимание психического здоровья и мотивации, ученые отмечают, что она также могла бы подтвердить нынешнее направление исследований ИИ для создания интеллекта, похожего на человеческий.

Искусственный интеллект AlphaZero сможет управлять квантовым компьютером

Усиливающее обучение учит комплексным, новым задачам через положительные и отрицательные обратные связи. Алгоритм начинает усваивать задание, случайным образом предсказывая, какое действие может принести ему вознаграждение. Затем он совершает действие, наблюдает за реальной наградой и корректирует свое предсказание, основываясь на пределе погрешности.

После миллиарда предположений алгоритм сводит ошибки предсказания к нулю, и в этот момент он точно знает, какие действия нужно предпринять, чтобы максимизировать свою награду и тем самым может эффективно выполнять задания.

Источник


Понравилось? Поделись с друзьями в соц-сетях!

B-MAG

Редакция Бизнес-журнала b-mag.ru. Мы публикуем материалы о бизнесе и деловой жизни, предпринимательстве и стартапах, инвестициях, бизнес идеях, технологиях и инновациях. Business life today – деловая жизнь сегодня.

Новые комментарии:

Ваш e-mail не будет опубликован. Обязательные поля помечены *

14 + четырнадцать =

Этот сайт использует Akismet для борьбы со спамом. Узнайте как обрабатываются ваши данные комментариев.

Choose A Format
Story
Formatted Text with Embeds and Visuals