Страничка курса "Обучение с подкреплением и нейронные сети"

Курс посвящен методам обучения с подкреплением (Reinforcement learning) - одному из способов машинного обучения. В нем будет рассмотрена задача о создании систем, которые могли бы приспосабливаться к окружающей среде, а также обучаться на основе получаемого опыта. Такие задачи возникают во многих областях, включая информатику, технические науки, математику, физику, нейробиологию и когнитологию. В середине 2010-х годов методы обучения с подкреплением удалось эффективно применить для обучения глубоких нейронных сетей, что привело к ряду значимых результатов. В рамках спецкурса будут изложены основные методы обучения с подкреплением, приведены техники их успешного использования для глубоких нейронных сетей, рассмотрены примеры, предложены практические задания.

Лекции

Лекция 1. Введение в обучение с подкреплением. Метод Cross-Entropy (слайды/видео)

Лекция 2. Введение в нейронные сети. Deep Cross-Entropy Method (слайды/видео)

Лекция 3. Динамическое программирование (слайды/видео)

Лекция 4. Model-Free Reinforcement Learning (слайды/видео)

Лекция 5. Value Function Approximation (слайды/видео)

Лекция 6. Policy Gradient (слайды/видео)

Практики

Практика 1. Метод Cross-Entropy для решение Maze (код)

Практика 2. PyTorch и Deep Cross-Entropy (код 1/код 2/код 3/видео)

Практика 3. Решение Frozen Lake методами Policy Iteration и Value Iteration (код/видео)

Практика 4. Решение Taxi методами Monte-Carlo, SARSA и Q-Learning (код/видео)

Практика 5. Решение Cartpole методом DQN (код/видео)

Практика 6. Решение Pendulum методом DDPG (код/видео)

Домашние задания

Полезные ссылки

https://gym.openai.com/ Страничка библиотеки Gym для Python. В ней содержаться многие стандартные Environments для обучения с подкреплением.

https://github.com/MattChanTK/gym-maze Репозиторий сред c Maze

https://pytorch.org/ Сайт библиотеки PyTorch.

https://playground.tensorflow.org/ Страничка с хорошей визуализацией обучения нейронных сетей. Просто так :)

Видеолекции других курсов

A. Panin. Cross-Entropy Method. Короткая, но понятная лекция по применению метода Cross-Entropy к задачам обучения с подкреплением.

D. Silver. Introduction to Reinforcement Learning. Курс по Reinforcement Learning в University College London.

Литература

Р.С. Саттон, Э.Г. Барто. Обучение с подкреплением (1998). Уже ставшая классической монография по обучению с подкреплением.

C. Николенко, А. Кадурин, Е. Архангельская. Глубокое обучение. Погружение в мир нейронных сетей (2018). Пожалуй, единственная книга на русском, в которой последовательно и достаточно полно изложены основные моменты работы с нейронными сетями. Написана простым языком, но при этом включает в себя серьёзный обзор литературы со ссылками на первоисточники.

S. Mannor, R. Rubinstein, Y. Gat. The Cross-Entropy method for Fast Policy Search (2003). Статья про использование метода Cross-Entropy для оптимизации Policy в задачах обучения с подкреплением.

A. Costa, O. Jones, D. Kroese. Convergence properties of the cross-entropy method for discrete optimization (2007) В статье дается обоснование сходимости метода Cross-Entropy в задачах дискретной оптимизации. Однако, если пространство состояний и действий конечные, а среда детерминирована, то, кажется, задача Reinforcement Learning в рассматриваемую постановку задачи дискретной оптимизации вкладывается.

G. Cybenko. Approximation by Superpositions of a Sigmoidal Function (1989). Теорема Цыбенко об аппроксимации непрерывных функций суперпозициями сигмоидальных функций (считай нейронными сетями).

V. Mnih at el. Playing Atari with Deep Reinforcement Learning (2013). Статья про алгоритм DQN в приложении к играм Atari.

H. Van Hasselt, A. Guez, D. Silver. Deep Reinforcement Learning with Double Q-Learning (2016). Статья про алгоритм Double DQN.

S. Gu, T. Lillicrap, I. Sutskever, S. Levine. Continuous Deep Q-Learning with Model-based Acceleration (2016). Статья про алгоритм Continuous DQN.

D. Silver at el. Deterministic Policy Gradient Algorithms David (2014). Статья, в которой доказывается Deterministic Policy Gradient Theorem и приводится Deterministic Policy Gradient Algorithm.

T. Lillicrap at el. Continuous control with deep reinforcement learning (2016) Статья про алгоритм DDPG.

V. Mnih at el. Asynchronous Methods for Deep Reinforcement Learning (2016). Статья про асинхронный подход для решения задач Reinforcement Learning.

Cheap and reliable Node.js hosting starts at $3/month, and $1/month static HTML hosting

imm-rl-lab / RL_course

Programming Languages

Labels

Projects that are alternatives of or similar to RL course