EITC/AI/ARL 高级强化学习是针对 DeepMind 人工智能强化学习方法的欧洲 IT 认证计划。
EITC/AI/ARL 高级强化学习的课程重点是从 DeepMind 的角度来看强化学习技术的理论方面和实践技能,其结构如下,包含全面的视频教学内容,作为本次 EITC 认证的参考。
强化学习(RL)是机器学习的一个领域,与智能代理应如何在环境中采取行动以最大化累积奖励的概念有关。 除了监督学习和无监督学习,强化学习是三种基本的机器学习范式之一。
强化学习与监督学习的不同之处在于,不需要呈现带标签的输入/输出对,也不需要显式纠正次优动作。 相反,重点是在探索(未知领域)和利用(当前知识)之间找到平衡。
环境通常以马尔可夫决策过程(MDP)的形式陈述,因为针对此情况的许多强化学习算法都使用动态编程技术。 经典动态规划方法和强化学习算法之间的主要区别在于,后者不假设MDP的精确数学模型的知识,并且针对无法采用精确方法的大型MDP。
由于其通用性,强化学习在许多学科中得到了研究,例如博弈论,控制论,运筹学,信息论,基于仿真的优化,多智能体系统,群体智能和统计。 在运筹学和控制文献中,强化学习称为近似动态规划或神经动力学规划。 强化学习中感兴趣的问题也已经在最优控制理论中进行了研究,该理论主要涉及最优解的存在和特征,最优解的算法以及精确求解的算法,而很少涉及学习或逼近,特别是在缺少最优解时。环境的数学模型。 在经济学和博弈论中,强化学习可以用来解释在有限理性下平衡如何产生。
基本强化被建模为马尔可夫决策过程(MDP)。 在数学中,马尔可夫决策过程(MDP)是离散时间随机控制过程。 它提供了一个数学框架,用于在结果部分随机且部分受决策者控制的情况下对决策建模。 MDP对于研究通过动态编程解决的优化问题很有用。 MDP至少早在1950年代就已为人所知。 马尔可夫决策过程的研究核心是罗纳德·霍华德(Ronald Howard)在1960年出版的《动态编程和马尔可夫过程》。 它们被用于许多领域,包括机器人技术,自动控制,经济学和制造。 MDP的名称来自俄罗斯数学家Andrey Markov,因为它们是Markov链的扩展。
在每个时间步,过程都处于某种状态S,决策者可以选择状态S中可用的任何动作a。该过程在下一时间步响应,方法是随机移动到新的状态S',并赋予决策者相应的奖励Ra(S,S')。
进程进入其新状态S'的可能性受所选动作a的影响。 具体而言,由状态转移函数Pa(S,S')给出。 因此,下一状态S'取决于当前状态S和决策者的动作a。 但是给定S和a,它有条件地独立于所有先前的状态和动作。 换句话说,MDP的状态转换满足Markov属性。
马尔可夫决策过程是马尔可夫链的扩展; 区别在于增加了动作(允许选择)和奖励(给予动机)。 相反,如果每个状态仅存在一个动作(例如“等待”)并且所有奖励都相同(例如“零”),则马尔可夫决策过程将简化为马尔可夫链。
强化学习代理以离散的时间步长与其环境交互。 在每个时间t,代理接收当前状态S(t)和奖励r(t)。 然后,它从可用动作集中选择一个动作a(t),然后将其发送到环境中。 环境移动到新状态S(t + 1),并确定与过渡相关的奖励r(t + 1)。 强化学习代理的目标是学习使预期的累积奖励最大化的策略。
将问题表述为MDP假定代理直接观察当前的环境状态。 在这种情况下,据说该问题具有完全的可观察性。 如果代理仅能访问状态的子集,或者如果观察到的状态被噪声破坏,则称该代理具有部分可观察性,并且必须将问题正式地表述为部分可观察的马尔可夫决策过程。 在这两种情况下,都可以限制代理可用的一组操作。 例如,可以将帐户余额的状态限制为正数; 如果状态的当前值为3,并且状态转换尝试将值减小4,则不允许转换。
当将代理人的绩效与表现最佳的代理人的绩效进行比较时,绩效上的差异会引起遗憾的概念。 为了采取最佳行动,代理商必须考虑其行动的长期后果(即,使未来收入最大化),尽管与此相关的直接报酬可能是负面的。
因此,强化学习特别适合包括长期奖励与短期奖励权衡在内的问题。 它已成功应用于各种问题,包括机器人控制,电梯调度,电信,步步高,检查器和Go(AlphaGo)。
有两个要素使强化学习变得强大:使用样本来优化性能,以及使用函数逼近来处理大型环境。 由于这两个关键组件,可以在以下情况下的大型环境中使用强化学习:
- 环境模型是已知的,但是没有解析解决方案。
- 仅给出环境的仿真模型(基于仿真的优化的主题)。
- 收集有关环境的信息的唯一方法是与环境进行交互。
这些问题中的前两个可以被认为是计划问题(因为可以使用某种形式的模型),而最后一个可以被认为是真正的学习问题。 但是,强化学习将两个计划问题都转换为机器学习问题。
通过多臂匪徒问题以及Burnetas和Katehakis(1997)的有限状态空间MDP,已经对探索与开发之间的权衡进行了最彻底的研究。
强化学习需要聪明的探索机制; 在不参考估计的概率分布的情况下,随机选择动作显示出较差的性能。 (小的)有限马尔可夫决策过程的情况相对容易理解。 但是,由于缺乏与状态数成比例的算法(或针对无限状态空间的问题成比例的算法),因此最简单的探索方法是最实用的。
即使不考虑勘探问题,即使状态是可观察的,问题仍然在于利用过去的经验来找出哪些行为会导致更高的累积奖励。
要详细了解认证课程,您可以扩展和分析下表。
EITC/AI/ARL 高级强化学习认证课程以视频形式引用了开放获取的教学材料。 学习过程分为逐步结构(课程 -> 课程 -> 主题),涵盖相关课程部分。 还提供领域专家的无限咨询。
有关认证程序检查的详细信息 运行流程.
课程参考资源
通过深度强化学习出版物进行人员水平控制
https://deepmind.com/research/publications/human-level-control-through-deep-reinforcement-learning
加州大学伯克利分校的深度强化学习开放式课程
http://rail.eecs.berkeley.edu/deeprlcourse/
RL适用于Manifold.ai的K型武装匪徒问题
https://www.manifold.ai/exploration-vs-exploitation-in-reinforcement-learning
下载 EITC/AI/ARL 高级强化学习项目的完整离线自学准备材料(PDF 文件)