EITC/AI/ARL 高级强化学习

by EITCA学院 / 星期日，07二月2021 / 发表于

现状

没有注册

价格

€110.00

立即购买

报名参加此认证

EITC/AI/ARL 高级强化学习是针对 DeepMind 人工智能强化学习方法的欧洲 IT 认证计划。

EITC/AI/ARL 高级强化学习的课程重点是从 DeepMind 的角度来看强化学习技术的理论方面和实践技能，其结构如下，包含全面的视频教学内容，作为本次 EITC 认证的参考。

强化学习（RL）是机器学习的一个领域，与智能代理应如何在环境中采取行动以最大化累积奖励的概念有关。除了监督学习和无监督学习，强化学习是三种基本的机器学习范式之一。

强化学习与监督学习的不同之处在于，不需要呈现带标签的输入/输出对，也不需要显式纠正次优动作。相反，重点是在探索（未知领域）和利用（当前知识）之间找到平衡。

环境通常以马尔可夫决策过程（MDP）的形式陈述，因为针对此情况的许多强化学习算法都使用动态编程技术。经典动态规划方法和强化学习算法之间的主要区别在于，后者不假设MDP的精确数学模型的知识，并且针对无法采用精确方法的大型MDP。

由于其通用性，强化学习在许多学科中得到了研究，例如博弈论，控制论，运筹学，信息论，基于仿真的优化，多智能体系统，群体智能和统计。在运筹学和控制文献中，强化学习称为近似动态规划或神经动力学规划。强化学习中感兴趣的问题也已经在最优控制理论中进行了研究，该理论主要涉及最优解的存在和特征，最优解的算法以及精确求解的算法，而很少涉及学习或逼近，特别是在缺少最优解时。环境的数学模型。在经济学和博弈论中，强化学习可以用来解释在有限理性下平衡如何产生。

基本强化被建模为马尔可夫决策过程（MDP）。在数学中，马尔可夫决策过程（MDP）是离散时间随机控制过程。它提供了一个数学框架，用于在结果部分随机且部分受决策者控制的情况下对决策建模。 MDP对于研究通过动态编程解决的优化问题很有用。 MDP至少早在1950年代就已为人所知。马尔可夫决策过程的研究核心是罗纳德·霍华德（Ronald Howard）在1960年出版的《动态编程和马尔可夫过程》。它们被用于许多领域，包括机器人技术，自动控制，经济学和制造。 MDP的名称来自俄罗斯数学家Andrey Markov，因为它们是Markov链的扩展。

在每个时间步，过程都处于某种状态S，决策者可以选择状态S中可用的任何动作a。该过程在下一时间步响应，方法是随机移动到新的状态S'，并赋予决策者相应的奖励Ra（S，S'）。

进程进入其新状态S'的可能性受所选动作a的影响。具体而言，由状态转移函数Pa（S，S'）给出。因此，下一状态S'取决于当前状态S和决策者的动作a。但是给定S和a，它有条件地独立于所有先前的状态和动作。换句话说，MDP的状态转换满足Markov属性。

马尔可夫决策过程是马尔可夫链的扩展；区别在于增加了动作（允许选择）和奖励（给予动机）。相反，如果每个状态仅存在一个动作（例如“等待”）并且所有奖励都相同（例如“零”），则马尔可夫决策过程将简化为马尔可夫链。

强化学习代理以离散的时间步长与其环境交互。在每个时间t，代理接收当前状态S（t）和奖励r（t）。然后，它从可用动作集中选择一个动作a（t），然后将其发送到环境中。环境移动到新状态S（t + 1），并确定与过渡相关的奖励r（t + 1）。强化学习代理的目标是学习使预期的累积奖励最大化的策略。

将问题表述为MDP假定代理直接观察当前的环境状态。在这种情况下，据说该问题具有完全的可观察性。如果代理仅能访问状态的子集，或者如果观察到的状态被噪声破坏，则称该代理具有部分可观察性，并且必须将问题正式地表述为部分可观察的马尔可夫决策过程。在这两种情况下，都可以限制代理可用的一组操作。例如，可以将帐户余额的状态限制为正数；如果状态的当前值为3，并且状态转换尝试将值减小4，则不允许转换。

当将代理人的绩效与表现最佳的代理人的绩效进行比较时，绩效上的差异会引起遗憾的概念。为了采取最佳行动，代理商必须考虑其行动的长期后果（即，使未来收入最大化），尽管与此相关的直接报酬可能是负面的。

因此，强化学习特别适合包括长期奖励与短期奖励权衡在内的问题。它已成功应用于各种问题，包括机器人控制，电梯调度，电信，步步高，检查器和Go（AlphaGo）。

有两个要素使强化学习变得强大：使用样本来优化性能，以及使用函数逼近来处理大型环境。由于这两个关键组件，可以在以下情况下的大型环境中使用强化学习：