内容简介
近几十年来,强化学习(RL)已经成为解决复杂控制任务的一种有效方法。在马尔科夫决策过程(MDP)这一典型的框架中,环境被认为是一个固定的实体,不能被外部改变。然而,在现实世界中,有几个场景的环境可以在有限的范围内被修改。
本书旨在正式确定和研究环境配置的不同方面。在传统的MDP中,代理人感知环境的状态并执行行动。结果是,环境过渡到一个新的状态并产生一个奖励信号。代理人的目标包括学习一个政策,即一个使长期奖励最大化的行动处方。尽管环境配置在实际应用中经常出现,但文献中对这一主题的探讨非常少。本书的贡献是理论的、算法的和实验的,可以大致细分为三个部分。第一部分介绍了新的可配置马尔科夫决策过程(Configurable Markov Decision Processes,Conf-MDPs)的形式主义,以模拟环境提供的配置机会。本书的第二部分侧重于合作性的Conf-MDP设置,并研究了寻找代理政策和环境配置以共同优化长期回报的问题。第三部分讨论Conf-MDP框架的两个具体应用:政策空间识别和控制频率适应。
所有使用RL作为其工作的一部分的人都会对这本书感兴趣。
近几十年来,强化学习(RL)已经成为解决复杂控制任务的一种有效方法。在马尔科夫决策过程(MDP)这一典型的框架中,环境被认为是一个固定的实体,不能被外部改变。然而,在现实世界中,有几个场景的环境可以在有限的范围内被修改。
本书旨在正式确定和研究环境配置的不同方面。在传统的MDP中,代理人感知环境的状态并执行行动。结果是,环境过渡到一个新的状态并产生一个奖励信号。代理人的目标包括学习一个政策,即一个使长期奖励最大化的行动处方。尽管环境配置在实际应用中经常出现,但文献中对这一主题的探讨非常少。本书的贡献是理论的、算法的和实验的,可以大致细分为三个部分。第一部分介绍了新的可配置马尔科夫决策过程(Configurable Markov Decision Processes,Conf-MDPs)的形式主义,以模拟环境提供的配置机会。本书的第二部分侧重于合作性的Conf-MDP设置,并研究了寻找代理政策和环境配置以共同优化长期回报的问题。第三部分讨论Conf-MDP框架的两个具体应用:政策空间识别和控制频率适应。
所有使用RL作为其工作的一部分的人都会对这本书感兴趣。
- Making Sense Of Paranoia
- Representations Of Childhood In Art And Literature
- Exploiting Environment Configurability In Reinforcement Learning
- Applied Mathematics, Modeling And Computer Simulation
- The Cambridge Handbook Of Consumer Psychology
- Questiones Super I-vii Libros Politicorum
- The Cambridge Handbook Of Computational Cognitive Sciences
- Reimagining Mobilities Across The Humanities
- Plastic Pollution In The Global Ocean
- 6g Enabling Technologies