欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页  >  科技

强化学习基本内容 人工智能机器学习

程序员文章站 2022-06-26 18:24:22
目录1 基本内容  在强化学习(Reinforcement learning)中, 学习主体自身通过训练,误差和反馈,学习在环境中完成目标的最佳策略。我们并没有直接告诉主体要做什么或...

目录1

基本内容  在强化学习(Reinforcement learning)中, 学习主体自身通过训练,误差和反馈,学习在环境中完成目标的最佳策略。我们并没有直接告诉主体要做什么或采取那个动作,而是主体通过看那个动作得到了最多的奖励来自己发现。  强化学习由四部分组成:策略 奖励函数 值映射 和一个环境模型。  设计强化学习算法是要考虑三方面问题。一,如何表示状态空间和动作空间。二,如何选择建立信号以及如何通过学习来修正不同状态-动作对的值。三如何根据这些值来选择适合的动作。用强化学习方法研究未知环境下的机器人导航,由于环境的复杂性和不确定性,这些问题变得更复杂。  所谓强化学习是指从环境状态到动作映射的学习,以使动作从环境中获得的累积奖赏值最大.该方法不同于监督学习技术那样通过正例、反例来告知采取何种行为,而是通过试错(trial anderror)来发现最优行为策略。常用的强化学习算法包括TD(Temporal Difference)算法、Q学习算法、Sarsa算法等  标准的强化学习,智能体作为学习系统,获取外部环