人工智能

强化学习基本概念及方法分类

强化学习的目标是找到最大化收益的策略,找寻策略的一个重要途径是找到马可夫决策模型上的价值函数 马尔可夫 用于在系统状态具有马尔可夫性质的环境中模拟智能体可实现的随机性策略与回报 当一个随机过程在给定现...
阅读全文