1) infinite horizon discounted model
无限作用范围衰减奖励优化模型
1.
Through simulation and analysis, it is shown that the Q algorithm infinite horizon discounted model in \ is not suitable to this task.
本文研究了机器人足球赛中利用增强学习进行角色分工的问题 ,通过仿真试验和理论分析 ,指出文 [1]中采取无限作用范围衰减奖励优化模型 ( infinite- horizon discounted model)的 Q学习算法对该任务不合适 ,并用平均奖励模型 ( average- reward model)对算法进行了改进 ,实验表明改进后学习的收敛速度以及系统的性能都提高了近一倍 。
2) infinite range model
无限范围模型
3) average reward model
平均奖励优化模型
4) attenuation range
衰减范围
5) semi-infinite optimization model
半无限优化模型
6) attenuation region
衰减区,衰减范围
补充资料:作用范围
说明:补充资料仅用于学习参考,请勿用于其它任何用途。
参考词条