说明:双击或选中下面任意单词,将显示该词的音标、读音、翻译等;选中中文或多个词,将显示翻译。
您的位置:首页 -> 词典 -> 零和Markov对策
1)  zero-sum Markov game
零和Markov对策
1.
According to the relationship of competition and cooperation among the multiple agents, this method adopts the zero-sum Markov game in high layer to compete with the opponent and adopts the team Markov game in low layer to accomplish cooperation in the team.
提出了一种分层的基于Markov对策的多智能体协调方法 ,根据多智能体之间的竞争和合作的关系 ,高层采用零和Markov对策解决与对手之间的竞争 ,低层采用团队Markov对策完成与团队内部的合作 。
2)  non-zero-sum Markov games
非零和Markov对策
3)  zero-sum game
零和对策
1.
The augmented Lagrangian method is used to transform a constrained optimization problem to a zero-sum game with the saddle-point solution.
提出基于均匀设计的宏进化算法,并用于求解复杂约束优化问题,首先利用拉格朗日方法将约束优化问题转化为求解一个零和对策问题的鞍点解;然后用宏进化算法求解。
4)  Markov games
Markov对策
1.
Each AGV is treated as a rational agent in the system, which has two level decisions: on the option level, an agent adopts a reinforcement learning method under the Markov games architecture and makes decision to execute a subtask with the best response to the other AGV s current option; on the action level, an agent learns an opt.
系统中的每一个 AGV都由一个具有两级决策能力的智能体控制 :在选择级 ,智能体采用 Markov对策框架下的强化学习方法 ,以根据其他 AGV当前的子任务建立自己的最有反应子任务 ;在行动级 ,智能体通过强化学习建立优化的动作策略来完成由选择级确定的子任务 。
2.
In this paper,Markov games as a framework for reinforcement learning are studied.
论文研究了Markov对策模型作为学习框架的强化学习,提出了针对RoboCup仿真球队决策问题这一类复杂问题的学习模型和具体算法。
5)  Markov game
Markov对策
1.
A layered multi-agent coordination method based on Markov games is presented.
提出了一种分层的基于Markov对策的多智能体协调方法 ,根据多智能体之间的竞争和合作的关系 ,高层采用零和Markov对策解决与对手之间的竞争 ,低层采用团队Markov对策完成与团队内部的合作 。
2.
Non zero sum Markov game and reinforcement learning based on Q algorithm is a feasible frame for the research on the mechanism of multiagent system s cooperation.
MAS的协作机制研究 ,当前比较适用的研究框架是非零和 Markov对策及基于 Q-算法的强化学习 。
3.
In order to design reasonable defending policy,decompose a subtask,half field defense,into some one-vs-one defense subtask and pose it as a problem of zero-sum Markov games.
为制定合理的防守策略,将Robocup比赛中的一个子任务——半场防守任务分解为多个一对一防守任务,采用了基于Markov对策的强化学习方法解决这种零和交互问题,给出了具体的学习算法。
6)  non-zero-sum game
非零和对策
补充资料:二人零和对策


二人零和对策
two-person zero-sum game

二人零和对策{加0一详舫切1~一脚gan祀;aH~”“-e。,ee恤。印a] 由两个有完全对立利益的对手所进行的对策.形式上,这种对立性意味着从一个对策局势(gaIT犯sitUa-tion)转变到另一个局势时,一个局中人的支付的增加数值上等于另一个局中人的支付的减少,从而在任何局势下,局中人的支付和是常数(可以认为,这个和是零,即一个局中人收到的支付等于另一个局中人的损失).由于这个原因,二人零和对策也称为具有零和的二人对策(two一详巧on,姗俪山贫。一~)或对抗对策(antago血tic,叮犯).二人零和对策的数学概念(它们的两个支付函数在数值上相等在符号上相反)是一个形式概念,它不同于对应的哲学概念.如果在二人零和对策中,局中人之一经营作为协议和谈判的结果使其收到的支付增加一定的货币量,则其对手将有相等金额的损失.因此,任何协议将对局中人之一不利,以至是不可能的.现实中适合用二人零和对策来建模的冲突形势是某些(但不是全部)军事行动、体育比赛和室内博弈,以及在严格竞争下引起双边决策的情形针对自然所进行的对策以及更一般的在不确定条件下的决策(见统计对策(statisti司g迁汀℃))可以看作二人零和对策,如果假定对于局中人来说未知的实际自然规律将产生对局中人最为不利的效果. 正规型二人零和对策(见对策论(缪摆,山印ryof))的定义在于确定局中人工和11各自的策略集A和B,以及确定在所有局势的集合A XB上定义的局中人的支付函数H(局中人11的支付函数按定义是一H).形式上,一个二人零和对策r由一个三元组r二所组成. 对策的进行通过局中人间选取他们的策略a6A,b〔B,然后,局中人I从局中人11处得到金额H(a,b).只要适当刻画策略集和支付函数,这样的二人零和对策的定义已足够一般到包括二人零和对策的各种变种,其中包括动态对策(d,ulnic gaIT犯),微分对策(洲R化ntiai,n飞治)和位置对策(p璐itional,n祀).在二人零和对策的过程中,局中人的行动(策略)的合理选择基于极小化极大原理:如果 臀溉H(a,b)一黔营缪H(a,b),(l)或 suP infH(a,b)=infs叩H(a,b),(l‘) a〔月b〔Bb£Ba〔月那么对策r对于两个局中人都有最优策略(相应地,。最优策略)(见策略(对策论中的)(stmtegy(in,Inetlleory))).方程(1’)的两端的公共值称为对策r的值(value of the ganle).然而,方程(1)或(1’)甚至在最简单的情形下也可以不成立.例如,在具有支付矩阵为 l…几’一{…J的矩阵对策(nlatr认gall祀)中,下列等式成立: 吧吧“!,一l,甲吧久,一1·由于这个原因,局中人的策略集被扩充到混合策略集,它由局中人对初始(“纯”)策略的随机选择所组成,而支付函数定义为在应用混合策略的条件下支付的数学期望.在上述例子中,两个局中人的最优混合策略是对两个策略各以1/2的概率来选取,对策在混合策略下的值是零.如果集合A和B是有限的,则二人零和对策称为矩阵对策,其中对策的值和每个局中人的最优混合策略在所有情形下存在.如果两个集合A和B都是无限的,那么最优(甚至。最优)策略可能不存在(见无限对策(加五nite罗Ir吮)).
说明:补充资料仅用于学习参考,请勿用于其它任何用途。
参考词条