小白也懂博弈论:纳什均衡
原文发布于自己的博客平台【 】
纳什均衡点是啥 纳什均衡的纳什
纳什均衡点是啥 纳什均衡的纳什
具有竞争或对抗性质的行为称为博弈行为,并且博弈理论在经济学、关系、军事战略等很多领域都有广泛的应用,其中以纳什均衡为代表的非合作性博弈理论在日常中最为常用。
在很多场景下,比如玩等游戏时,虽然有些时候选择的策略并不一定是全局的解,但却是相对于其他人的策略而做出的解,即每个人都是对自己最有利的解决方案,我们将其称为为 纳什均衡 。
纳什均衡(或者纳什平衡),Nash equilibrium ,又称为非合作博弈均衡,是博弈论的一个重要策略组合,以约翰·纳什命名。
再解释一下,所谓纳什均衡,指的是参与者的一种策略组合,在该策略上,任何参与人单独改变策略都不会得到好处,即 每个人的策略都是对其他人的策略的反应 。换句话说,如果在一个策略组合上,当所有其他人都不改变策略时,没有人会改变自己的策略,则该策略组合就是一个纳什均衡。
枯燥的描述很难理解,下面使用几个案例来理解下。
背景:有两个囚犯A和B,犯事儿进去了,然后警官对其分开审讯,所以A和B是没有机会进行串供的
奖惩:如果双双招供,则各判2年,如果双双不招供,则各判1年,如果一个招供一个不招供,则招供的人立即释放,不招供的人判刑十年
结果:囚犯A和B都会选择招供,所以各判2年,这个便是此时的纳什均衡。
但是明明双双不招供才是解啊,其实不然,回头再看一下概念,纳什均衡其实并不是全局的解,而是每个人相对于每个人的策略而做出的策略,下面来解释下。
我们来建立一个数学模型,使用 -2、-1、0、-10 来形容上面的奖惩,见下面的分析图。
A的心路历程:
所以,不管B招不招供,A只要招供了,对A而言是的策略。
同理,对于B的心路历程也相似,B也会选择招供:
所以最终的结果是A和B都选择了招供。
即此时的纳什均衡点为:A和B都招供。
综述,敲黑板,纳什均衡的前提是: 决策圈中的个体是,不合作,不横向沟通的
背景:有两只猪,一只是大猪,另一只是小猪,然后有一个食槽,里面会有食物落下,但是需要去远处按一下按钮,每次按一下按钮,食槽中便会补满食物。但是呢,在按按钮的来回路上,是需要消耗一定的能量的。
奖惩:跑过去按一下按钮再跑回来吃食物,会消耗一些能量,记为 -2,每次食槽中补满食物,总食物量为 10份,大猪先吃的话能吃到 9 份,小猪先吃的话,大猪能吃到 6 份,一起吃的话,大猪能吃到 7 份
结果:大猪会选择去按按钮,而小猪会选择不去按按钮,即在原地等着。
小猪心路历程:
所以,不管大猪怎么样,小猪都会选择在原地等待。
大猪心路历程:
所以,表面上看,大猪的决策是受到小猪的决策所影响的,但是分析小猪的心路历程得知,小猪是不会去按按钮的,那么大猪的决策还是会选择去按按钮,这样大猪的收益才会化。
所以综上,最终结果是大猪去按按钮,而小猪在原地等待着。
即此时的纳什均衡点为:大猪去,小猪不去。
在每次参与者都只有有限种策略选择并且允许混合策略的前提下,纳什均衡是一定存在的。
比如选举、群体之间的利益竞争、会议中的法案竞争等,是必然存在纳什均衡的。
以公司间的价格战为例:如果对方一直降价,那我方继续降价必然会出现亏本买卖,然而如果不降价,也会出现失去市场的情况,损失更大,但如果对方不降价,我方更要降价才能谋得一丝丝利益,所以只要出现价格战,必然会两败俱伤,这是纳什均衡体现的必然结局。所以要改变这种结局,双方必须坐下来谈判寻求新的利益评估分摊方案,从而改变原先的利益格局(比如当年京东和当当的一场价格战,最终以双方各占某一方面的主市场从而获得新的利益分割方案)。
纳什均衡是基于非合作博弈论的平衡不动点解
例如上文的囚徒困境问题,如果两个囚徒是有合作的,则必然不存在纳什均衡点。
所以,在现实生活中,纳什均衡这一博弈是很重要但是也是很有限的,因为在很多情况下,即使知道平衡不动点必然存在,但是往往却很难找到。
纳什均衡(这一非合作博弈论模型)仅仅是突破了博弈论中的一个局限
因为在这一庞大的博弈环境下,还会掺杂着复杂的经济行为,虽然中的大家并非是集体合作性的,但在这种庞大的非合作性对象中,纳什均衡点是几乎不可能找到的。
纳什均衡属于NP问题
(摘自 wik i上面的一段话,暂时看不懂但却觉得很有道理)纳什均衡属于NP问题,Daskalakis 证明它属于 NP 问题的一个子集,不是通常认为的 NP-完全问题,而是 PPAD-完全问题。这项研究成果被一些计算机科学家认为是十年来博弈论领域的进展。
纳什均衡点,应怎样理解
经典的例子就是囚徒困境,囚徒困境是一个非零和博弈。 大意是:一个案子的两个嫌疑犯被分开审讯,警官分别告诉两个囚犯,如果你招供,而对方不招供,则你将被判刑一年,而对方将被判刑十年;如果两人均招供,将均被判刑五年。 于是,两人同时陷入招供还是不招供的两难处境。如果两人均不招供,将最有利,只被判刑三年。 但两人无法沟通,于是从各自的利益角度出发,都依据各自的理性而选择了招供, 这种情况就称为纳氏均衡点。 这时,个体的理性利益选择是与整体的理性利益选择不一致的。 囚犯甲的博弈矩阵 囚犯甲 招供 不招供 囚犯乙 招供 判刑五年 甲判刑十年;乙判刑一年 不招供 甲判刑一年;乙判刑十年 甲判刑三年 基于经济学中Rational agent的前提设,两个囚犯符合自己利益的选择是坦白招供,原本对双方都有利的策略不招供从而均被判刑三年就不会出现。事实上,这样两人都选择坦白的策略以及因此被判五年的结局被是“纳什均衡”(也叫非合作均衡),换言之,在此情况下,无一参与者可以“独自行动”(即单方面改变决定)而增加收获。
纳什均衡点
(港译:纳殊均衡点),又称为非合作博弈均衡点,是博弈论的一个重要概念,以约翰·纳什命名。 (Nash Equilibrium Point) 概述 (港译:纳殊均衡点),又称为非合作博弈均衡点,是博弈论的一个重要概念,以约翰·纳什命名。 概念提供了一种
纳什均衡点是什么,怎么求?
纳什均衡点一般是化收益函数。每个参与者的效用函数之间都有相互制约的参数,可以通过迭代的方法(形如第N+1次迭代得到的x1的值=u(第N次迭代得到的x1值)),求出使每个参与者收益函数的一组策略。
像证明收敛性、纳什均衡存在性及性这种数学证明很难。反正我是没有仔细去看这些。