《权利的游戏》终于迎来了最终季,在被异鬼入侵支配的恐惧中,人们纷纷猜测谁会是活到最后的那一个。看起来万能的人工智能已经抢先给出了“科学答案”。
不久前,一个来自德国慕尼黑工业大学(TUM)的团队开发出一套机器学习算法,预测了《权利的游戏》中每个角色的死亡概率。
结果被直观地展现在专门为此制作的网站上。截至目前,主要角色中存活率最高的前三位分别是丹妮莉丝·坦格利安(死亡概率0.9%,下同)、提利昂·兰尼斯特(2.5%)和瓦里斯(3.2%)。
存活率最低的三位则是雇佣兵波隆(93.5%)、瑟曦的贴身侍卫“魔山”(80.3%)和珊莎·史塔克(73.3%)。囧雪的弟弟布兰·史塔克也以57.8%的死亡概率紧随其后。
值得注意的是,由于机器学习的特点,所有角色的存活率随着剧中时间的推移也会出现轻微变化。譬如,龙妈在剧中当前纪年的存活率为99.12%,下一年则为98.6%。
同样,该算法也预测了原著《冰与火之歌》中每个角色的存活率,数值与电视剧略有不同。
性别、出身、婚恋状况…这些都是影响因素
除了上述提到的几个角色,其他一些主要的角色的死亡概率如下:
琼恩·雪诺:12%
瑟曦·兰尼斯特:5%
詹姆·兰尼斯特:4%
艾莉亚·史塔克:47%
席恩·葛雷乔伊:10%
乔拉·莫尔蒙:28%
山姆威尔·塔利:3%
戴佛斯·席渥斯:45%
布蕾妮:13%
桑铎·克里冈:48%
在每个角色的对应页面,都展示了更细致的数据分析。诸如性别为何、是否是贵族出身、属于哪个家族、是否是主要角色、是否结婚等等,都成为一个角色存活率的影响因素。
比如龙妈的主页显示,她是一个已婚人士,因而其死亡概率降低了55.7%;因为是坦格利安家族后裔,概率降低了42.3%;因为是主要人物,概率又降低了16%。
囧雪的情况是,同样身为主要人物死亡概率降低了16%;因为史塔克家族成员的身份,降低了38.3%;不过因为是男性,其死亡概率增长了100%。
实际上针对角色的性别和出身,算法已经得出了一个统一的概率:女性的死亡概率为11%,男性为22%;贵族为18%,平民为25%。
两个计算模型
相比于网站展示的内容,其背后涉及到的数据和原理要庞大和复杂得多。
这一基于机器学习的预测之所以能够成型,首先多亏了剧迷们的数据贡献。网站显示,算法的数据主要有5个来源,分别是A Wiki of Ice and Fire、Game of Thrones wiki、MediaWiki、维基百科以及Twitter。
其中A Wiki of Ice and Fire和Game of Thrones wiki是最重要的两个来源。前者是一个由剧迷自建的百科类网站,当中有关于整个《权利的游戏》非常详尽的人物、历史、地理、文化等等介绍;后者则更多是一个剧迷讨论社区。
这些网站内包含的庞大数据提供了算法所需的原料。算法会从中提取诸如一个角色是否已经死亡、有哪些属性(如性别、年龄)等等信息。
接下来就是如何处理这些数据。他们采用了两种机器学习领域的计算模型:基于贝叶斯推断(Bayesian Inference)的生存分析方法,以及神经网络(Neural Network)。
1)基于贝叶斯推断的生存分析方法
贝叶斯推断的理论基础为概率论中的贝叶斯定理,后者描述的是在已知一些条件下,某事件的发生概率。举例来说,如果已知某癌症与寿命有关,在这一定理之下就可以通过得知某人年龄,来更加准确地计算出他患上癌症的概率。
用到剧中角色的死亡概率预测上也是同样的道理。
该团队首先选取了家族(House)、情人数量(Lovers)、婚姻状况(Marriage)、头衔数量(Titles)、角色的重要性(Major/Minor character)以及性别(Male),作为和角色死亡概率挂钩的几个因素。
以年为单位,每一年每个角色的上述某些属性都可能出现改变。这样,如果已知死亡和家族出身有关,就可以通过得知某个角色所属的家族,来计算出他在这一年的死亡概率。而综合考虑多种因素,就可以建立一个角色的生存函数。
在一些更加复杂的模型计算中,贝叶斯推断往往需要结合其他算法进行训练。这次的角色死亡概率预测就采用了一个名为“马尔可夫链蒙特卡洛(MCMC)”方法的算法。这一算法也是众多经典的贝叶斯推断方法之一,但因其包含了大量的数学知识和计算量这里暂不赘述。
2)神经网络
另一个计算模型神经网络,也可以认为是与贝叶斯生存分析互为补充。
神经网络的原理不难理解。它最重要的功能就是进行分类,比如在网络上的一堆照片里,区分出哪些照片里的人物是男性、哪些是女性。在这里我们把输入的照片称作向量,用于执行操作的系统称作分类器。假设男性照片对应的是数值0,女性对应数值1,那么最后分类器输出的将是一个更便于统计的数值0或1。
一般的做法是,需要先人为给定分类器一些样本,告诉它正确的分类,继而对其进行训练。
与贝叶斯方法不同的是,该团队在训练神经网络时选取的影响死亡概率的因素包括了以下几种:
性别(gender)、网页排名(page rank)、亲属数量(number of relatives)、当前年龄(age)、效忠人数(allegiances)、出现的集数(episodes the character appeared in)以及头衔数量(titles)。
和贝叶斯方法类似,神经网络也会建立一个角色生存函数,继而得出角色可能的死亡概率。
不过在这次角色死亡概率预测里,有几个影响因素很难用两个简单的数值区分,比如出现的集数。解决办法是为每一集创建向量(因为集数已经是一个确定的值),这里的向量就是每个角色。输入角色,分类器再对其是否在该集出现进行区分,若出现则标记1.0,未出现则标记0.0。
此外,相比于贝叶斯方法,神经网络能够潜在地找到更复杂的模型,并且涵盖更多可能被贝叶斯方法认为是随机异常事件的死亡可能性统计。
当然,不论上述哪一种方法,最终都是数据计算的结果。数字可能虚假的,但粉丝对《权游》的热爱是真实的。
来源:PingWest品玩 微信号:wepingwest