:强队输的冤不冤,不如感觉更靠谱
01
先说原则
从足球角度来看,世界杯开赛前,夺冠赔率排名前四的球队——德国、巴西、西班牙和阿根廷——全部回到了自己的家乡。 最让人意想不到的是,德国队这支稳定的球队在最近几届比赛中也做出了回应。 世界杯卫冕冠军无缘小组赛的魔咒。 这一切都符合那句老话:“热则死”。
如果抛开偶然因素,仅凭纸面分析,这些强队输球是否冤枉? 敌在暗处,我们技战术领悟透彻,设巴士密集防守。 当我们遇到强队时,所谓的弱队有100种让他们生不如死的方法。 从这个角度来看,强队的输球一点也不冤。
我的结论是收集了2002年韩日世界杯到本届世界杯前八名球队的近50个维度的数据,依靠机器学习计算出来的。 我不接受争论,但如果你愿意和我讨论技术,非常欢迎。
02
研究一下
在做模型之前,马叔在网上做了一些功课,搜索了各种预测方法和结果。 其中之一非常受分析欢迎。
选几张图给大家看看(已删除):
世界杯历史胜场名单
世界杯历史进球表
2018世界杯32强历史胜场名单
这只是一小部分。
说实话,这个预测收集了从1872年到现在的数据,确实比马叔多得多。 但遗憾的是,这些数据都是独立的,没有经过任何处理就直接用于最后的结论。 不像预测,而是数据排序。 显然,德国、巴西、阿根廷这样的传统强队必定是最终的夺冠热门。
举个常见的例子,你有10000元,我有100元,存入同一家银行。 无论多久,我都不会比你富有。 这与我是否努力工作无关,只是因为我的祖先不擅长工作。
我这样说并没有任何不尊重或贬低的意思(毕竟PHP是世界上最好的语言,手工工作很有趣),我只是讨论方法。 我认为影响足球比赛的因素确实与历史数据密切相关,但更重要的是,这支球队近年来的表现就像乌拉圭两次获得世界杯冠军而法国只获得一次,但最终法国2:0惨败乌拉圭。 毕竟乌拉圭的冠军已经快一百年了,只能延续三代人。
03
我的结论
现在我们来说说我的计算。 从成绩来看,四强中,比利时夺冠的概率较大。 法国和英格兰基本打平,克罗地亚稍稍落后。
04
我的过程
我选择了近几年非常流行的机器学习。 在建模过程中,一般有以下几个步骤:样本采集、特征处理、训练模型、预测结果。 我们来详细谈谈这些。 步。
机器学习实际上是从现有数据中发现和学习潜在模式的过程。 我认为世界杯冠军的预测其实就是分析过去比赛的结果和特征之间的关系,让机器学习一个函数y=f(x),其中y是球队的得分,x是球队的得分特征。
因此,我收集了2002年至2014年四届世界杯八强的数据,规定前四名的球队分别得4、3、2、1分,没有进入半决赛的球队得0分。 这样总共得到了32条数据。 将这32条数据与本届世界杯的其他特征结合起来作为训练集。
选择哪些功能? 一方面是比赛特点,包括控球率、投篮命中率、传球成功率等; 另一方面是球队特征,比如FIFA排名、历史最佳排名、近4年最佳排名等。 、球员平均年龄、顶级联赛球员比例、球员身价、教练胜率等,最后还有球队所代表的民族特色、来自哪个洲、该国GDP世界排名等。
思考
哪些维度最重要? 这是一个有趣的话题,计算后的结果让我有点惊讶。 如果我真的很幸运,我会再写一篇单独的分析。
虽然从机器学习的角度来看,数据还是有点小,但是仔细一算,也有近50个了(这个过程马叔花了3天~~~原来是群里一个妹子发现了我在偷偷做这一次,她非要陪我加班,帮我收集资料,我以为她眼瞎,什么都不懂,碍事,所以我就让她先回家了。现在想想它,我想知道我是否错过了什么)。
仔细一点,我发现历届世界杯进入八强的球队主要是欧洲和南美洲的球队,而中北美、非洲、亚洲的球队则很少(bi),谢谢( shi)来自亚洲。 世界杯半决赛),所以我把洲分为欧洲、南美洲等三种类型,采用one-hot编码(用三个特征来表示球队所在洲是否是欧洲、南美洲、其他洲) ,如果是,则为1,否则为0,所以对于每个团队来说,这三个特征只有一个为1,另外两个为0)。
我首先计算了特征和分数之间的皮尔逊系数。 系数的绝对值越大,特征与得分的相关性越高。 基于系数,选择一些相关性较高的特征进行建模。
在模型的训练方面,我使用了现在广泛使用的随机森林模型。 随机森林是一种集成学习算法。
如上图所示,随机森林是由许多决策树组成的“森林”。 对于一个样本,“森林”中的每一棵“树”都会给出自己的预测结果,然后所有“树”都会按照民主的方式确定。 进行投票决定最终的预测。
例如,在一个分类问题中,共有10棵树,8棵树被预测为A,2棵树被预测为B,那么投票结果显示为A。
在训练模型时,由于样本数量有限,我将每棵树的深度设置得更浅,并通过限制叶子节点的样本数量来进行剪枝。
图中没有子节点的节点称为叶节点。 每个样本,从根节点开始,判断是否满足每个节点的条件。 如果满足条件,则进入左节点。 否则,它会进入正确的节点并最终结束。 输入叶节点。 叶子节点的值就是这棵树对于样本的预测值。 所有树的预测值的平均值作为预测的最终得分。
使用此方法,最终四支球队的得分为:
团队
分数
法国
0.85
比利时
2.85
英格兰
0.85
克罗地亚
0.53
从这个角度来看,比利时将夺冠。 也就是说,的钱可能提不出来。
足球是圆的,就像没有人会想到德国会在亚洲世界杯半决赛中输给其中一场一样。 我不知道这个结论是否准确,但是我用这个方法查了一下2014年世界杯的成绩,发现……是准确的。
2014年四分之一决赛,德国队获胜的概率明显高于其他球队
05
写在最后
使用“随机森林”预测世界杯结果的准确性关键在于数据量和数据的维度,否则结果可能会有很大差异。
不久前,世界顶级投行高盛也用这种方法预测了本届世界杯的结果,他们的结论是:
巴西最终获胜的概率为18.5%,高于法国的11.3%和德国的10.7%; 西班牙和阿根廷表现不佳,八强被淘汰; 德国队和巴西队将在半决赛中分别击败葡萄牙队和法国队晋级。
从目前的情况来看,高盛的预测可以说是一塌糊涂。
有什么问题? 主要是因为高盛使用的参数较少。 他们严格将数据参数限制在团队和个人层面的指标。 最终只有五个主要指标或变量,分别是:球队评分、球员评分、球队近期表现、对手近期表现、球队近期进球势头。 。
数据维度不科学,怎么可能准确! 这并不是高盛第一次陷入陷阱。 2010年世界杯,高盛预测巴西队将在决赛中迎战德国队,但西班牙队夺得冠军。 2014年,有人说巴西夺冠,概率高达48.5%。 谁能想到,巴西队在半决赛中以7:1惨败于德国队……
如果这次马叔的预测是对的,我是不是应该立即辞职,去投行或者博彩公司呢? ! 支持的朋友请点赞。
随附的:
各大电视台、投行、游戏公司预测的结果:
ESPN最多专家(下同):巴西
福克斯:巴西
英国广播公司:德国
央视体育:巴西
瑞银集团:德国
最多博彩公司:巴西
下一条: 奇奇影院提供《足球骑士》完整高清未删减版