拉什福德本赛季的表现好于姆巴佩?《太阳报》的一张图表,引起了球迷们的热议。其中的数字看起来相当醒目:拉什福德比姆巴佩打的比赛更多,出场时间更长,进球更多,而且平均每个进球的用时还要更短。那怎么看,拉什福德都是更高产的那个啊!
数据不会说谎吧?这种图表对比不是第一次出现:今年4月份的时候,同样是《太阳报》做的图,指出穆斯塔菲上赛季在英超的几项防守数据都要优于范戴克。但就场上表现而言,两人的风评却是天差地别。而在讨论比赛、讨论球员的时候,也出现了人们口中的“Excel型球迷”。他们握有制作精良的表格和数据机构给出的数据,似乎准备用严谨的数据化、机器化思维来看问题。
头头是道这些数据并不是造假,它也是确实存在的。但所谓“数据会骗人”,恰恰是在说即便数据本身没有说谎,它也能成功地欺骗到人们。数据本身是没有感情的,但这些冷冰冰的数字有可能因为不同的解读而变得有感情。因此想要透过数据看清真相,有时候并不是那么容易,这也是为什么观看比赛本身是对足球的理解中非常重要的一环。
还记得这个人吗?如果有一名球员在一个赛季的欧冠中7场9球,你会不会说他这赛季比肩梅罗了?结果14-15赛季,巴西前锋路易斯-阿德里亚诺的这9个球,8个出现在主客场对阵鲍里索夫的两场比赛中。就算加上前一年的6场1球,他两年欧冠也有13场10球呢,听起来也挺不错啊。
而这类的“平均数谎言”,在平时的生活中也是常见的。在分布极其不均匀的时候,用平均数试图描述每个人的状况,这显然不合适。
如果梅罗不上,球队赢球,又要被说“缺谁谁尴尬”了另一种常见的形式,是把相关关系解读为因果关系。这两种关系的确有其相似性,但也需要人们仔细去辨别。人们经常能看到这样的数据对比,关注的是某名球员出场与缺阵的时候,球队的胜率、得失球数、射门次数等方面的比较。最无奈的恐怕就是梅西和C罗了,在有的人看来,他们不在球队也能赢反倒不是好事,一两场球就开始刷“缺谁谁尴尬”。
这两个毫无关联的东西,数据上的相关性也很大呢说到相关性不一定靠谱,还真有人专门收集这种完全不可能有关联,但在数据上却呈现虚假相关的相关关系。比如上图显示,每年从渔船上摔下去导致溺亡的人数与肯塔基州的结婚率有很强的关联。
缺少某一名球员的影响,要从球员的踢法、球队的踢法、面对的对手等多方面因素去分析,绝不是几个简单的数字就能解释清楚的。看到相关现象就恨不得直接导出因果,这无疑是不可取的,更别说纯粹基于数据方面进行的考量。
穆帅口中的“数据型射门”确实存在即便是场上的数据,其实也有值得甄别的地方,比如说“射正”——离门35米外绵软无力被门将轻松抱住的球,那也叫射正呢;小禁区里打到横梁立柱上的球,反而不算射正哟。射正次数乃至射门次数的对比,其实都有一定的欺骗性,就像穆里尼奥提出过所谓“数据型射门”的说法。这球我打不进对方防线,胡抡一脚,那也是射门。
利物浦那场著名的“36脚射门之战”于是在纯粹的射门和射正数基础上,出现了“期望进球”这样一个新数据。它通过考量每次射门的位置、角度、姿态等因素,结合大数据建模得出每次射门的一个进球概率。如果你有30脚射门,但每一次的进球概率才3%,那你一场比赛的期望进球还是到不了一个。
比如说导致穆帅最终下课的一战,曼联在射门数上6-36被利物浦完爆,但利物浦一半的射门都是进球概率极低的攻门,这更多是在说明红军的射门倾向比较强,打得更直接。当然这不是说曼联就不惨,只是实际上的情形并没有射门数6-36表现得这么惨。
机器评分的分量,不该看得过重武磊来到西甲踢球,这也让很多球迷们开始关注起了数据网站Whoscored.com的评分。这个评分也是一种数据化解读,依据射门、传球等200余项数据统计按照某套公式进行计算,在6分的基础上进行加减。而这方面的数据和媒体评论式的赛后评分常有冲突,球迷们也能发现机器评分并不能完全展现比赛的情景,比如皇马对巴黎时的贝尔和阿扎尔。