最近几个月,我似乎非常高效,写出了很多文章——或者说,是用我的指尖敲出来的,但它们都只是触及了我真正想探讨的表面。在幕后,我已经花了差不多两年的时间研究这个问题:我们怎样才能将其他运动中的数据概念和分析有效应用于我们称之为“美丽游戏”的足球呢?
在这篇文章中,我将从篮球数据分析中选取两个概念,探讨它们的理论框架,并从理论上探讨如何将其应用到足球数据分析中,然后将其应用到足球数据分析中。这是一个充满错误和挑战的冒险尝试,本身就是一项研究。我的目标不是追求完美、无懈可击的分析,而是进一步探索我们如何从其他运动的数据分析中学习,以提升我们在足球数据分析中的视野和理解。
目录内容- 为什么要写这篇文章?
- 数据解释和来源说明
- 介绍主题:人盯人防守的结构
- 篮球领域的相关研究
- 转换成足球的数据分析
- 指标 I:平均吸引到的注意力
- 指标 II:防守熵
- 挑战
- 最后的想法
- 来源
我有点痴迷于无球数据或无控球权数据。正如我之前所说,足球是以进球为基础的,也就是说,进球是足球比赛的核心。转播商和球迷通常认为进球是比赛中最吸引人的部分,虽然我理解这种情感,但我认为数据分析领域需要更多的平衡。防守在比赛中占很大一部分,并且在战术上也有所体现,而下一步应该是收集更多有关防守和无球状态的数据。
在篮球中,球员既能进攻也能防守,这一直让我很感兴趣。我想知道篮球的数据分析是否可以应用到足球中,看看我们能在防守方面学到什么并获得优势。在足球中,我们经常谈论人盯人和区域防守,但我们几乎没有任何相关数据来支持这些讨论。而在篮球中,他们称之为防守,并有很多关于单防和双防的数据。这就是我想要看看篮球中的这些防守策略能否应用到足球中的原因。
数据解释及来源在这项特定的研究中,我不会使用我平时常用的那些数据提供商,比如Opta、StatsPerform、StatsBomb和Wyscout。我使用的是来自Metrica Sports的免费数据集,这个数据集包含了追踪数据。你可以在那里找到它:https://github.com/metrica-sports/sample-data/tree/master/data/Sample_Game_1
这个数据集是完全匿名化的,所以我们不知道这是哪个游戏或关于玩家的细节。然而,它让我们很好地了解追踪数据的工作方式,以及如何利用它,并为我们继续研究提供了平台。
今天我们来谈谈人盯人防守体系
在我们讨论篮球中的空间结构之前,我想先明确一下“盯人防守”的定义。在足球中,我们经常会使用区域防守,但在篮球中,为了使概念一致——我们几乎从不看到纯粹的区域防守——我们主要讨论“盯人防守”。
在足球中,人盯人战术是一种防守策略,其中每个防守队员都被指派紧紧跟随并盯防一个特定的对手球员。目标是限制盯防对象的移动,限制他们在比赛中的影响,并减少他们接球和制造有效进攻的机会。在整个比赛中,这一策略旨在减少盯防对象的活动空间,降低其对比赛的影响,并减少其接球或做出有效动作的机会。
目前的篮球研究领域我们试图填补篮球数据分析中的一个空白,通过首次提供一对一防守在球场不同区域有效性定量化的描述来实现。为此,我们提出了一种模型来解释投篮选择(谁投篮及在何处投篮)以及预期的投篮结果。我们将这两个量分别称为投篮频率和效率;参见《全国篮球协会(NBA)》(2014年)获取本文中其他篮球术语的词汇表。尽管数据丰富,但决定这些防守习惯的关键信息却不可得。最重要的是,防守的对位信息不明。虽然人类观察者通常很容易看出谁在防守谁,但这些信息在数据中却并不存在。
_理论上,我们可以通过众包来确定谁在防守谁,然而,标注数据集是一个主观且耗时的过程。其次,为了提供有意义的球员能力空间分析,我们必须采取数据驱动的方法来划分球场区域。因此,在我们开始建立球员能力模型之前,我们设计了从现有数据中提取这些特征的方法。我们的研究还揭示了其他不易察觉的比赛细节。(《专业篮球防守技能的空间结构特征》,Alexander Franks,Andrew Miller,Luke Bornn,Kirk Goldsberry《应用统计年刊》(The Annals of Applied Statistics),第9卷,第1期,第94-121页(共28页))
利用网络分析量化足球场上的无球贡献:无球影响力得分…这可能是我迄今为止最棒但也是最可怕的项目。因为它的缺陷可能很多,但也正因为它的出色,我…marclamberts.medium.com这项研究为我的研究提供了理论框架。他们找到了一种基于数据的方法来衡量NBA职业篮球中的一对一防守,从时间、投篮效率和投篮频率等角度来衡量。虽然这项研究是在2015年进行的,但由于由哈佛统计系的科学家们完成,其价值仍然很高。
转换成足球数据现在这看起来可能有点抽象,但这是合理的。让我们让它具体些。为了让它在足球上发挥作用,我们需要以下内容:
- 追踪数据:跟踪进攻和防守球员的位置和移动
- 射门数据:每名球员和每支队伍的射门频率和预期进球数
- 时间:上场分钟数、比赛场次、控球次数
- 事件记录:每个射门的XY坐标数据。这些数据也来自射门数据,但需要在数据帧中包含更多相关信息。
我要谈论的第一个指标是平均吸引到的注意力。这指的是在某一时刻,一名球员从所有防守队员那里平均吸引到的注意力。我们只关注球员在前半场时的情况,因为否则,指标的范围会太广。
我们可以这样计算:将每个防守者的防守时间总和除以总的比赛时间。
这里就有一个难题。这个指标的难点在于以下事实:用不同运动的追踪数据时,结果会有所不同。然而,如果你想将篮球的追踪数据转换成足球的数据,我们就需要理解并可视化其意义。
射门角度与预期进球(xG)的关系预期进球数。我们已经在数据分析领域讨论它的应用多年,当然不仅限于足球……第一个主要的挑战是,这意味着当一支队伍进攻另一支队伍时,实际上所有10名球员都在同一半场。篮球运动员需要承担一定的进攻和防守的百分比。而在足球中则有所不同,在足球比赛中,我们几乎不会看到11名球员在同一个半场与另外11名球员对抗。这意味着跟踪数据会更加困难。我们正在跟踪数据或视频片段来确定一名球员是否在进行人盯人防守。这是我们首先需要解决的问题,之后我们需要找到一种方法来通过这些数据来衡量足球中的双人包夹防守。
官方来说,这意味着我们需要对人盯人的分析做一些调整。在足球中,我们通过这个指标来确定人盯人防守,即衡量防守球员和进攻球员之间的距离。
例如,当球员A防守一名距离他不超过五米或两米内的进攻球员时,将被记录为盯人防守情况。如果不是这种情况,则不视为盯人防守。我明白在足球中,我们通常也有区域防守或混合防守的方式,这是两者的结合。由于我当前的研究重点是将篮球数据的分析方法应用到足球数据的分析中,所以我将不考虑这些情况,这就是我选择这种方法的原因。
定位球进球了
第一步是将追踪数据可视化,这样我们就可以直观地看到在比赛特定时间球员的位置。这里你可以看到主队(穿红色球衣的)通过任意球得分的一幕。客队(穿蓝色球衣的)正在防守中。
比赛开始后1秒,主队和客队的位置。
接下来是我们挑选出一名特定的防守球员来盯人一名进攻球员,以观察他们在盯人该球员上花费了多长时间。通过观察,我们可以找到盯人时间的平均值;这表明一名球员通过他们被盯人的紧密程度所散发出的威胁或危险程度。
所有玩家用来标记特定进攻球员的总时间:所有玩家平均吸引的关注时长
如果我们看看主队,可以看到Player9是最受客队关注的球员。他上场时,35.79%的时间都被客队盯防了。
所有玩家标注特定进攻球员的平均时间
当我们谈到客队时,可以看到球员吸引的大量注意力。这意味着24号球员是客队中最受关注的球员,并且他在场上时有22.5%的时间被标记为关键球员。
从这些数据可以看出,主队中有个危险人物—Player9,但双方其他球员实力相当。而客队眼中,Player9可是一个需要特别留心的对象。
指标 II:防御性熵值所以让我们来看看Player9,因为数据表明他是一个非常重要、危险并且威胁很大的玩家。也许这个玩家每次在1v1中都能打败他的对手,并且需要被双重盯防。我们怎么知道呢?我们可以用防守熵来说明。
防御熵衡量防守球员在整个对方控球时间内与谁关联的不确定程度。换句话说:谁在防守谁?这可能很有用,因为它能展示防守球员在场上的活跃程度。如果一个防守球员只专注于防守一个特定的进攻球员,他们的防守熵就是0。如果他们平均分配注意力给多个进攻球员,防守熵就是1。通过计算所有防守球员的防守熵,我们就能看出他们更倾向于双人包夹高威胁进攻球员,还是与其他防守球员换防。
在我们弄清楚如何计算之前,我们可以通过下面的公式来计算。
在该公式中,Zn (j, k) 表示防守球员 j 看防进攻球员 k 的时间占比。这给出了一些结果。
在上面的图表中,你可以看到球员在防守混乱程度方面的得分情况。Player11得分最高,但他是一名守门员,所以这个得分对我们分析其他球员没有帮助。我们发现大多数球员更喜欢盯防一名对手,而不是分散力量来盯防多名对手或进行轮换防守。
对于客队也是如此。24号球员得分最高,但他是个门将,所以我们得忽略他的得分。可以看到,大多数球员更倾向于盯防一名球员,而不是盯防更多的球员或换防。
当我们查看整个球队的平均值时,可以看到主队的防守复杂度为0.31,客队的防守复杂度为0.32。这两个数字非常相近,这表明客队在双人盯防或防守换位方面稍微占据优势。
面临的挑战我遇到了两个挑战,需要仔细看看。
- 我在比赛中找过那些控球权时刻,但这并不代表完全具有代表性。标记控球权球员和标记在控球队中的球员是不同的,前者是指实际上拥有球权的球员,而后者则是指在控球队中的球员。另一个方面是考虑防守方虽然控球,但仍需标记对方球员的情况。
- 防守熵的概念源自篮球,但他们专注于标记一两个球员。而在足球中,防守球员往往需要在整个比赛中标记更多球员。这也意味着我需要重新评估数据中标记的定义。
防守熵值衡量球员在防守时的多样性,表明他们通过防守时标记多名对手或应对各种威胁来干扰进攻的有效性。较高的分数意味着更高的参与度和适应性。平均注意力表示防守者对对手的关注度,数值越高表示在防守中投入的精力越多。这些指标共同揭示了球员的防守工作量:高熵值和注意力表明积极参与,但可能造成过度投入,而平衡的数值则表明有效的位置调整。理解这些指标有助于球队更好地优化防守策略,确保球员积极参与但不会负担过重。
在接下来的文章中,我们将探讨这些人盯人策略如何影响射门的质量与数量。敬请期待2025年的内容!
参考资料- 描述专业篮球中防守技能的空间结构: https://www.jstor.org/stable/24522412
- (Metrica Sports)追踪数据: https://github.com/metrica-sports/sample-data/tree/master/data/Sample_Game_1
共同学习,写下你的评论
评论加载中...
作者其他优质文章