利用机器学习窥视NFL教练的心理

时间:2019-03-12 18:27:36 阅读:15次

  与已经使用分析的棒球和篮球不同,足球的数据分析仍处于初期阶段。现在正在进行比赛,以确定如何比其他任何人更好地使用这些数据。由于每个赛季的比赛远少于棒球和许多变数,足球带来了一整套新的分析点,并且挖掘这一新的信息宝库有一个巨大的优势。<! - more - >

  如果我告诉你有可能预测你的对手可能会参加什么类型的比赛怎么办?想象一下,作为一名主教练,每次比赛后,你的AI团队都会提供这样一个简单的报告。这些信息怎么可能有价值?也许它可以用来发现你自己团队中可预测的倾向?或者甚至可以帮助球迷在拉斯维加斯赢得更大的胜利?

  

  尽管NFL的AI采用率相对较低,但NFL组织越来越多地转向高级分析和机器学习来提取洞察力并做出决策。团队正在开始研究和开发人工智能解决方案,这些解决方案更少依赖于直觉,更多地依赖于专业知识,统计数据和数据的组合。今年,NFL开始根据位置数据分享高级统计数据,这可以跟踪玩家的移动。

  

  资料来源:https://nextgenstats.nfl.com/

  在这个简单的例子中,我想展示如何使用DataRobot帮助团队在两场比赛之间做出更好的战术决策。想象一下,自己是负责开发和部署实时游戏模型的专业NFL团队的领先数据科学家。让我们说总经理要求你和你的团队看看你是否可以分析对手的倾向并开发一个模型来预测下一场比赛是跑步还是传球。通用汽车计划使用这种模式来增强和加快人员,计划和包裹的决策过程。

  

DataRobot模型开发周期

   DataRobot建议遵循构建模型的迭代开发周期。该循环提高了性能并大大缩短了开发时间。虽然我不打算在这篇文章中介绍整个周期,但我想强调这个周期的一部分,目的是提供一个最低可行模型(MVM),其中包含未来迭代的见解和计划。

  结果

数据

  数据集包含2009-2018赛季每场常规赛的比赛数据。在原始数据集中,有400K行和255个功能。该练习的目标是提供MVM,因此构建了一个简单的特征选择模型,以将特征数量减少到50.下面是自动化的十大特征的输入数据加上目标的快速摘要。 DataRobot中的探索性数据分析(EDA)功能。

  

   DataRobot可自动生成EDA表,使您可以快速了解培训数据。对于输入数据中的每个功能,如果数据类型为数字,您将了解唯一值的数量,缺失的数据,数据类型和一组描述性统计信息。

使用DataRobot的自动机器学习进行建模

  上传数据后,选择目标“next_play”并点击开始。只需几分钟即可轻松构建多个模型!

  

模型性能

   DataRobot的排行榜自动对样本外验证数据上的挑战者模型进行评分和排序。这是前几个模型的快照。

  

  表现最佳的模型是具有早期停止的极限梯度提升树分类器 - 森林(10x),对数损失为0.5081。

  

见解

  让我们来看看我们在第一次迭代或MVM中学到的东西。

模型评估

  当快速决策至关重要时,有时简单的模型是最好的。 DataRobot包括构建RuleFit分类器的功能。该模型将分类模型构建为每个规则的简单规则+系数的集合。 RuleFit模型已经证明了竞争性能和易于实现和解释的简单规则。以下是使用RuleFit分类器检测到的一些热点:

  •   当它第1或第2次下降且码数在6到10码之间时,下一次比赛的可能性为79%。


  •   当剩下的一半时间少于118秒时,下一次比赛的可能性为17%。


      单独地说,这些规则并不令人惊讶,但结合使用它们可以非常强大且易于实现。

    分类准确度和混淆矩阵

       DataRobot自动计算一些最关键的统计数据,用于测量分类模型的真实性能,包括准确度,灵敏度和精度。

    对于MVM,模型在71%的时间内预测正确的游戏。这对于MVM来说并不坏。也许在模型的后续迭代中,精度可以很好地攀升到80年代。

    在后续迭代中,平衡误报的影响,当模型预测一次运行并且实际的游戏是一个错误的否定时,模型预测传球并且实际比赛是跑步,将是重要的。现在,让我们继续看看MVM的表现如何。

    ROC曲线和预测分布分析

       ROC(接收器操作特性)曲线和预测分布直方图是很好的工具,可帮助您分析性能,稳健性和设置阈值,以选择是否下一个播放是传球还是跑步。


    在这种情况下,事件是一个运行。绿色分布(右)代表所有运行,紫色分布代表所有通道。橙色线是最佳阈值,选择最大化精确度和召回之间的平衡。分布中存在显着的重叠,这意味着有时很难预测下一个分布。

    特征效果

      分析个别特征及其对调用跑步或传球游戏倾向的影响非常有见地。有时使用部分依赖(PD)来衡量的特征效应可以强化你的直觉或者将其称为问题。部分依赖图说明了给定特征对预测值的边际效应。部分依赖图可以显示目标与特征之间的关系是线性的,单调的还是更复杂的。我看了一下最重要的功能,进行了更深入的探讨。

    去码(yrdstogo)

      

      对于码数而言,您会看到一些有趣的趋势,因为首次下降所需的距离会增加。有趣的是,跑步的时间比例通常从1-9码增加。当yrdstogo = 10时有一个下降。每个系列以第一个和第10个开始,但是如果你抛出一个不完整的传球或者没有获得任何码数,那么yrdstogo仍然等于10.数据的模式也是10。部分依赖图正在接受yrdstogo与运行频率之间的关系,但正在混淆所有其他特征的边际效应,如向下。这种见解引发了更深层次的深入,我们可能会在后续迭代中触及。

    向下(向下)

      

      分析向下的PD图,它显示了下降对调用运行的可能性的边际影响(保持所有其他特征不变)。毫不奇怪,跑步的可能性在第1和第2次下降最高,但我对第4次下降时的边际效应感到惊讶。我预计跑步的可能性要高得多,因为我假设大多数第四场比赛不是平局或场上进球是第四和更短。这种效果必须是绝望传球,半场结束或低风险的比赛和第四场和短场比赛的组合,这可能会降低比赛的可能性。

    触地概率(td_prob)

      

      在追球概率最高的球门线情况下,跑动的可能性增加。 td_prob对跑步可能性的边际效应显示出一种积极的关系,其水平约为44%。

      

    结论

      如此多的NFL球队正在寻找他们在比赛中获得的优势。抄袭其他体育运动中发生的体育分析革命(例如棒球中的Moneyball以及对NBA中3pt投篮的依赖),NFL球队越来越倾向于寻找他们数据的优势。体育分析将继续改变职业体育,人工智能在变革中发挥着重要作用。在这个简单的例子中,我们展示了机器学习的力量,以帮助做出实时决策。利用历史游戏数据的MVM产生的模型能够以71%的准确度预测下一个游戏。以下是有关保持数据的预测快照。

      

      在预测的运行概率(交叉验证预测)的极端情况下,MVM表现相当不错,但模型的实际功能将在结果不确定时揭示趋势。

      首先,MVM看起来很有希望,并且在随后的迭代中,预计会有所改进。一些可能的后续步骤将是设计新功能,例如每个向下的团队运行概率或具有情境意识的功能。我还想测试DataRobot的时间序列功能,看看我是否可以构建一个更强大的模型。

      

      

  • 利用机器学习窥视NFL教练的心理所属专题:机器学习专题 《利用机器学习窥视NFL教练的心理》链接:http://www.zhouchuanxiong.net/1179

    利用机器学习窥视NFL教练的心理相关文章