利用自动机器学习将梦幻足球分析提升到新的水平

时间:2019-03-14 21:45:19 阅读:24次

  随着美式足球赛季的快速发展,DataRobot上有很多人忙着收集历史足球数据,并在期待幻想足球的情况下刷新他们的模特。在这篇文章中,我们邀请了四位我们的核心幻想专家,通过将数据科学应用于足球来分享他们如何痴迷。他们的方法涵盖了NCAA(大学)和NFL(职业)足球。

<! - 多 - >

  

预测玩家表现

   Ben Miller(面向客户数据科学)

本是数据科学家和前职业篮球运动员。 Ben撰写了关于评估NBA球员表现的主题(请参阅他的博客文章)。而且,谈到足球,Ben采取了类似的方法:

  这一切都始于收集历史足球数据。 Ben使用fantasydata NFL作为历史球员统计数据的一个来源。如果他正在玩DraftKings,他会使用来自fantasydata NFL的数据来预测每个玩家将在其DataRobot项目中作为目标而得分的DraftKings点数。这个想法是建立一个预测模型,了解我们的历史统计数据和DraftKings幻想点之间的关系。

  获得历史数据集和预测目标(DraftKings幻想点)后,依靠DataRobot的建模引擎,该引擎可自动设计从历史数据中获取的数百个功能。创建的特征包括一组简单的历史滞后,如平均值,标准偏差,中位数,最小值和最大值。这些功能是针对每个统计信息在许多不同的时间段创建的。

  

  预测未来的能力是如何利用顶级模型来帮助预测玩家下周的表现。

   DataRobot还自动设计更复杂的时间序列特征,如布林带和滚动熵。然后,DataRobot将构建并测试许多模型,并使用样本外验证数据通过预测准确性对每个模型进行排序。建模完成后,每个模型都可立即用于对新数据进行预测。对未来做出预测的能力是如何利用顶级模型来帮助预测玩家下周的表现。

当他通过添加文本数据构建模型时,Ben使用了一点秘诀。 DataRobot包括一个文本挖掘引擎,可自动从非结构化文本中提取预测信息。向您的数据添加一些玩家幻想新闻将添加有价值的信息。例如,如果您的QB是“护理3级腿筋拉力”,则文本挖掘引擎将提取该信息并将其针对目标进行回归。如果此文本与性能下降相关联,DataRobot的模型将利用该信息降级评分点的预测。

  最后,Ben还包括拉斯维加斯和幻想体育网站预测形式的其他复杂数据。这些类型的数据依赖于高度复杂的分析和其他建模技术。将此数据添加到模型中将基本上将模型与模型“整合”并创建高度精确的模型。尝试尝试这些和其他数据,以快速查看您的模型是否有所改进。

  

挑选大学橄榄球冠军

   Taylor Larkin(数据科学传播者)

   Taylor是DataRobot大学的数据科学家。毕业于阿拉巴马大学(Roll Tide!),泰勒是一个巨大的大学足球迷,他喜欢为他的母校工作,并参加像ESPN学院选秀的幻想比赛。

  大学Pick'em的想法非常简单:每周你都会获得10场大学橄榄球比赛,然后选择你认为会赢的人。而且,根据格式,您可能需要对自己对决策的信心程度进行排名。随着周数的进展,您可以根据您正确选择的游戏数量和信心水平来获得积分。

  

  获得优势的诀窍是比其他人更好地降低风险。

  使用有关给定游戏的点差的公开信息,泰勒手动建立模型以确定如何以风险规避的方式对这些游戏进行最佳排名。在过去的一年里,他有机会使用DataRobot,他将更多的手动流程转变为自动化的机器学习工作流程。在去年的比赛中,泰勒尝试了几种不同的策略,用于预测如何使用DataRobot对游戏进行排名。他发现使用DataRobot的频率严重性模型最为成功。

  这些模型通常用于保险定价,分两个阶段运行,估算同一模型中的操作风险和损失。对于Pick'ems,他使用这些模型来(1)??预测一支球队有机会获胜的可能性(2),他们将获胜多少分?此输出表示团队将赢得的预测分数,并由该团队赢得特定游戏的机会加权。

  以下是Taylor完全根据DataRobot的排名预测制作的条目,该排名位于第99百分位。

  

  

  

泰勒想看看他是否可以通过运用他对大学橄榄球的领域知识来改进他的预测。通过利用他对游戏的理解,泰勒能够将他的表现提升到百分之百,证明了主题专业知识在数据科学中的重要性。一个简单的例子就是当泰勒看到阿拉巴马被DataRobot评为7分的比赛时,他的领域知识(或者有人会说对阿拉巴马的盲目效忠)导致他将其改为10分。凭借他的额外见解,泰勒将他的选秀权提高到了第100个百分点。

  

  

  

  虽然预测体育运动的结果由于差异的程度而具有挑战性,但这并不意味着它是一个轻浮的冒险。无论您是与朋友竞争还是与拉斯维加斯竞争,我们在观看比赛时都会遇到同样的不确定性。获得优势的诀窍是比其他人更好地降低风险。

  

识别数据的历史趋势

   Gareth Goh(客户营销经理)

  泰勒正在忙着分析数据,而白天的客户营销经理加雷斯和夜间的梦幻足球半专业人士 - 采取了另一种方法,回过头来考虑历史趋势。正如我们在泰勒看到的那样,能够添加自己的见解可以给你带来优势。

  美式足球是一种充满变化的小样本剧场。 NFL赛季仅包括16场常规赛(相比之下NBA的82场比赛和MLB的162场比赛),而一支典型的NFL球队平均每场比赛只能进行70次进攻(相比之下,每支NBA球队有超过100次进攻) 。再加上这项运动通常具有随机性和不可预测性,很难获得足够的样本量来获得结论性的结果。

  然而,尽管数据样本相对较少,但分析历史数据可以揭示一些有趣的趋势和发现,可以由精明的梦幻足球运动员应用,以获得其他联盟的优势。关键是要把你的发现与一粒盐;在特定的样本大小中是否有足够的数据点来将信号与噪声分开?

  

  将你的发现与一粒盐,抛弃可能不公平地扭曲你的趋势的任何数据点,并超越表面水平分析深入潜水,你可能会获得赢得你所需要的优势幻想足球联赛。

  例如,所有体育项目的职业运动员往往在主场优势方面表现更好。无论是由于主场球迷的支持,日常的舒适,还是避免旅行的身体劳动,有足够的数据表明家中的球员将比他们在路上的比赛更高水平。

  匹兹堡钢人队四分卫本·罗特利斯伯格(Ben Roethlisberger)将主场/公路分裂推向极致。在过去的四个NFL赛季中,Roethlisberger已经打了28场主场比赛,场均得分为26.2分。在同一时期,他打了32场客场比赛,平均每场比赛只有15.69分。这是一个巨大的差异,它已经在足够大的样本量上诞生,以代表统计学意义。在钢人队前进的几个星期,你可能想要在你的备用QB中加入大本。

  在你的幻想联盟中拥有Ben Roethlisberger的团队将对这个小小的金块感兴趣,但其他所有者也可以受益。你的幻想铆钉一直很难,但如果你有更好的选择,那么坐在外接手Antonio Brown身上也许是明智之举。毕竟,如果Ben努力投球,安东尼奥可能会发现接待和达阵的机会减少。如果你拥有在路上与钢人队对抗的防守,这可能是一个很好的机会,因为Roethlisberger倾向于在公路比赛中投掷更多的拦截。

  仅仅因为样本量很小,并不意味着它们仍然不能被启发。把你的发现带到一块盐,抛弃可能不公平地扭曲你的趋势的任何数据点,超越表面水平分析深入潜水,你可能获得赢得梦幻足球联赛所需的优势。真正利用这些历史趋势的方法是将自己的见解与模型创建的见解结合起来。一旦开始使用模型,您就可以通过使用功能影响等数据来量化最有用的统计数据,从而在多个参与者中找到这些趋势。

  

更好地管理您的梦幻足球队

   Rajiv Shah(数据科学家)

   Rajiv是面向数据科学家的客户,他直接与DataRobot的客户合作,使他们取得成功。在过去,拉吉夫利用他的数据科学知识和技术帮助人们更好地管理他们的梦幻足球队。很多人参加像FanDuel这样的网站上的梦幻足球比赛,他们必须使用工资帽来组建表现最佳的球队。虽然您可以像Ben那样使用分析来评估玩家的表现,但您也可以使用分析来优化给定工资上限的最佳团队。这种类型的优化问题被称为“背包问题”或分配问题。

  

  作为一个起点,每个足球运动员都有一个价格,并且有工资上限。挑战在于优化您的团队以产生最高总积分,同时保持在工资上限范围内。一个简单的优化策略会将最高总分数列入团队的工资帽。稍微复杂的方法将开始考虑一种称为堆叠的策略,您可以确保您的QB和WR在同一个团队中。

  甚至还有一些前沿的优化方法可以尝试和预测你的幻想对手在一场对决中的球员组成。毕竟,有一些球员更受欢迎。利用这些知识,您可以预测可能会反对您的团队的团队。以下是一些更多信息的链接。

  

最后的口哨

  将高级分析分析与幻想足球工作相结合时,需要考虑许多因素,我们希望此博客能够让您深入了解如何为您的梦幻团队选择获胜阵容,或挑选能够自信获胜的球队。构建预测模型并将它们与您自己的知识相结合,可以为您的竞争对手提供优势。玩奇幻运动很有趣,但获胜会让它变得更好!

  

  

利用自动机器学习将梦幻足球分析提升到新的水平所属专题:机器学习 《利用自动机器学习将梦幻足球分析提升到新的水平》链接:http://www.zhouchuanxiong.net/1233