用自动机器学习理解歌曲流行度

时间:2019-03-14 21:44:02 阅读:32次

   Spotify在2008年向大众推出音乐服务后掀起了波澜,允许用户流式传输音乐而不是购买唱片或在iTunes上购买歌曲。用户数量几乎是竞争对手Apple音乐的两倍。 Spotify仍然是那些想要听音乐而不必购买所需歌曲或专辑的人的主要来源。

<! - more - >

  前创业公司的一个很酷的方面是,他们的大部分音乐信息(艺术家,专辑,曲目等)都是通过网络API公开的。这包括每首歌曲的属性,例如它的节奏,它有多少能量,它有什么键,等等。就个人而言,我一直对流行歌曲背后的机制着迷。它们的一般特征是什么?他们通常有更多的高能量节拍吗?一定的长度?好吃的名字?我开始使用自动机器学习平台DataRobot凭经验调查这些事情。

  

数据收集

  使用R包spotifyr,我从出现在广告牌年终图表 - 热门100首歌曲列表中的艺术家那里抽出了唱片,可追溯到2010年。该图表根据广播播放情况对艺术家进行排名所有类型的销售数据和流媒体活动。当然,虽然这些艺术家将有流行歌曲,但并非所有的音乐都是热门歌曲。因此,对2010-2017所有歌曲的流行度进行建模将使我们能够研究将流行曲目与不那么流行的歌曲与音乐中最知名的歌曲区分开来。

  对于我的目标,我使用Spotify计算的“受欢迎程度”度量。这是0到100的分数,更受欢迎的曲目具有更高的价值。至于我的功能,我包括艺术家的名字以及有关音轨的各种属性,例如它的流派,歌词,标题,它发布的星期几,以及它的音频功能。

  

探索性数据分析

  首先要探索的一个显而易见的领域是该类型。数据集中的每首歌曲都有一个由Spotify确定的几个类别的列表。使用DataRobot的文本建模器之一,我生成了一个词云来识别哪些类型与流行度最相关。单词越大,发生的次数越多。这个词越红,它就越有可能成为流行歌曲,而更蓝的词则不太受欢迎。

  

  

  

  基于这些数据,似乎“说唱”和“流行”音乐通常表示更受欢迎的音乐,而诸如“流行说唱”或“舞蹈流行音乐”等混合类型似乎并没有引起人们的兴趣。虽然“陷阱音乐”由于其在嘻哈社区中的盛行而显得如此蓝色似乎令人困惑,但可能的另一个原因在于另一个词云:歌词。由于明确的内容,这里没有显示词云,但它确实揭示了一个有趣的发现:明确的词是非常极化的,要么是真正的红色,要么是真正的蓝色。由于这种洞察力,我决定添加一些与歌曲中的亵渎量和一般情绪相关的附加功能。

  

建模和见解

  在DataRobot R软件包的帮助下,我构建了400多个模型,每个模型在不到一个小时的时间内自动调整。为了创建一个更强大的方法,我结合了其中一些模型的预测来构建DataRobot中所谓的“混合器”,它是我后续分析的最终模型。

  

  使用一种称为特征影响的技术,我的搅拌机会告诉我在预测歌曲的受欢迎程度时哪些因素最重要。不出所料,这种类型,曲目歌词,发行日和艺术家都是预测人气的驱动力。但是,我们看到其他属性也起作用,例如亵渎词的持续时间和数量。

  

  

  

  让我们深入了解为什么这些其他因素很重要。使用特征效果,我们可以根据数据集中的所有其他信息分析这些特定特征在估计歌曲流行度方面的关系。

  

  

  

  上图表示曲目持续时间内的强烈非线性关系,其中最不受欢迎的歌曲不到两分钟或超过五分钟。这在臭名昭着的3分钟规则中达到了顶峰,这个规则在热门歌曲的最佳长度上是已知的。

  在基于情感和亵渎性的特征中,歌曲中亵渎词的数量是最重要的。其效果如下所列。

  

  

  

  解释这个情节,似乎一首歌越亵渎,它就越有可能被认为是受欢迎的。这种模式与最近流行歌曲中明确内容的上升一致。然而,它似乎确实有一个递减的回归定律,开始以大约30个亵渎的词开始平稳(看另一个效果产生一些最不受欢迎的歌曲超过20%的歌词被认为是亵渎)。最终,根据历史数据,流行歌曲的关键之一似乎是在显性内容和完全G级别之间取得平衡。

  

Kendrick Lamar:一个案例研究

  现在已经确定了流行歌曲的一般趋势,我想在Kendrick Lamar的一张我最喜欢的专辑DAMN上应用这款搅拌机。这张专辑不仅获得了格莱美最佳说唱专辑,还获得了普利策音乐奖,使得肯德里克成为第一位获此殊荣的非古典或爵士音乐家。

  鉴于它的恶名,我很好奇是否在专辑中存在类似类型的曲目。实现这一目标的一种方法是通过对我收集的原始数据采用某种聚类算法;但是,聚类的一个问题是无法将这些技术应用于更复杂的数据集,例如具有混合数据类型(数字,分类和文本特征)的数据集,我的拥有。

  幸运的是,在预测解释的帮助下,我们可以克服这个问题。预测解释是DataRobot中的一个解释工具,它提供了关于模型为什么在行级进行预测的见解,将光照射到机器学习算法的“黑盒”性质上。

  这些适用于DataRobot内置的任何型号,即使对于我复杂的搅拌机也是如此。这种方法背后的美妙之处在于它可以对我想要的任何歌曲进行数字量化最相关的因素及其影响。在为DAMN上的每个轨道生成这种洞察力之后,我使用这种方法可视化预测解释的相似性。

  

  

  

  上图描绘了哪些歌曲是最相似的歌曲以及根据他们的预测解释存在多少个不同的组(在这种情况下为3)。这个结果的真正酷点在于,红色歌曲是专辑中五大最受欢迎的曲目中的四首,包括“HUMBLE。”和“DNA。”,两者都在Billboard年终图表中 - 热曲100首歌曲列表此外,它将一些最短和最不亵渎的曲目放在同一组中(见“YAH。”,“BLOOD。”和“LOVE.FEAT.ZACARI。”)。 借助预测解释,音乐行业可以凭经验确定哪些歌曲最受欢迎以及为什么会受欢迎,从而获得更好的见解以及与新老艺术家的合作。

  

那么什么?

  虽然这是一个有趣的机器学习应用程序,但它展示了它在音乐行业中可能发挥的作用。音乐制作人和电台管理人员可以从数据角度研究成功歌曲的成就,帮助他们更全面地理解为什么人们会听他们所做的歌曲。考虑到可用音乐的多样性,通过简单的方式获得这样的洞察力是至关重要的。虽然没有创意和主题专业知识的替代品,但采用机器学习方法可以帮助做出这些决定,并最终为每个人带来更好的音乐。

  

  

用自动机器学习理解歌曲流行度所属专题:机器学习专题 《用自动机器学习理解歌曲流行度》链接:http://www.zhouchuanxiong.net/1217

用自动机器学习理解歌曲流行度相关文章