Word Mover的嵌入:Word2Vec的通用文本嵌入

时间:2019-03-06 18:34:44 阅读:3次

  文本表示在许多自然语言处理(NLP)任务中起着重要作用,例如文档分类和聚类,感觉消歧,机器翻译和文档匹配。由于文本中没有明确的特征,开发有效的文本表示是AI和NLP研究的重要目标。在这方面的一个基本挑战是学习通用文本嵌入,它保留每个单词的语义含义,并解释文本的全局上下文信息,如句子或文档中的单词顺序。在2018年自然语言处理经验方法会议(EMNLP 2018;“Word Mover的嵌入:从Word2Vec到文档嵌入”)的论文中,我们介绍了Word Mover的嵌入(WME),这是一个无监督的通用框架,可以学习连续的矢量表示。可变长度的文本,例如句子,段落或文档。 WME嵌入可以很容易地用于各种下游监督和无监督任务。

走向通用文本嵌入

  最近经验上成功的研究机构利用分布或上下文信息以及简单的神经网络模型来获得单词和短语的向量空间表示。其中,Word2Vec [1]和GloVe [2]最为人熟知并广泛使用;由于模型的简单性和可扩展性,它们经过数千亿字和数百万个命名实体的培训。

  受到这些成功的鼓舞,人们致力于学习句子或文档的语义向量表示。一种简单但通常有效的方法是对文档中的一些或所有单词嵌入使用加权平均值。虽然这很简单,但在这样的文档表示中很容易丢失重要信息,部分原因在于它不考虑字序。更复杂的方法[3] [4] [5]侧重于使用类似于Word2Vec的模型联合学习单词和段落的嵌入。但是,这些只在小上下文窗口中使用单词顺序;此外,在这样的模型中学习的单词嵌入的质量可能受到训练语料库的大小的限制,其不能缩放到更简单的单词嵌入模型中使用的大尺寸,并且因此可能削弱文档嵌入的质量。

Word Mover的距离:测量两个文档之间的语义距离

  最近引入了一种称为Word Mover距离(WMD)的新文档距离度量[6]来测量Word2Vec嵌入空间中两个文档之间的不相似性。作为地球移动距离的一个特例,WMD是两个文本文档x,y∈χ之间的距离,它考虑了单词之间的对齐。设| x |,| y |是x和y中不同单词的数量。设 fx R | x |和 fy R | y |表示文档x和y中每个单词的归一化频率向量(因此 fxT 1 = fyT 1 = 1)。然后文档x和y之间的WMD距离定义为:

  

  其中F是交通流矩阵,其中 Fij 表示从x xi 中的第i个字到y 中的第j个字的流量yj ,C是 Cij = dist(vxi,vyj)的运输成本,是在Word2Vec嵌入空间中测量的两个单词之间的距离。建立在Word2Vec之上,WMD对于测量文档之间的距离特别有用和准确,具有语义上接近但语法上不同的单词,如图1所示。

  图1:WMD的图示。所有不间断的单词都标记为粗体。橙色三角形和蓝色圆点分别代表文档x和y的单词嵌入。 WMD测量两个文档之间的距离,其中语义相似的单词是对齐的。

WMD不足

  尽管其基于KNN的分类精度高于其他方法,但结合KNN和WMD会导致非常高的计算成本。例如,计算复杂度为 O(L3log(L))的WMD计算成本很高,特别是对于L较大的长文档。当与KNN结合用于文档分类时,它导致更高的计算成本 O(N2L3log(L)),其中N是文档的数量。更重要的是,WMD只是一个距离,只能与KNN或K-means结合使用,而许多机器学习算法需要一个固定长度的特征表示作为输入。

WME通过Word Mover的内核

  为了给出可变长度文本的无监督语义嵌入,我们扩展了最近提出的距离内核框架[7],以从对齐感知文档中导出正定内核距离度量WMD。我们首先定义Word Mover的内核:

  

  此处,ω可以解释为随机文档 {vj} j = 1,..,D ,其中包含中随机单词向量的集合V p(ω)是所有可能的随机文档Ω = UD = 1,...,DmaxVD 的空间分布。 φw(x)是一个可能无限维的特征映射,它是从x和所有可能的文件ω∈Ω之间的WMD得出的。

  对此内核的深刻理解:

  

  ,其中

  

  和 f(ω)= {WMD(x,ω)+ WMD(ω,y)}

  是由 p(ω)γ参数化的软最小函数的一个版本。当γ较大且 f(ω)为Lipschitz连续时,softmin变量的值主要由 f(ω)<的最小值确定/ em>的。请注意,由于WMD是一个度量标准,我们通过三角不等式得出:

  

  如果我们允许随机文档 Dmax 的长度不小于L,则等式成立。因此,所提出的内核可以很好地逼近任何文档对x之间的WMD, y,如图2所示,它的定义是肯定的。

  图2:WME的图示。所有不间断的单词都标记为粗体。黑色方块表示随机文档ω的随机字嵌入。每个文档首先与随机文档对齐以测量距离WMD(x,ω)和WMD(ω,y),然后通过三角形相等,文档x和y之间的距离WMD(x,ω)可以近似为(WMD) (x,ω)+ WMD(ω,y))。

WME通过随机特征

  鉴于Word-Mover的内核,我们可以使用Monte-Carlo近似:

  

  其中 {ωi} i = 1,...,R 是从 p(ω) Z(x)=(1 /)中提取的iidrandom文档√Rφωi(x))i = 1,...,R 给出文档x的向量表示。我们称之为随机近似WME。一旦计算出WME,它就可以被线性分类器或其他更高级的分类器用作输入特征矩阵。

  与需要 O(N2L3log(L))的KNN-WMD相比,我们的WME近似仅需要 O(NRLlog(L))的超线性复杂度。 D是不变的。这是因为在我们的案例中,由于我们随机文档的D长度很短,因此每次WMD评估只需要 O(D2Llog(L))。对于文档分类任务,当文档较长或文档数量较大时,具有线性SVM的WME可以轻松实现与KNN-WMD相同的分类精度,但速度提高100倍。更重要的是,WME可以在计算成本和准确度之间实现完美的平衡,如图3所示。

  图3:使用固定D改变R时的训练(蓝色)和测试(红色)精度。

  在我们对9个基准文本分类数据集和22个文本相似性任务的实验中,所提出的技术始终如一地匹配或优于最先进的技术(基于KNN-WMD,Word2Vec和Doc2Vec的方法),具有更高的准确性关于短期问题。

Outlook

  学习通用文本嵌入可能会影响机器学习和AI中的几个重要方面。它们自然地设计用于转移学习(或领域适应),因为大多数监督模型专注于开发组成监督模型以创建句子的向量表示。这些表示还将为机器翻译和句子匹配提供良好的预训练句子/文档级嵌入。最后,基于Earth Mover's Distance的机器学习系统还可以利用WME来帮助显着加速计算,并为其底层应用程序学习有效的语义保留表示。


   我们将在11月4日星期日10E:机器学习(海报和演示),上午11:00 - 下午12:30,在大礼堂展示我们的EMNLP论文。


   [1] Tomas Mikolov,Ilya Sutskever,Kai Chen,Greg S. Corrado和Jeff Dean。单词和短语的分布式表示及其组合性。 NIPS 2013.
[2] Jeffrey Pennington,Richard Socher和Christopher D. Manning。手套:单词表示的全局向量。 EMNLP 2014.
[3] Quoc V. Le和Tomas Mikolov。句子和文档的分布式表示。 ICML 2014.
[4]陈敏敏。通过腐败实现文件的高效矢量表示。 ICLR 2017.
[5] Matthew Peters等。深层语境化词语表示。 NAACL 2018.
[6] Matt Kusner,Yu Sun,Nicholas Kolkin和Kilian Weinberger。从单词嵌入到文档距离。 ICML 2015.
[7]吴凌飞,Ian En-Hsu Yen,Fangli Xu,Pradeep Ravikumar和Witbrock Michael。 D2KE:从距离到内核和嵌入。 https://arxiv.org/abs/1802.04956,2018。

Word Mover的嵌入:Word2Vec的通用文本嵌入所属专题:嵌入专题 Word2Vec专题 《Word Mover的嵌入:Word2Vec的通用文本嵌入》链接:http://www.zhouchuanxiong.net/749