一种多义词词向量消歧方法技术

技术编号:19543726 阅读:35 留言:0更新日期:2018-11-24 20:36
一种多义词词向量消歧方法,属于文本挖掘和机器学习的交叉技术领域,包括(1)文本语料获取以及预处理:采用搜狗新闻文本分类语料,然后进行分词、去停用词的预处理步骤;(2)BTM主题模型建模;(3)词语对应主题的概率计算;(4)向量模型计算词向量和主题向量;(5)多义词词向量构造并对应主题的概率P(z|w)对连接过程中的主题向量进行加权处理,实现对相同词语在不同上下文中的不同意思的区分,得到正确的多义词词向量。本发明专利技术有助于将汉语词义消歧扩展到短文本领域;通过利用主题模型和词向量的结合,不需要人力进行数据标注,有助于海量的短文本数据挖掘,更加省时省力;有助于电商网站进行个性化商品推荐。

A Vector Disambiguation Method for Polysemy Words

A polysemous word vector disambiguation method belongs to the cross-technical field of text mining and machine learning. It includes: (1) text corpus acquisition and preprocessing: using Sogou news text classification corpus, then preprocessing steps of word segmentation and word deactivation; (2) BTM topic model modeling; (3) probability calculation of words corresponding to topics. (4) Vector model calculates word vectors and subject vectors; (5) Construction of polysemous word vectors and the probability of corresponding topic P (z | w) weights the subject vectors in the connection process to realize the distinction of different meanings of the same words in different contexts and get the correct polysemous word vectors. The invention is helpful to extend Chinese word sense disambiguation to the field of short text; by using the combination of subject model and word vector, it does not need human resources to tag data, helps massive short text data mining, saves time and labor, and helps e-commerce websites to carry out personalized commodity recommendation.

【技术实现步骤摘要】
一种多义词词向量消歧方法
本专利技术属于文本挖掘和机器学习的交叉
,具体涉及多义词词向量模型,尤其涉及到多义词词向量模型的词义消歧方法以及在短文本中的消歧应用。
技术介绍
汉语的表达方式多种多样,不同的词语在不同的语境中具有不同的含义,而怎么样得出词语的正确语义,专家有很多的解决方法,同时也存在很多一些问题,主要有:1)基于知识的方法,基于人工构造的文本库以及语料库,优势在于结果的准确率相对较高,这些准确率主要来源于各种已经确定的语料库,但是对于某些领域来说,语料库相对不健全,因此难免会遇到语料库特征稀疏的问题,受限于知识构建的完整程度。2)有监督的方法,基于人工对语料数据的标注,但是强烈依赖于已经标注好的语料库数据,但对于没有标注的语言来说,这种方法不适用与词义消歧,这种方法对于标注数据依赖性太强。3)无监督的方法,基于不完全需要语料库以及各种语言标注信息,因此有更好的适用性,但是准确性相对较低。由此可知,现有的词义消歧方法面临着语料依赖程度高,人工标注繁琐以及准确率低的问题,因此对词义消歧方法有待进一步探究。
技术实现思路
本专利技术提供准确率高的一种基于主题模型和词向量模型的多义词词向量消歧方法。本专利技术的技术方案,一种多义词词向量消歧方法:(1)文本语料获取以及预处理:采用搜狗新闻文本分类语料,然后进行分词、去停用词的预处理步骤,最后的每个类别的文档按照80%作为训练数据,20%作为测试数据。(2)BTM主题模型建模,即用吉布斯采样的方法,对短文本中的分类语料进行主题标注,并得到每一个词语对应的主题以及主题-主题词矩阵A。(3)词语对应主题的概率计算,从(2)中得到的主题-主题词矩阵A,进行转置,得到主题词-主题矩阵B,通过贝叶斯公式,最后得到词语对应主题的概率P(z|w)。(4)向量模型计算词向量和主题向量,从(2)中得到每个词语的主题标注,作为向量模型的输入,分别对词语和主题进行向量训练,得到词向量簇W和主题向量簇Z,词向量w和主题向量z分别表示其中的一个向量。(5)多义词词向量构造,将(4)中训练得到的词向量w和主题向量z进行连接(首尾合并),并依照(3)中得到的词语对应主题的概率P(z|w)对连接过程中的主题向量进行加权处理,实现对相同词语在不同上下文中的不同意思的区分,得到正确的多义词词向量。本专利技术有助于将汉语词义消歧扩展到短文本领域;通过利用主题模型和词向量的结合,不需要人力进行数据标注,有助于海量的短文本数据挖掘,更加省时省力;有助于电商网站进行个性化商品推荐。附图说明图1是多义词词向量框架图。图2是主题数目参数估计。图3是多义词词向量窗口大小估计。图4是多义词词向量维度长短估计。图5是文本分类结果。具体实施方式实施例1:数据集构成本次实验的数据集分为两个部分,一种是电商评论数据和简体中文维基百科语料,另一种是搜狗新闻文本分类语料,前者主要用来做定性评价,后者用来做定量评价。第一种,为了对多义词更好的进行定性评测,这里选取电商评论数据和简体中文维基百科语料相结合,因为单一领域的文本语料中一词多义的现象比较少,难以对一词多义现象进行定性描述,并且维基百科领域范围广,适合对一词多义进行挖掘。电商评论数据一共4904600条评论,对维基百科语料的处理经过抽取正文内容、繁简转换、去停用词以及分词之后,得到一共361668条词条,1576564行。部分预处理之后的语料如下:表1预处理后部分实验数据第二种,主要是采用搜狗新闻文本分类语料,由于本文主要对短文本进行分析,并且对于短文本的分类数据比较少,因此这里对搜狗新闻分类语料进行了处理。首先通过语料构造合适的短文本,这里对语料的大小进行过滤,去除大于1.5k的新闻数据,1.5k的文本语料大约500字左右,并且每个分类语料中至少有三段话,因此每段话的字数大约150字左右,符合短文本特征,过滤之后的文档数量如表4-3。由于以上对分类预料进行了处理,造成分类数据的不平衡,并且因为大部分数据在3500篇文档左右,这里对每个类别采用3500篇文档,对数量不足的进行过采样,数量超过3500篇的进行欠采样。最后的每个类别的文档按照80%作为训练数据,20%作为测试数据。表2搜狗分类语料过滤之后文档数量实施例2:多义词词向量训练图1所示,多义词词向量算法,将词语向量和主题向量分别进行计算,结合BTM主题模型训练之后的结果word:(topicnumber),将词语向量和主体向量通过式子进行连接,表示将词向量w和主题向量z进行连接,wz的长度为词向量w和主题向量z的长度值和。在这里词语向量的长度和主体向量的长度不需要一样长。BTM主题标注。BTM主题模型的参数推理,这里使用吉布斯采样过程,得到文本集中每篇文档的每个词语对应的隐含主题。同时,由于Skip-gram在较大语料库上的训练效果要比CBOW模型好,本章在这里采用Skip-gram训练模型。BTM模型中的主题采样公式如下:表示去除词对b之外的词对,M表示语料中互不相同的词语,α和β为狄利克雷中的超参数,nbi|z是当前词语bi被分配为主题z的总次数,M表示文本集中互不相同的词语。对于整个文本集的文档-主题分布参数θ和主题-词分布参数φ的估计如下式:以上两个式子中,K代表主题个数,M为语料库中不相同词语的个数,不考虑重复的词语,nz表示主题z的个数,nw|z表示主题z下词ω出现的次数。为了构造多维词向量,这里的多维指的就是主题对词语进行区分的维度。因此需要从BTM主题模型中得到每个词语wi的主题z,利用BTM主题模型对词语wi对应的主题z进行预测。假设文档为d,推导过程如下,首先将P(zi|wi,d)视为(zi|wi)和d的联合分布,因此,有因为P(d)以及P(wi)可以根据文本集直接算出来,因此最后得到P(zi|wi,d)∝P(wi|zi)P(zi|d)(6)从BTM主题模型中,通过训练,得到词对应的主题编号word:(topicnumber)、词语编号wordmap和每个词语对应主题的概率P(z|w)。P(z|w)表示的为词语w对应不同主题z的概率,在主题模型中,可以知道P(w|z),有这个参数对P(z|w)进行参数推理,利用贝叶斯公式,有其中,对于主题模型来说,每个主题出现的概率是相同的,即P(z)相等,且V表示一个主题下的所有词语,式子(4)说明同一主题下所有主题词语的概率和为1,因此(7)得到的最终概率为T表示总的主题个数。例子如下,有四个词语“手机”、“质量”、“特别”、“好”,以及四个主题,概率如表3:表3部分主题-词概率表最终通过式子(9)算出“手机”的P(z|w)为(0.4,0.2,0.1,0.3),同理“质量”为(0.5,0.1,0.3,0.1),“特别”为(0.2,0.1,0.2,0.5),以及“好”为(0.2,0.3,0.2,0.3)。向量计算。这里将每个词语对应一个主题转化为每个词语可以对应T个主题,词语向量和主题向量通过式子(1)连接,相同词的词语向量一致,主要是后面的主题向量不同。通过以上的方式可以对向量维度进行降低,缓解数据的维度灾难。主要构造的似然函数为,这里主题向量的softmax归一化概率如下,实施例3:实验验证过程(1)定量验证1)词向量相似度表4word2ve本文档来自技高网...

【技术保护点】
1.一种多义词词向量消歧方法:包括下述内容:(1)文本语料获取以及预处理:采用搜狗新闻文本分类语料,然后进行分词、去停用词的预处理步骤;(2)BTM主题模型建模,即用吉布斯采样的方法,对短文本中的分类语料进行主题标注,并得到每一个词语对应的主题以及主题‑主题词矩阵A;(3)词语对应主题的概率计算,对主题‑主题词矩阵A进行转置,得到主题词‑主题矩阵B,通过贝叶斯公式,得到词语对应主题的概率P(z|w);(4)向量模型计算词向量和主题向量,将主题标注作为向量模型的输入,分别对词语和主题进行向量训练,得到词向量簇W和主题向量簇Z,词向量w和主题向量z分别表示其中的一个向量;(5)多义词词向量构造,将词向量w和主题向量z通过⊕进行连接,⊕表示将词向量w和主题向量z进行连接,wz的长度为词向量w和主题向量z的长度值和;并依照词语对应主题的概率P(z|w)对连接过程中的主题向量进行加权处理,实现对相同词语在不同上下文中的不同意思的区分,得到正确的多义词词向量。

【技术特征摘要】
1.一种多义词词向量消歧方法:包括下述内容:(1)文本语料获取以及预处理:采用搜狗新闻文本分类语料,然后进行分词、去停用词的预处理步骤;(2)BTM主题模型建模,即用吉布斯采样的方法,对短文本中的分类语料进行主题标注,并得到每一个词语对应的主题以及主题-主题词矩阵A;(3)词语对应主题的概率计算,对主题-主题词矩阵A进行转置,得到主题词-主题矩阵B,通过贝叶斯公式,得到词语对应主题的概率P(z|w);(4)向量模型计算词向量和主题向量,将主题标注作为向量模型的输入,分别对词语和主题进行向量训练,得到词向量簇W和主题向量簇Z,词向量w和主题向量z分别表示其中的一个向量;(5)多义词词向量构造,将词向量w和主题向量z通过⊕进行连接,⊕表示将词向量w和主题向量z进行连接,wz的长度为词向量w和主题向量z的长度值和;并依照词语对应主题的概率P(z|w)对连接过程中的主题向量进行加权处理,实现对相同词语在不同上下文中的不同意思的区分,得到正确的多义词词向量。2.根据权利要求1所述一种多义词词向量消歧方法,其特征在于,文本语料获取以及预处理过程之中,通过文档大小的判别方法从复旦文本分类语料中,找到实验所需的短文本分类语料,并进行后续处理。3.根据权利要求1所述一种多义词词向量消歧方法,其特征在于,在词语对应的主题概率计算,运用贝叶斯公式进行处理,得到词-主题概率P(z|w);P...

【专利技术属性】
技术研发人员:谢珺李思宇梁凤梅刘建霞
申请(专利权)人:太原理工大学
类型:发明
国别省市:山西,14

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1