一种词向量模型的生成方法及装置、设备、存储介质制造方法及图纸

技术编号:21247249 阅读:27 留言:0更新日期:2019-06-01 07:31
本发明专利技术实施例公开了一种词向量模型的生成方法及装置、设备、存储介质,其中,所述方法包括:确定待训练的语料库;对所述待训练的语料库中文本的每一词语进行词义标注,得到标注后的语料库;采用doc2vec词向量表示模型对所述标注后的语料库对进行训练,得到所述标注后的语料库对应的词向量模型。

A Method of Generating Word Vector Model and Its Devices, Devices and Storage Medium

The embodiment of the present invention discloses a method for generating a word vector model and a device, device and storage medium, in which the method includes: determining the corpus to be trained; tagging each word of the text in the corpus to be trained to obtain the tagged corpus; training the tagged corpus with the doc2vec word vector representation model, and obtaining the tagged corpus. To the word vector model corresponding to the tagged corpus.

【技术实现步骤摘要】
一种词向量模型的生成方法及装置、设备、存储介质
本专利技术涉及词语的特征表示,尤其涉及一种词向量(wordembedding)模型的生成方法及装置、设备、存储介质。
技术介绍
词向量是词语的特征表示,通过语义词典或机器学习技术将每个词语表示为固定长度的向量。目前,词向量模型在语义网、信息检索、数据挖掘、信息集成、知识管理、文本分类、语音识别、词义消歧等领域发挥着越来越重要的作用。词向量的表示方法主要分为独热表示(One-hotrepresentation)和分布式表示(Distributedrepresentation)两种。分布式表示是目前表示词语特征的常用方式。目前,词向量的分布式表示方式分为两种,一种是词语维度的向量表示模型,如word2vec,一种是文章或段落维度词向量表示模型,如doc2vec。词语维度词向量表示模型具有一定的语义特性,可以根据临近词的语境或词义推测该词的词义。而文章或段落维度词向量表示模型输入不只是邻域窗口内的几个词语,还加入了语料库文本的全局信息,将全局的上下文语境以及邻域词语一起训练神经网络模型,相当于每次在预测单词的概率时,都利用了整个句子的语义。上述两种词向量表示模型,均通过设置固定大小窗口作为预警输入来训练词向量模型,对于多义词,一个词语往往能够表达多个词义,且多义词不同词义的上下文语境也不同,词向量模型弱化了单独的词义在文本分类中的应用。
技术实现思路
有鉴于此,本专利技术实施例为解决现有技术中存在的至少一个问题而提供一种词向量模型的生成方法及装置、设备、存储介质,每个多义词的不同词义均对应唯一的词向量,并且对每个词的词性进行了标注,相比现有词向量技术对于词义的表达更为准确。本专利技术实施例的技术方案是这样实现的:本实施例提供一种词向量模型的生成方法,所述方法包括:确定待训练的语料库;对所述待训练的语料库中文本的每一词语的各词义进行词义标注,得到标注后的语料库;采用doc2vec词向量表示模型对所述标注后的语料库对进行训练,得到所述标注后的语料库对应的词向量模型。本实施例提供一种词向量模型的生成装置,所述装置包括:第一确定单元,用于确定待训练的语料库;标注单元,用于对所述待训练的语料库中文本的每一词语的各词义进行词义标注,得到标注后的语料库;训练单元,用于采用doc2vec词向量表示模型对所述标注后的语料库对进行训练,得到所述标注后的语料库对应的词向量模型。本实施例提供一种词向量模型的生成设备,包括存储器和处理器,所述存储器存储有可在处理器上运行的计算机程序,所述处理器执行所述程序时实现所述词向量模型的生成方法中的步骤。本实施例提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现所述词向量模型的生成方法中的步骤。本专利技术实施例提供的一种词向量模型的生成方法及装置、设备、存储介质,其中,确定待训练的语料库;对所述待训练的语料库中文本的每一词语进行词义标注,得到标注后的语料库;采用doc2vec词向量表示模型对所述标注后的语料库对进行训练,得到所述标注后的语料库对应的词向量模型;如此,每个多义词的不同词义均对应唯一的词向量,并且对每个词的词性进行了标注,相比现有词向量技术对于词义的表达更为准确。附图说明图1为WordNet的结构图;图2为本专利技术实施例词向量模型的生成方法的实现流程示意图;图3为本专利技术实施例词向量模型的生成方法的实现流程示意图;图4为本专利技术实施例词向量模型的生成方法的实现流程示意图;图5为本专利技术实施例词向量模型的生成装置的组成结构示意图;图6为本专利技术实施例中计算设备的一种硬件实体示意图。具体实施方式词向量的表示方法主要分为独热表示(One-hotrepresentation)和分布式表示(Distributedrepresentation)两种。分布式表示是目前表示词语特征的常用方式。目前,词向量的分布式表示方式分为两种,一种是词语维度的向量表示模型,如word2vec,一种是文章或段落维度词向量表示模型,如doc2vec。word2vec等词语维度的词向量表示模型是通过取一个适当大小的窗口(一般为5个词语)当作语境输入来训练神经网络模型,将每一个词映射成一个固定长度的n维向量,将所有向量放在一起形成一个词向量空间,而每个向量则为该空间中的一个点,因此可以根据词之间的距离来判断它们之间的相似度。这种词语维度词向量表示模型具有一定的语义特性,可以根据临近词的语境或词义推测该词的词义。而doc2vec等文章或段落维度词向量表示模型同样利用了神经网络模型,但是其输入不只是邻域窗口内的几个词语,还加入了语料库文本的全局信息,将全局的上下文语境以及邻域词语一起训练神经网络模型,相当于每次在预测单词的概率时,都利用了整个句子的语义。doc2vec模型将每篇文章或一段文本映射为一个文本向量,同时可以利用了整个句子的语义将一个词映射为一个词向量。该模型可以具有更强的语义特性,具有对上下文进行语义分析的能力。WordNet是一个覆盖范围宽广的英语词汇语义网。名词、动词、形容词和副词各自被组织成一个同义词的网络,每个同义词集合都代表一个基本的语义概念,并且这些集合之间也由各种关系连接,如同义词、反义词等关系。参见图1,英文单词“wet(湿的)”与英文单词“dry(干的)”之间具有反义词(antonymy)的连接关系,而与“wet”具有同义词(similarity)连接冠词的有五个单词。一个多义词将出现在它的每个意思的同义词集合中。在自然语义处理以及人工智能的各方面研究都具有重要的价值。在WordNet中查询“animal”一词的同义词结果如下:Synset(‘animal.n.01’)alivingorganismcharacterizedbyvoluntarymovementSynset(‘animal.s.01’)markedbytheappetitesandpassionsofthebody这个结果说明,“animal”这个单词它有两个意思,一个是指动物,是名词;一个是指来自动物的,是形容词。animal.n.01是对名词animal的编码标识。word2vec词向量表示模型是通过取一个适当大小的窗口(一般为5个词语)作为语境输入来训练词向量模型。这种词语维度词向量表示模型具有一定的语义特性,可以根据临近词的语境或词义推测该词的词义,但是该词向量模型对于每个词语都使用唯一的词向量表示,即使一个词语能够表达多个词义也不例外。由于多义词不同词义的上下文语境也不同,例如“Apple”可以表示水果,也可以表示苹果电子产品这种品牌。对于每个多义词来说,这两种模型训练出的词向量实际上是多个词义的一个折中,这在一定程度上弱化了每个单独的词义例如在文本分类的应用中,一些词语在不同文本中表达的词义各不相同,如果词向量不同区分每个多义词的词义,必然造成分类准确性的下降。同时,这种模型训练出的词向量也无法区分一个词语的词性,是名词、动词、还是形容词,同一个词语可能具有多个词性,如“desert”一词作为动词时表示遗弃的含义,作为名词时就表示沙漠的含义,因此词性的区分对于文本分类以及对文本的理解很重要。下面结合附图和实施例对本专利技术的技术方案进一步详细阐述。本实施例提本文档来自技高网...

【技术保护点】
1.一种词向量模型的生成方法,其特征在于,所述方法包括:确定待训练的语料库;对所述待训练的语料库中文本的每一词语的各词义进行词义标注,得到标注后的语料库;采用doc2vec词向量表示模型对所述标注后的语料库对进行训练,得到所述标注后的语料库对应的词向量模型。

【技术特征摘要】
1.一种词向量模型的生成方法,其特征在于,所述方法包括:确定待训练的语料库;对所述待训练的语料库中文本的每一词语的各词义进行词义标注,得到标注后的语料库;采用doc2vec词向量表示模型对所述标注后的语料库对进行训练,得到所述标注后的语料库对应的词向量模型。2.根据权利要求1所述的方法,其特征在于,所述对所述待训练的语料库中文本的每一词语的各词义进行词义标注,得到标注后的语料库,包括:确定所述待训练的语料库中每一所述词语的所有词义的词义向量;确定每一所述词语在所述待训练的语料库中的上下文信息,确定所述上下文信息的文本向量;计算所述文本向量与所述词义向量之间的距离,将距离最大对应的词义为所述待训练的语料库中对应的词语进行词义标注,得到标注后的语料库。3.根据权利要求2所述的方法,其特征在于,所述确定所述待训练的语料库中每一词语的所有词义的词义向量,包括:采用doc2vec词向量表示模型对所述待训练的语料库对进行训练,得到文本向量模型;基于所述文本向量模型确定每一所述词语的所有词义的词义向量。4.根据权利要求3所述的方法,其特征在于,所述方法还包括:根据所述待训练的语料库的语言种类确定对应的词汇语义网络,所述词汇语义网络至少描述每一词语的词义;基于所述词汇语义网络获取所述待训练的语料库中每一词语的所有词义。5.根据权利要求4所述的方法,其特征在于,所述词汇语义网络至少描述每一词语的属性,所述属性包括词义编码和与其他词语的连接关系,所述连接关系...

【专利技术属性】
技术研发人员:李小涛游树娟牛亚文
申请(专利权)人:中国移动通信有限公司研究院中国移动通信集团公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1