一种词向量模型的生成方法及装置、设备、存储介质制造方法及图纸

技术编号：21247249 阅读：27 留言：0更新日期：2019-06-01 07:31

本发明专利技术实施例公开了一种词向量模型的生成方法及装置、设备、存储介质，其中，所述方法包括：确定待训练的语料库；对所述待训练的语料库中文本的每一词语进行词义标注，得到标注后的语料库；采用doc2vec词向量表示模型对所述标注后的语料库对进行训练，得到所述标注后的语料库对应的词向量模型。

A Method of Generating Word Vector Model and Its Devices, Devices and Storage Medium

The embodiment of the present invention discloses a method for generating a word vector model and a device, device and storage medium, in which the method includes: determining the corpus to be trained; tagging each word of the text in the corpus to be trained to obtain the tagged corpus; training the tagged corpus with the doc2vec word vector representation model, and obtaining the tagged corpus. To the word vector model corresponding to the tagged corpus.

全部详细技术资料下载

【技术实现步骤摘要】
一种词向量模型的生成方法及装置、设备、存储介质
本专利技术涉及词语的特征表示，尤其涉及一种词向量(wordembedding)模型的生成方法及装置、设备、存储介质。
技术介绍
词向量是词语的特征表示，通过语义词典或机器学习技术将每个词语表示为固定长度的向量。目前，词向量模型在语义网、信息检索、数据挖掘、信息集成、知识管理、文本分类、语音识别、词义消歧等领域发挥着越来越重要的作用。词向量的表示方法主要分为独热表示(One-hotrepresentation)和分布式表示(Distributedrepresentation)两种。分布式表示是目前表示词语特征的常用方式。目前，词向量的分布式表示方式分为两种，一种是词语维度的向量表示模型，如word2vec，一种是文章或段落维度词向量表示模型，如doc2vec。词语维度词向量表示模型具有一定的语义特性，可以根据临近词的语境或词义推测该词的词义。而文章或段落维度词向量表示模型输入不只是邻域窗口内的几个词语，还加入了语料库文本的全局信息，将全局的上下文语境以及邻域词语一起训练神经网络模型，相当于每次在预测单词的概率时，都利用了整个句子的语义。上述两种词向量表示模型，均通过设置固定大小窗口作为预警输入来训练词向量模型，对于多义词，一个词语往往能够表达多个词义，且多义词不同词义的上下文语境也不同，词向量模型弱化了单独的词义在文本分类中的应用。
技术实现思路
有鉴于此，本专利技术实施例为解决现有技术中存在的至少一个问题而提供一种词向量模型的生成方法及装置、设备、存储介质，每个多义词的不同词义均对应唯一的词向量，并且对每个词的词...

【技术保护点】
1.一种词向量模型的生成方法，其特征在于，所述方法包括：确定待训练的语料库；对所述待训练的语料库中文本的每一词语的各词义进行词义标注，得到标注后的语料库；采用doc2vec词向量表示模型对所述标注后的语料库对进行训练，得到所述标注后的语料库对应的词向量模型。

【技术特征摘要】
1.一种词向量模型的生成方法，其特征在于，所述方法包括：确定待训练的语料库；对所述待训练的语料库中文本的每一词语的各词义进行词义标注，得到标注后的语料库；采用doc2vec词向量表示模型对所述标注后的语料库对进行训练，得到所述标注后的语料库对应的词向量模型。2.根据权利要求1所述的方法，其特征在于，所述对所述待训练的语料库中文本的每一词语的各词义进行词义标注，得到标注后的语料库，包括：确定所述待训练的语料库中每一所述词语的所有词义的词义向量；确定每一所述词语在所述待训练的语料库中的上下文信息，确定所述上下文信息的文本向量；计算所述文本向量与所述词义向量之间的距离，将距离最大对应的词义为所述待训练的语料库中对应的词语进行词义标注，得到标注后的语料库。3.根据权利要求2所述的方法，其特征在于，所述确定所述待训练的语料库中每一词语的所有词义的词义向量，包括：采用doc2vec词向量表示模型对所述待训练的语料库对进行训练，得到文本向量模型；基于所述文本向量模型确定每一所述词语的所有词义的词义向量。4.根据权利要求3所述的方法，其特征在于，所述方法还包括：根据所述待训练的语料库的语言种类确定对应的词汇语义网络，所述词汇语义网络至少描述每一词语的词义；基于所述词汇语义网络获取所述待训练的语料库中每一词语的所有词义。5.根据权利要求4所述的方法，其特征在于，所述词汇语义网络至少描述每一词语的属性，所述属性包括词义编码和与其他词语的连接关系，所述连接关系...

【专利技术属性】
技术研发人员：李小涛，游树娟，牛亚文，
申请(专利权)人：中国移动通信有限公司研究院，中国移动通信集团公司，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人