一种词向量模型生成方法、装置和计算机可读存储介质制造方法及图纸

技术编号:21060333 阅读:22 留言:0更新日期:2019-05-08 07:03
本发明专利技术实施例提供了一种词向量模型生成方法、装置和计算机可读存储介质,所述方法包括:确定初始词向量模型中每个词对应的词义数量;基于所述词义数量确定语料库中的每个文本中每个词的词义,并对该词义进行标识;基于词义标识后的语料库,对词向量重新进行训练。

A Word Vector Model Generation Method, Device and Computer Readable Storage Media

【技术实现步骤摘要】
一种词向量模型生成方法、装置和计算机可读存储介质
本专利技术涉及移动通信
,尤其涉及一种词向量模型生成方法、装置和计算机可读存储介质。
技术介绍
词向量(wordembedding)是词的特征表示,通过语义词典或机器学习技术将每个词表示为固定长度的向量。基于词向量模型,可以进行许多后续的自然语言处理和机器学习方面的应用。目前,词向量模型在语义网、信息检索、数据挖掘、信息集成、知识管理、文本分类、语音识别、词义消歧等领域发挥着越来越重要的作用。词向量的表示方法主要分为独热表示(One-hotrepresentation)和分布式表示(Distributedrepresentation)两种。其中,分布式的词向量基于神经网络的思想利用语料库中每个词的上下文信息来训词向量模型,从而得到整个语料库所有词的词向量。当语料库规模较大时,包含词汇量甚至超过语义词典。但是,词向量模型中每个词使用唯一的词向量表示,即使一个词能够表达多个词义也不例外。由于多义词不同词义的上下文语境不同,使得每个多义词的词向量实际上是多个词义的一个折中,这在一定程度上弱化了每个单独的词义,例如:一些词在不同文本中表达的词义各不相同,如果词向量不能区分每个多义词的词义,必然造成分类准确性的下降。
技术实现思路
有鉴于此,本专利技术实施例期望提供一种词向量模型生成方法、装置和计算机可读存储介质。为达到上述目的,本专利技术实施例的技术方案是这样实现的:本专利技术实施例提供了一种词向量模型生成方法,该方法包括:确定初始词向量模型中每个词对应的词义数量;基于所述词义数量确定语料库中的每个文本中每个词的词义,并对该词义进行标识;基于词义标识后的语料库,对词向量重新进行训练。其中,所述确定初始词向量模型中每个词对应的词义数量,包括:利用层次聚类算法确定初始词向量模型中每个词对应的词义数量。其中,所述确定初始词向量模型中每个词对应的词义数量,包括:确定所述初始词向量模型中每个词对应的词集合,所述词集合中的各个词之间的距离满足预设条件;对所述词集合中的词进行层次聚类;确定所述层次聚类收敛后的分类,所述分类的数量为所述每个词对应的词义数量。可选的,所述确定初始词向量模型中每个词对应的词义数量时或之后,该方法还包括:设置所述每个词对应的每个词义的词义标号。其中,所述基于所述词义数量确定语料库中的每个文本中每个词的词义,并对该词义进行标识,包括:基于所述已确定的词义数量识别所述语料库中的每个文本中的每个词的词义;确定当前的词所表达的词义对应的所述词义标号;利用所述词义标号对该当前的词进行标识。其中,所述基于所述已确定的词义数量识别所述语料库中的每个文本中的每个词的词义,包括:将每个文本中的每个词设置为有向图的一个阶段,词的每个词义作为阶段的一个节点;获取相邻阶段节点之间权值的最大值;所述权值的最大值对应的节点为所述文本中每个词的词义。可选的,所述确定初始词向量模型中每个词对应的词义数量之前,该方法还包括:利用神经网络从已选择的语料库中进行词向量训练,得到所述初始词向量模型。本专利技术实施例还提供了一种词向量模型生成装置,该装置包括:数量确定模块,用于确定初始词向量模型中每个词对应的词义数量;词义标识模块,用于基于所述词义数量确定语料库中的每个文本中每个词的词义,并对该词义进行标识;训练模块,用于基于词义标识后的语料库,对词向量重新进行训练。本专利技术实施例还提供了一种词向量模型生成装置,该装置包括:处理器和用于存储能够在处理器上运行的计算机程序的存储器,其中,所述处理器用于运行所述计算机程序时,执行上述方法的步骤。本专利技术实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述方法的步骤。本专利技术实施例提供的词向量模型生成方法、装置和计算机可读存储介质,确定初始词向量模型中每个词对应的词义数量;基于所述词义数量确定语料库中的每个文本中每个词的词义,并对该词义进行标识;基于词义标识后的语料库,对词向量重新进行训练。本专利技术实施例经重新训练后生成的多义词词向量模型中,每个多义词的不同词义均对应唯一的词向量,相比现有对于词义的表达更为准确,提高词向量模型表达词义的准确性。附图说明图1为本专利技术实施例所述词向量模型生成方法流程示意图一;图2为本专利技术实施例所述词向量模型生成装置结构示意图一;图3为本专利技术实施例所述数量确定模块的结构示意图;图4为本专利技术实施例所述词义标识模块的结构示意图;图5为本专利技术实施例所述词向量模型生成装置结构示意图二;图6为本专利技术实施例所述词向量模型生成方法流程示意图二;图7为本专利技术实施例所述基于层次聚类的词义数量识别示意图;图8为本专利技术实施例所述基于动态规划的词义认知方法示意图。具体实施方式下面结合附图和实施例对本专利技术进行描述。本专利技术实施例提供了一种词向量模型生成方法,如图1所示,该方法包括:步骤101:确定初始词向量模型中每个词对应的词义数量;步骤102:基于所述词义数量确定语料库中的每个文本中每个词的词义,并对该词义进行标识;步骤103:基于词义标识后的语料库,对词向量重新进行训练。本专利技术实施例经重新训练后生成的多义词词向量模型中,每个多义词的不同词义均对应唯一的词向量,相比现有对于词义的表达更为准确,提高词向量模型表达词义的准确性。本专利技术实施例中,所述确定初始词向量模型中每个词对应的词义数量,包括:利用层次聚类算法确定初始词向量模型中每个词对应的词义数量。本专利技术实施例中,所述确定初始词向量模型中每个词对应的词义数量,包括:确定所述初始词向量模型中每个词对应的词集合,所述词集合中的各个词之间的距离满足预设条件(即:距离所述初始词向量模型中某个词最近的一组词);对所述词集合中的词进行层次聚类;确定所述层次聚类收敛后的分类,所述分类的数量为所述每个词对应的词义数量。一个实施例中,所述确定初始词向量模型中每个词对应的词义数量时或之后,该方法还包括:设置所述每个词对应的每个词义的词义标号。本专利技术实施例中,所述基于所述词义数量确定语料库中的每个文本中每个词的词义,并对该词义进行标识,包括:基于所述已确定的词义数量识别所述语料库中的每个文本中的每个词的词义;确定当前的词所表达的词义对应的所述词义标号;利用所述词义标号对该当前的词进行标识。本专利技术实施例中,所述基于所述已确定的词义数量识别所述语料库中的每个文本中的每个词的词义,包括:将每个文本中的每个词设置为有向图的一个阶段,词的每个词义作为阶段的一个节点;获取相邻阶段节点之间权值的最大值;所述权值的最大值对应的节点为所述文本中每个词的词义。一个实施例中,所述确定初始词向量模型中每个词对应的词义数量之前,该方法还包括:利用神经网络从已选择的语料库中进行词向量训练,得到所述初始词向量模型。本专利技术实施例还提了一种词向量模型生成装置,如图2所示,该装置包括:数量确定模块201,用于确定初始词向量模型中每个词对应的词义数量;词义标识模块202,用于基于所述词义数量确定语料库中的每个文本中每个词的词义,并对该词义进行标识;训练模块203,用于基于词义标识后的语料库,对词向量重新进行训练。本专利技术实施例经重新训练后生成的多义词词向量模型中,每个多义词的不同词义均对应唯一的词向量,相比现有对于词义的表达更本文档来自技高网...

【技术保护点】
1.一种词向量模型生成方法,其特征在于,该方法包括:确定初始词向量模型中每个词对应的词义数量;基于所述词义数量确定语料库中的每个文本中每个词的词义,并对该词义进行标识;基于词义标识后的语料库,对词向量重新进行训练。

【技术特征摘要】
1.一种词向量模型生成方法,其特征在于,该方法包括:确定初始词向量模型中每个词对应的词义数量;基于所述词义数量确定语料库中的每个文本中每个词的词义,并对该词义进行标识;基于词义标识后的语料库,对词向量重新进行训练。2.根据权利要求1所述的方法,其特征在于,所述确定初始词向量模型中每个词对应的词义数量,包括:利用层次聚类算法确定初始词向量模型中每个词对应的词义数量。3.根据权利要求1所述的方法,其特征在于,所述确定初始词向量模型中每个词对应的词义数量,包括:确定所述初始词向量模型中每个词对应的词集合,所述词集合中的各个词之间的距离满足预设条件;对所述词集合中的词进行层次聚类;确定所述层次聚类收敛后的分类,所述分类的数量为所述每个词对应的词义数量。4.根据权利要求1所述的方法,其特征在于,所述确定初始词向量模型中每个词对应的词义数量时或之后,该方法还包括:设置所述每个词对应的每个词义的词义标号。5.根据权利要求4所述的方法,其特征在于,所述基于所述词义数量确定语料库中的每个文本中每个词的词义,并对该词义进行标识,包括:基于所述已确定的词义数量识别所述语料库中的每个文本中的每个词的词义;确定当前的词所表达的词义对应的所述词义标号;利用所述词义标号对该当...

【专利技术属性】
技术研发人员:李小涛游树娟
申请(专利权)人:中国移动通信有限公司研究院中国移动通信集团公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1