一种词向量处理方法、装置及设备制造方法及图纸

技术编号:37263876 阅读:9 留言:0更新日期:2023-04-20 23:36
本发明专利技术提供一种词向量处理方法、装置及设备,涉及通信技术领域。该方法包括:确定目标词语;将所述目标词语作为检索对象,通过搜索引擎进行检索,得到检索结果;根据所述检索结果,确定所述目标词语的关联词语;根据所述关联词语的词向量,确定所述目标词语的目标词向量。本发明专利技术的方案,解决了词语不被语料库包含,无法确定其向量信息的问题。法确定其向量信息的问题。法确定其向量信息的问题。

【技术实现步骤摘要】
一种词向量处理方法、装置及设备


[0001]本专利技术涉及通信
,特别是指一种词向量处理方法、装置及设备。

技术介绍

[0002]词向量(word embedding),是目前表示词语特征的最常用方式。词向量利用机器学习技术将语料库中的每个词语表示为固定长度的实值向量,从而得到词语的特征表示。目前,词向量已经在语义网、信息检索、数据挖掘、信息集成、知识管理、文本分类、语音识别、词义消歧等领域广泛应用。通过词向量算法训练词语的向量表示时,以一个词语在语料库中所有出现位置的上下文词语集合作为神经网络的输入,经过不断迭代得到中心词的向量化表达。
[0003]然而,现有的词向量的训练需要基于预先设定的语料库(如wiki百科语料库、sogou语料库等),如果一个词语不被语料库包含,在训练后的词向量模型中将不包含该词语的向量信息。

技术实现思路

[0004]本专利技术的目的是提供一种词向量处理方法、装置及设备,以解决词语不被语料库包含,无法确定其向量信息的问题。
[0005]为达到上述目的,本专利技术的实施例提供一种词向量处理方法,包括:
[0006]确定目标词语;
[0007]将所述目标词语作为检索对象,通过搜索引擎进行检索,得到检索结果;
[0008]根据所述检索结果,确定所述目标词语的关联词语;
[0009]根据所述关联词语的词向量,确定所述目标词语的目标词向量。
[0010]可选的,所述确定目标词,包括:
[0011]将目标文本进行分词,得到一个或多个词语;
[0012]基于基础词向量模型,对所述一个或多个词语的词向量进行查询;
[0013]在查询结果表明所述基础词向量模型不包括当前词语的词向量的情况下,将所述当前词语作为目标词语。
[0014]可选地,所述根据所述检索结果,确定所述目标词语的关联词语,包括:
[0015]在所述检索结果中,获取M个结果项,其中M为大于或等于1的整数;
[0016]在所述M个结果项的文档标题中,确定非重复的词语;
[0017]将所述非重复的词语中的N个词语作为所述目标词语的关联词语,其中N为大于或等于1的整数。
[0018]可选地,所述将所述非重复的词语中的N个词语作为所述目标词语的关联词语,包括:
[0019]获取所述非重复的词语中的每个词语与所述目标词语的相关性信息;
[0020]基于所述相关性信息得到N个所述目标词语的关联词语。
[0021]可选地,所述相关性信息包括相关性评分;
[0022]所述获取所述非重复的词语中的每个词语与所述目标词语的相关性信息,包括:
[0023]通过公式Score(w,v)=m
v
/n
v
,计算所述相关性评分Score(w,v);其中,v表示所述非重复的词语中的待评分词语;w表示所述目标词语;m
v
表示所述M个结果项中,包括v的结果项的数量;n
v
表示v在语义词典中词义的数量;
[0024]所述基于所述相关性信息得到N个所述目标词语的关联词语,包括:
[0025]将所述非重复的词语中的每个词语与所述目标词语的相关性评分由高到低排序,并基于排序的结果,确定前N个词语为所述目标词语的关联词语。
[0026]可选地,所述根据所述关联词语的词向量,确定所述目标词语的目标词向量,包括:
[0027]将所述关联词语的词向量的均值作为所述目标词语的初始词向量;
[0028]基于所述关联词语的词向量对所述初始词向量进行调整,得到所述目标词向量。
[0029]可选地,所述基于所述关联词语的词向量对所述初始词向量进行调整,得到所述目标词向量,包括:
[0030]选取所述关联词语的第一关联词语和第二关联词语;
[0031]获取所述第一关联词语的词向量与所述目标词语的当前词向量的第一余弦距离,以及所述第二关联词语的词向量与所述目标词语的当前词向量的第二余弦距离;
[0032]若所述第一余弦距离和所述第二余弦距离未满足空间位置关系约束,则使用调整参数以及所述第一关联词语的词向量与所述第二关联词语的词向量的差值,调整所述目标词语的当前词向量,并返回所述选取所述关联词语的第一关联词语和第二关联词语,重新选取新的第一关联词语和第二关联词语,直至调整次数达到预设阈值,或者,所述关联词语的任意两个词语的词向量均满足空间位置关系约束。
[0033]为达到上述目的,本专利技术的实施例提供一种词向量处理装置,包括:
[0034]第一确定模块,用于确定目标词语;
[0035]处理模块,用于将所述目标词语作为检索对象,通过搜索引擎进行检索,得到检索结果;
[0036]第二确定模块,用于根据所述检索结果,确定所述目标词语的关联词语;
[0037]第三确定模块,用于根据所述关联词语的词向量,确定所述目标词语的目标词向量。
[0038]可选地,所述第一确定模块包括:
[0039]分词子模块,用于将目标文本进行分词,得到一个或多个词语;
[0040]查询子模块,用于基于基础词向量模型,对所述一个或多个词语的词向量进行查询;
[0041]第一处理子模块,用于在查询结果表明所述基础词向量模型不包括当前词语的词向量的情况下,将所述当前词语作为目标词语。
[0042]可选地,所述第二确定模块包括:
[0043]获取子模块,用于在所述检索结果中,获取M个结果项,其中M为大于或等于1的整数;
[0044]确定子模块,用于在所述M个结果项的文档标题中,确定非重复的词语;
[0045]第二处理子模块,用于将所述非重复的词语中的N个词语作为所述目标词语的关联词语,其中N为大于或等于1的整数。
[0046]可选地,所述第二处理子模块包括:
[0047]第一处理单元,用于获取所述非重复的词语中的每个词语与所述目标词语的相关性信息;
[0048]第二处理单元,用于基于所述相关性信息得到N个所述目标词语的关联词语。
[0049]可选地,所述相关性信息包括相关性评分;
[0050]所述第一处理单元还用于:通过公式Score(w,v)=m
v
/n
v
,计算所述相关性评分Score(w,v);其中,v表示所述非重复的词语中的待评分词语;w表示所述目标词语;m
v
表示所述M个结果项中,包括v的结果项的数量;n
v
表示v在语义词典中词义的数量;
[0051]所述第二处理单元还用于:将所述非重复的词语中的每个词语与所述目标词语的相关性评分由高到低排序,并基于排序的结果,确定前N个词语为所述目标词语的关联词语。
[0052]可选地,所述第三确定模块包括:
[0053]初始词向量确定子模块,用于将所述关联词语的词向量的均值作为所述目标词语的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种词向量处理方法,其特征在于,包括:确定目标词语;将所述目标词语作为检索对象,通过搜索引擎进行检索,得到检索结果;根据所述检索结果,确定所述目标词语的关联词语;根据所述关联词语的词向量,确定所述目标词语的目标词向量。2.根据权利要求1所述的方法,其特征在于,所述确定目标词,包括:将目标文本进行分词,得到一个或多个词语;基于基础词向量模型,对所述一个或多个词语的词向量进行查询;在查询结果表明所述基础词向量模型不包括当前词语的词向量的情况下,将所述当前词语作为目标词语。3.根据权利要求1所述的方法,其特征在于,所述根据所述检索结果,确定所述目标词语的关联词语,包括:在所述检索结果中,获取M个结果项,其中M为大于或等于1的整数;在所述M个结果项的文档标题中,确定非重复的词语;将所述非重复的词语中的N个词语作为所述目标词语的关联词语,其中N为大于或等于1的整数。4.根据权利要求3所述的方法,其特征在于,所述将所述非重复的词语中的N个词语作为所述目标词语的关联词语,包括:获取所述非重复的词语中的每个词语与所述目标词语的相关性信息;基于所述相关性信息得到N个所述目标词语的关联词语。5.根据权利要求4所述的方法,其特征在于,所述相关性信息包括相关性评分;所述获取所述非重复的词语中的每个词语与所述目标词语的相关性信息,包括:通过公式Score(w,v)=m
v
/n
v
,计算所述相关性评分Score(w,v);其中,v表示所述非重复的词语中的待评分词语;w表示所述目标词语;m
v
表示所述M个结果项中,包括v的结果项的数量;n
v
表示v在语义词典中词义的数量;所述基于所述相关性信息得到N个所述目标词语的关联词语,包括:将所述非重复的词语中的每个词语与所述目标词语的相关性评分由高到低排序,并基于排序的结果,确定前N个词语为所述目标词语的关联词语。6.根据权利要求1所述的方法,其特征在于,所述根据所述关联词语的词向量,确定所述目标词语的目标词向量,包括:将所述关联词语的词向量的均值作为所述目标词语的初始词向量;基于所述关联词语的词向量对所述初始词向量进行调整,得到所述目标词向量。7.根据权利要求6所述的方法,其特征在于,所述基于所述关联词语的词向量对所述初始词向量进行调整,得到所述目标词向量,包括:选取所述关联词语的第一关联词语和第二关联词语;获取所述第一关联词语的词向量与所述目标词语的当前词向量的第一余弦距离,以及所述第二关联词语的词向量与所述目标词语的当前词向量的第二...

【专利技术属性】
技术研发人员:李小涛游树娟
申请(专利权)人:中国移动通信集团有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1