词向量增量方法、电子设备及计算机存储介质技术

技术编号:31755286 阅读:26 留言:0更新日期:2022-01-05 16:38
本申请公开了一种词向量增量方法、电子设备及计算机存储介质。该词向量增量方法包括:获取待对齐词向量空间中第一词语集与目标词向量空间中第二词语集之间的交集词语集;获取第一词语集相对于第二词语集的新增词;获取新增词的在待对齐词向量空间中由交集词语集中的交集词构成的局部线性关系;利用局部线性关系构造新增词在目标词向量空间中的词向量。通过这种方式,能够提高不同词向量空间中词向量的对齐及融合质量,实现对目标词向量空间的扩增。增。增。

【技术实现步骤摘要】
词向量增量方法、电子设备及计算机存储介质


[0001]本申请涉及自然语言处理
,特别是涉及一种词向量增量方法、电子设备及计算机存储介质。

技术介绍

[0002]近年来,自然语言处理技术得到了迅猛的发展。其中,词向量作为自然语言处理技术中的重要基石,在自然语言处理领域发挥着重要的作用。特别地,因为语料、算法、模型参数等的差异,通常需要将不同的词向量模型进行对齐以及融合。
[0003]在传统技术中,通常在跨语言词向量中使用基于线性的假设,将不同向量空间的词向量通过正交映射等方法映射到同一词向量空间中,以此解决词向量空间不一致的问题。但基于线性正交映射的假设通常存在一定的局限性,使得词向量空间对齐的效果欠佳,导致部分词语映射后的词向量差异性较大,导致词向量的对齐及融合效果较差。

技术实现思路

[0004]本申请主要解决的技术问题是提供一种词向量增量方法、电子设备及计算机存储介质,以提高不同词向量空间中词向量的对齐及融合质量。
[0005]为解决上述技术问题,本申请采用的一个技术方案是:提供一种词向量增量方法。该词向量增量方法包括:获取待对齐词向量空间中第一词语集与目标词向量空间中第二词语集之间的交集词语集;获取第一词语集相对于第二词语集的新增词;获取新增词的在待对齐词向量空间中由交集词语集中的交集词构成的局部线性关系;利用局部线性关系构造新增词在目标词向量空间中的词向量。
[0006]为解决上述技术问题,本申请采用的一个技术方案是:提供一种电子设备。该电子设备包括相互耦接的存储器和处理器,处理器用于执行存储器中存储的程序数据,以实现上述词向量增量方法。
[0007]为解决上述技术问题,本申请采用的一个技术方案是:提供一种计算机存储介质。该计算机存储介质上存储有程序数据,程序数据能够被执行以实现上述词向量增量方法。
[0008]本申请实施例的有益效果是:本申请词向量增量方法包括:获取待对齐词向量空间中第一词语集与目标词向量空间中第二词语集之间的交集词语集;获取第一词语集相对于第二词语集的新增词;获取新增词的在待对齐词向量空间中由交集词语集中的交集词构成的局部线性关系;利用局部线性关系构造新增词在目标词向量空间中的词向量。通过局部线性映射的方式,本申请利用待对齐词向量空间相对于目标词向量空间的新增词在待对齐词向量空间中由交集词构成的局部线性关系构造该新增词在目标词向量空间中的词向量,能够将待对齐词向量空间中的新增词增量至目标词向量空间,不仅能够增加目标词向量空间中的词语的数量,实现对目标词向量空间的扩增,且能够将待对齐词向量空间中的新增词的局部线性特征保持到目标词向量空间中,实现局部线性嵌入,能够改善线性假设的局限性问题,进而能够有效提升不同词向量空间中词向量的对齐及融合质量。且本申请
将新增词的邻近词语集限定在待对齐词向量空间的第一词语集与目标词向量空间的第二词语集之间的交集词语集,能够避免后续在目标词向量空间中利用新增词的邻近词构造新增词时,部分邻近词不存在而导致新增词的局部线性特征表示欠佳的问题,因此能够提高不同词向量空间中词向量对齐及融合效果。
附图说明
[0009]为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0010]图1是本申请词向量增量方法一实施例的流程示意图;
[0011]图2是图1实施例中步骤S13的具体流程示意图;
[0012]图3是图2实施例中步骤S21的具体流程示意图;
[0013]图4是图1实施例中步骤S14的具体流程示意图;
[0014]图5是本申请词向量增量方法一实施例的流程示意图;
[0015]图6是图5实施例词向量增量方法中步骤S55的具体流程示意图;
[0016]图7是本申请词向量增量方法一实施例中部分流程的流程示意图;
[0017]图8是未应用本申请词向量增量方法前的词向量分布示意图;
[0018]图9是应用本申请词向量增量方法的词向量分布过程及结果示意图;
[0019]图10是本申请词向量增量前后的平均余弦相似度对比图;
[0020]图11为本申请词向量增量方法在不同K值下的交集词平均余弦相似度折线图;
[0021]图12为本本申请词向量增量方法在不同K值下的新增词平均余弦相似度折线图;
[0022]图13是本申请电子设备一实施例的结构示意图;
[0023]图14是本申请计算机存储介质一实施例的结构示意图。
具体实施方式
[0024]下面结合附图和实施例,对本申请作进一步的详细描述。特别指出的是,以下实施例仅用于说明本申请,但不对本申请的范围进行限定。同样的,以下实施例仅为本申请的部分实施例而非全部实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。
[0025]在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请实施例的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
[0026]在传统技术中,通常使用word2vec、glove或者其他的词向量生成技术得到词向量,但是,不同语言、不同语料以及不同算法甚至是不同参数训练出来的词向量存在空间上
的差异性。因此,通常在跨语言词向量中使用基于线性的假设,将不同的词向量通过回归、正交映射等方法映射到同一向量空间中,以此解决词向量空间不一致的问题。基于正交映射方法的初衷是为了保持词向量嵌入的酉不变性,如果能保持词向量的完美嵌入,映射后的词向量与目标词向量的RPD值应该为0(RPD值是由Xuhui Zhou等人提出的,是可以用来衡量不同词向量差异性的评价指标,其数值越小,代表词向量的差异性越小,特殊地,完全相同的词向量RPD值为0),但实际测试发现基于线性正交映射的方法保持酉不变性并不能得到完全一致的词向量空间,这可能是训练的语料、算法以及模型参数等造成的差异。
[0027]因此,基于线性正交映射的假设通常存在一定的局限性,HaoZhou Wang(2021)、Nakashole(2018)等人的研究中也指出了线性假设的局限性,特别是对于差异性较大的语言词向量(如中文与英文)。线性假设的局限性使得不同词向量空间之间对齐的效果欠佳,使得部分词语映射前后的词向量差异性较大,对于不同词向量空间的词对齐、词融合等都有着较大的影本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种词向量增量方法,其特征在于,包括:获取待对齐词向量空间中第一词语集与目标词向量空间中第二词语集之间的交集词语集;获取所述第一词语集相对于所述第二词语集的新增词;获取所述新增词的在所述待对齐词向量空间中由所述交集词语集中的交集词构成的局部线性关系;利用所述局部线性关系在目标词向量空间中构造所述新增词的词向量。2.根据权利要求1所述的词向量增量方法,其特征在于,所述局部线性关系包括所述新增词的邻近词及所述邻近词对所述新增词的权重系数;所述获取所述新增词的在所述待对齐词向量空间中由所述交集词语集中的交集词构成的局部线性关系包括:从所述交集词语集中获取所述新增词的邻近词语集;获取所述邻近词语集中的邻近词对所述新增词的权重系数。3.根据权利要求2所述的词向量增量方法,其特征在于,所述利用所述局部线性关系构造所述新增词在所述目标词向量空间中的词向量包括:获取所述局部线性关系对应的所述邻近词在所述目标词向量空间中的邻近词向量;利用所述邻近词向量及所述权重系数在目标词向量空间中构造所述新增词的词向量。4.根据权利要求2所述的词向量增量方法,其特征在于,所述获取所述邻近词语集中的邻近词对所述新增词的权重系数的步骤包括:从所述近邻词语集中确定与所述新增词对应的多组邻近词组,每一组所述邻近词组包括不同个数的邻近词;对于每一组所述邻近词组,确定所述邻近词组中的每一个邻近词相对于所述新增词的权重系数,利用所述邻近词及所述权重系数在目标词向量空间中重构词向量,并获取重构词向量后的目标词向量空间对应的测试指标参数;基于每一组所述邻近词组对应的所述测试指标参数,将最优的所述测试指标参...

【专利技术属性】
技术研发人员:刘金艳曾晋科王定牟小峰陆中秋
申请(专利权)人:美的集团股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1