当前位置: 首页 > 专利查询>清华大学专利>正文

跨语言的词汇义原预测方法、装置与电子设备制造方法及图纸

技术编号:20820188 阅读:28 留言:0更新日期:2019-04-10 06:00
本发明专利技术实施例提供一种跨语言的词汇义原预测方法、装置与电子设备,该方法包括:分别确定源语言词向量和目标语言词向量学习的损失函数;分别确定词向量对齐和融入义原信息的损失函数;基于源语言和目标语言的单语语料,选取一定数量具有相同语义的源语言词与目标语言词对;基于源语言词与目标语言词对和源语言内已建立的义原知识库,对上述各损失函数进行优化,获取同属一个语义空间的双语词向量;基于双语词向量,通过搜索与目标语言中目标词汇词向量相近的源语言词的已标注义原,为目标词汇进行义原预测。本发明专利技术实施例能够合理利用已有义原知识库为跨语言词汇进行义原预测,从而有效节约义原预测的人力和时间成本。

【技术实现步骤摘要】
跨语言的词汇义原预测方法、装置与电子设备
本专利技术实施例涉及自然语言处理
,更具体地,涉及一种跨语言的词汇义原预测方法、装置与电子设备。
技术介绍
在语言学中,词被定义为可以独立运用的最小的有意义的单位,但却不是最小的不可分割的语义单位。也即是说,词可以进一步被细分为更小的语义元素。例如,词“男人”可以进一步被分割为“人类”、“男性”和“成年人”。人类语言中最小的不可再分的语义单位被称为义原,所有的词或者其他的语义概念都可以用一个义原的闭集来表示。引入义原可以对词进行更细粒度的分析,有助于更好地理解语言的本质。然而,对于大多数自然语言而言,义原往往十分隐晦,在一些语言中,通过手动标注的方式,为词以及其他概念构建义原知识库,以方便进行自然语言处理中如词相似度计算、词义消歧及情感分析等任务。但是,大多数语种的语言还没有建立义原知识库,不方便进行这些语言中词的义原的确定,这在一定程度上不利于人类进一步理解和使用这些语言。在进行这些语言中词的义原的确定时,若采用传统的人工标注义原的方式,会耗费高额的人力和时间成本;而由于不同语言之间没有一对一的匹配关系,如英文词“beautiful”可以对应中文词的“美丽”或“漂亮”,也不能简单地把已建立的义原知识库翻译成其他语言。
技术实现思路
为了克服上述问题或者至少部分地解决上述问题,本专利技术实施例提供一种跨语言的词汇义原预测方法、装置与电子设备,用以合理地利用已有义原知识库为跨语言词汇进行义原预测,从而有效节约义原预测的人力和时间成本。第一方面,本专利技术实施例提供一种跨语言的词汇义原预测方法,包括:确定从源语言的单语语料中学习源语言词向量的第一损失函数,并确定从目标语言的单语语料中学习目标语言词向量的第二损失函数;分别确定将所述源语言词向量与所述目标语言词向量对齐的第三损失函数,以及为所述源语言词向量融入义原信息的第四损失函数;基于源语言和目标语言的单语语料,选取一定数量具有相同语义的源语言词与目标语言词对;基于所述源语言词与目标语言词对和所述源语言内已建立的义原知识库,采用随机梯度下降法,对所述第一损失函数、所述第二损失函数、所述第三损失函数和所述第四损失函数进行优化调节,获取同属一个语义空间的双语词向量,所述双语词向量携带所述源语言词向量与所述目标语言词向量的语义对应关系和义原与所述源语言词向量的融合关系;基于所述双语词向量,通过搜索与所述目标语言中目标词汇词向量相近的源语言词的已标注义原,为所述目标词汇进行义原预测。第二方面,本专利技术实施例提供一种跨语言的词汇义原预测装置,包括:第一设定模块,用于确定从源语言的单语语料中学习源语言词向量的第一损失函数,并确定从目标语言的单语语料中学习目标语言词向量的第二损失函数;第二设定模块,用于分别确定将所述源语言词向量与所述目标语言词向量对齐的第三损失函数,以及为所述源语言词向量融入义原信息的第四损失函数;训练词对抽取模块,用于基于源语言和目标语言的单语语料,选取一定数量具有相同语义的源语言词与目标语言词对;向量对齐融合模块,用于基于所述源语言词与目标语言词对和所述源语言内已建立的义原知识库,采用随机梯度下降法,对所述第一损失函数、所述第二损失函数、所述第三损失函数和所述第四损失函数进行优化调节,获取同属一个语义空间的双语词向量,所述双语词向量携带所述源语言词向量与所述目标语言词向量的语义对应关系和义原与所述源语言词向量的融合关系;预测输出模块,用于基于所述双语词向量,通过搜索与所述目标语言中目标词汇词向量相近的源语言词的已标注义原,为所述目标词汇进行义原预测。第三方面,本专利技术实施例提供一种电子设备,包括:至少一个存储器、至少一个处理器、通信接口和总线;所述存储器、所述处理器和所述通信接口通过所述总线完成相互间的通信,所述通信接口用于所述电子设备与源语言设备和目标语言设备之间的信息传输;所述存储器中存储有可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现如上第一方面所述的跨语言的词汇义原预测方法。本专利技术实施例提供的跨语言的词汇义原预测方法、装置与电子设备,通过单语词向量学习、跨语言词向量对齐以及为源语言词向量融入义原信息等处理步骤,能够合理地利用已有义原知识库进行跨语言词汇的义原预测,从而有效节约义原预测的人力和时间成本,有利于辅助语言学专家的义原标注,进而更快更好地为其他语言构建义原知识库,具有良好的实用性。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术一实施例提供的跨语言的词汇义原预测方法的流程示意图;图2为本专利技术另一实施例提供的跨语言的词汇义原预测方法的流程示意图;图3为本专利技术实施例提供的跨语言的词汇义原预测装置的结构示意图;图4为本专利技术实施例提供的电子设备的实体结构示意图。具体实施方式为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术实施例的一部分实施例,而不是全部的实施例。基于本专利技术实施例中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本专利技术实施例保护的范围。在语言学中,引入义原可以对词进行更细粒度的分析,有助于更好地理解语言的本质。然而,大多数语种的语言还没有建立义原知识库,不方便确定这些语言中词的义原,这在一定程度上不利于人类进一步理解和使用这些语言。本专利技术实施例为了解决人工标注义原的高额人力和时间成本问题,利用计算机来为跨语言词汇进行义原的自动标注,进而辅助人类专家构建一个较为完整的义原知识库,具有实用意义。以下将具体通过多个实施例对本专利技术实施例进行展开说明和介绍。图1为本专利技术一实施例提供的跨语言的词汇义原预测方法的流程示意图,如图1所示,该方法用于实现跨语言的词汇义原预测,该方法包括:S101,确定从源语言的单语语料中学习源语言词向量的第一损失函数,并确定从目标语言的单语语料中学习目标语言词向量的第二损失函数。可以理解为,在进行跨语言的义原预测时,需要建立义原预测模型,包括对义原预测模型损失函数的确定以及对构建的初始模型进行训练等。本步骤可以对模型中进行源语言词向量和目标语言词向量进行学习的损失函数进行设置。具体而言,分别将学习源语言词向量的损失函数设置为第一损失函数,将学习目标语言词向量的损失函数设置为第二损失函数。S102,分别确定将源语言词向量与目标语言词向量对齐的第三损失函数,以及为源语言词向量融入义原信息的第四损失函数源语言词目标语言词。可以理解为,本专利技术实施例通过源语言和目标语言中一部分词汇的语义对应关系,来将两种语言的所有词向量对齐在一个空间中,使得不同语言但语义相近的词同样满足词向量相似的性质。同时,对于源语言而言,事先已经对其建立了词汇的义原知识库,则根据该义原知识库,可以查询各源语言词被标注的义原,将已知的源语言词的义原标注信息融入到其词向量中,使得有相似义原标注的词有更相近的词向量。可以理解本文档来自技高网...

【技术保护点】
1.一种跨语言的词汇义原预测方法,其特征在于,包括:确定从源语言的单语语料中学习源语言词向量的第一损失函数,并确定从目标语言的单语语料中学习目标语言词向量的第二损失函数;分别确定将所述源语言词向量与所述目标语言词向量对齐的第三损失函数,以及为所述源语言词向量融入义原信息的第四损失函数;基于源语言和目标语言的单语语料,选取一定数量具有相同语义的源语言词与目标语言词对;基于所述源语言词与目标语言词对和所述源语言内已建立的义原知识库,采用随机梯度下降法,对所述第一损失函数、所述第二损失函数、所述第三损失函数和所述第四损失函数进行优化调节,获取同属一个语义空间的双语词向量,所述双语词向量携带所述源语言词向量与所述目标语言词向量的语义对应关系和义原与所述源语言词向量的融合关系;基于所述双语词向量,通过搜索与所述目标语言中目标词汇词向量相近的源语言词的已标注义原,为所述目标词汇进行义原预测。

【技术特征摘要】
1.一种跨语言的词汇义原预测方法,其特征在于,包括:确定从源语言的单语语料中学习源语言词向量的第一损失函数,并确定从目标语言的单语语料中学习目标语言词向量的第二损失函数;分别确定将所述源语言词向量与所述目标语言词向量对齐的第三损失函数,以及为所述源语言词向量融入义原信息的第四损失函数;基于源语言和目标语言的单语语料,选取一定数量具有相同语义的源语言词与目标语言词对;基于所述源语言词与目标语言词对和所述源语言内已建立的义原知识库,采用随机梯度下降法,对所述第一损失函数、所述第二损失函数、所述第三损失函数和所述第四损失函数进行优化调节,获取同属一个语义空间的双语词向量,所述双语词向量携带所述源语言词向量与所述目标语言词向量的语义对应关系和义原与所述源语言词向量的融合关系;基于所述双语词向量,通过搜索与所述目标语言中目标词汇词向量相近的源语言词的已标注义原,为所述目标词汇进行义原预测。2.根据权利要求1所述的方法,其特征在于,对所述第一损失函数和所述第二损失函数进行优化调节的步骤具体包括:基于所述源语言的不同单语语料,利用所述第一损失函数,学习各源语言词间共同出现的性质,并将该性质转化为低维实值分布式表示,形成所述源语言词向量;基于所述目标语言的不同单语语料,利用所述第二损失函数,学习各目标语言词间共同出现的性质,并将该性质转化为低维实值分布式表示,形成所述目标语言词向量。3.根据权利要求1所述的方法,其特征在于,确定将所述源语言词向量与所述目标语言词向量对齐的第三损失函数的步骤具体包括:利用具有相同语义的所述源语言词和目标语言词对,构成种子词典;基于所述种子词典,确定如下所示的第三损失函数:式中,wsS、wtT分别表示源语言词和目标语言词,wsS表示wsS对应的所述源语言词向量,wtT表示wtT对应的所述目标语言词向量,D表示所述种子词典。4.根据权利要求3所述的方法,其特征在于,在基于所述种子词典,确定所述第三损失函数的步骤之后,还包括:基于相同的语义,分别为每个所述目标语言词设定一个与所述源语言词相匹配的检索索引,并基于各所述目标语言词分别对应的所述检索索引,构成一隐向量;基于所述隐向量、所述源语言的单语语料和所述目标语言的单语语料,确定如下所示的第五损失函数:其中,式中,CS、CT分别表示所述源语言和所述目标语言中的单语语料,m表示所述隐向量,|VT|表示所述检索索引的个数,mt表示所述检索索引,wtT表示CT中的所述目标语言词,c(wtT)表示wtT在CT中出现的次数,表示CS中与wtT相匹配的源语言词;对应的,根据每个所述源语言词,采用上述对应的处理流程,确定所述源语言词对应的第六损失函数;相应的,所述对所述第三损失函数和所述第四损失函数进行优化调节的步骤具体包括:对所述第三损失函数、所述第五损失函数和第六损失函数进行加权求和,获取综合损失函数,并对所述综合损失函数和所述第四损失函数进行优化调节。5.根据权利要求1所述的方法,其特征在于,确定为所述源语言词向量融入义原信息的第四损失函数的步骤具体包括:基于所述义原知识库,搜索所述源语言中的近义源语言词汇,所述近义源语言词汇为,拥有共同义原的个数达到预设阈值的多个源语言词;修改所述近义源语言词汇对应的所述源语言词向量,并确定如下所示的第四损失函数,以为所述...

【专利技术属性】
技术研发人员:孙茂松岂凡超林衍凯朱昊谢若冰刘知远
申请(专利权)人:清华大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1