一种稀疏名词对齐方法及系统技术方案

技术编号:25989974 阅读:22 留言:0更新日期:2020-10-20 18:58
本发明专利技术实施例提供一种稀疏名词对齐方法及系统,该方法包括:根据待处理语料的语系,选取对应的分割方式,对待处理语料进行分割,获取每一分割词语;根据每一分割词语,按照多空间词嵌入的方法,获取若干空间词汇向量;将目标词向量和每一词汇向量输入到稀疏词语对齐模型的输入层和对齐层中,获取目标词向量与每一预测词汇向量之间的对齐关系矩阵,并将对齐关系矩阵输入到稀疏词语对齐模型的softmax函数中,获取目标词向量与每一预测词汇向量的对齐概率向量;根据对齐概率向量获取目标词汇对齐的译文中词汇。本发明专利技术首次提出一种针对稀疏词语的稀疏稀疏词语对齐模型,对于比较稀疏词汇对齐效果比较好。

【技术实现步骤摘要】
一种稀疏名词对齐方法及系统
本专利技术涉及计算机
,尤其涉及一种稀疏名词对齐方法及系统。
技术介绍
目前主要的词对齐方式是基于统计概率模型或者词典等语言知识库的规则混合,常见的统计概率模型有HMM或者其改良模型,但是对于比较稀疏词汇例如人物的姓名、小说创造的非常见姓名、或者小说中作者创造的“招式”“功法”等翻译,因为只在一本小说出现一次非常稀疏,通过统计很难获得其概率模型。因此,亟需一种针对稀疏名词的对齐方法。
技术实现思路
为了解决上述问题,本专利技术实施例提供一种稀疏名词对齐方法及系统。第一方面,本专利技术实施例提供一种稀疏名词对齐方法,包括:根据待处理语料的语系,选取对应的分割方式,对所述待处理语料进行分割,获取每一分割词语;根据每一分割词语,按照多空间词嵌入的方法,获取若干空间词汇向量;将目标词向量和每一词汇向量输入到稀疏词语对齐模型的输入层和对齐层中,获取目标词向量与每一预测词汇向量之间的对齐关系矩阵,并将所述对齐关系矩阵输入到所述稀疏词语对齐模型的softmax函数中,获取所述目标词向量与每一预测词汇向量的对齐概率向量,所述稀疏词语对齐模型是以若干词汇向量样本进行训练得到,预测词汇向量根据所述词汇向量得到;根据所述对齐概率向量获取所述目标词汇对齐的译文中词汇,所述目标词汇为所述待处理语料中的一个分割词语,所述目标词向量为所述目标词汇对应的向量。优选地,所述将目标词向量和每一词汇向量输入到稀疏词语对齐模型的输入层和对齐层中,获取目标词向量与每一预测词汇向量的对齐关系矩阵,具体包括:将每一词汇向量和所述目标词向量输入到所述稀疏词语对齐模型的输入层中,获取中间结果;将所述中间结果作为所述稀疏词语对齐模型的对齐层,获取所述目标词向量和每一预测词汇向量之间的对齐关系矩阵。优选地,所述所述稀疏词语对齐模型是以若干词汇向量样本进行训练得到,具体包括:将每一空间词汇向量样本输入到所述稀疏词语对齐模型的输入层,获取每一预测词汇向量;计算每一预测词汇向量和参考词汇向量之间的交叉熵损失;通过反向传播更新所述稀疏词语对齐模型的参数,重复上述过程,进行梯度下降找到局部最优解,获取训练后的稀疏词语对齐模型。优选地,所述输入层包括第一输入单元和第二输入单元,其中:所述第一输入单元由N个GRU神经网络组成,每一GRU神经网络按照预设方向依次连接,N表示所述待处理语料中所有分割词语的数量;所述第二输入单元由N个GRU神经网络组成,每一GRU神经网络按照与所述预设方向相反的方向依次连接;所述第一输入单元中每一GRU神经网络与所述第二输入单元中每一GRU神经网络一一对应连接。优选地,所述对齐层由N个GRU神经网络组成,每一GRU神经网络按照所述预设方向依次连接;所述第二输入单元中每一GRU神经网络与所述对齐层中每一GRU神经网络一一对应连接。优选地,所述稀疏词语对齐模型还包括输出层,所述输出层由M个GRU神经网络组成,每一GRU神经网络按照与所述预设方向依次连接,M表示所述预设目标语言中所有分割词语的数量;若M大于N,则所述对齐层中的前N个GRU神经网络与所述对齐层中的每一GRU神经网络一一对应连接;若M小于N,则所述对齐层的每一GRU神经网络与所述对齐层中前M个GRU神经网络一一对应连接。优选地,所述根据待处理语料的语系对应的分割方式,对所述待处理语料进行分割,获取每一分割词语,具体包括:若所述待处理语料为拉丁语系,则对所述待处理语料按空格进行分割,获取每一分割词语;若所述待处理语料为非拉丁语系,则对所述待处理语料按字符进行分割,获取每一分割词语。第二方面,本专利技术实施例提供一种稀疏名词对齐系统,包括:分割模块,用于根据待处理语料的语系,选取对应的分割方式,对所述待处理语料进行分割,获取每一分割词语;词汇模块,用于根据每一分割词语,按照多空间词嵌入的方法,获取若干空间词汇向量;概率模块,用于将目标词向量和每一词汇向量输入到稀疏词语对齐模型的输入层和对齐层中,获取目标词向量与每一预测词汇向量之间的对齐关系矩阵,并将所述对齐关系矩阵输入到所述稀疏词语对齐模型的softmax函数中,获取所述目标词向量与每一预测词汇向量的对齐概率向量,所述稀疏词语对齐模型是以若干词汇向量样本进行训练得到,预测词汇向量根据所述词汇向量得到;对齐模块,用于根据所述对齐概率向量获取所述目标词汇对齐的译文中词汇,所述目标词汇为所述待处理语料中的一个分割词语,所述目标词向量为所述目标词汇对应的向量。第三方面,本专利技术实施例提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行程序时实现本专利技术第一方面提供的一种稀疏词语对齐方法的步骤。第四方面,本专利技术实施例提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现本专利技术第一方面提供的一种稀疏词语对齐方法的步骤。本专利技术实施例提供一种稀疏词语的对齐方法及系统,首次提出一种针对稀疏词语的稀疏稀疏词语对齐模型,该稀疏稀疏词语对齐模型为神经网络模型,对于比较稀疏词汇对齐效果比较好。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术实施例提供的一种稀疏名词对齐方法的流程图;图2为本专利技术实施例中利用稀疏词语对齐模型进行测试的示意图;图3为本专利技术实施例中稀疏词语对齐模型的训练过程示意图;图4为本专利技术实施例中进行训练的过程示意图;图5为本专利技术实施例提供的一种稀疏名词对齐系统的结构示意图;图6为本专利技术实施例提供的一种电子设备的实体结构示意图。具体实施方式为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。对于比较不常见的或者特有的词汇,通常将这类词汇称为稀疏词汇,现有技术中对稀疏词汇的对齐方法效果不佳,针对该问题,本专利技术实施例提供一种针对稀疏词汇的对齐方法。图1为本专利技术实施例提供的一种稀疏名词对齐方法的流程图,如图1所示,该方法包括:S1,根据待处理语料的语系,选取对应的分割方式,对所述待处理语料进行分割,获取每一分割词语;首先获取待处理语料,根据待处理语料所处的语系,选择与每个语系对应的分割方式,对待处理语料进行分割,得到分割词语。例如,待本文档来自技高网...

【技术保护点】
1.一种稀疏名词对齐方法,其特征在于,包括:/n根据待处理语料的语系,选取对应的分割方式,对所述待处理语料进行分割,获取每一分割词语;/n根据每一分割词语,按照多空间词嵌入的方法,获取若干空间词汇向量;/n将目标词向量和每一词汇向量输入到稀疏词语对齐模型的输入层和对齐层中,获取目标词向量与每一预测词汇向量之间的对齐关系矩阵,并将所述对齐关系矩阵输入到所述稀疏词语对齐模型的softmax函数中,获取所述目标词向量与每一预测词汇向量的对齐概率向量,所述稀疏词语对齐模型是以若干词汇向量样本进行训练得到,预测词汇向量根据所述词汇向量得到;/n根据所述对齐概率向量获取所述目标词汇对齐的译文中词汇,所述目标词汇为所述待处理语料中的一个分割词语,所述目标词向量为所述目标词汇对应的向量。/n

【技术特征摘要】
1.一种稀疏名词对齐方法,其特征在于,包括:
根据待处理语料的语系,选取对应的分割方式,对所述待处理语料进行分割,获取每一分割词语;
根据每一分割词语,按照多空间词嵌入的方法,获取若干空间词汇向量;
将目标词向量和每一词汇向量输入到稀疏词语对齐模型的输入层和对齐层中,获取目标词向量与每一预测词汇向量之间的对齐关系矩阵,并将所述对齐关系矩阵输入到所述稀疏词语对齐模型的softmax函数中,获取所述目标词向量与每一预测词汇向量的对齐概率向量,所述稀疏词语对齐模型是以若干词汇向量样本进行训练得到,预测词汇向量根据所述词汇向量得到;
根据所述对齐概率向量获取所述目标词汇对齐的译文中词汇,所述目标词汇为所述待处理语料中的一个分割词语,所述目标词向量为所述目标词汇对应的向量。


2.根据权利要求1所述的稀疏名词对齐方法,其特征在于,所述将目标词向量和每一词汇向量输入到稀疏词语对齐模型的输入层和对齐层中,获取目标词向量与每一预测词汇向量的对齐关系矩阵,具体包括:
将每一词汇向量和所述目标词向量输入到所述稀疏词语对齐模型的输入层中,获取中间结果;
将所述中间结果作为所述稀疏词语对齐模型的对齐层,获取所述目标词向量和每一预测词汇向量之间的对齐关系矩阵。


3.根据权利要求1所述的稀疏名词对齐方法,其特征在于,所述稀疏词语对齐模型是以若干词汇向量样本进行训练得到,具体包括:
将每一空间词汇向量样本输入到所述稀疏词语对齐模型的输入层,获取每一预测词汇向量;
计算每一预测词汇向量和参考词汇向量之间的交叉熵损失;
通过反向传播更新所述稀疏词语对齐模型的参数,重复上述过程,进行梯度下降找到局部最优解,获取训练后的稀疏词语对齐模型。


4.根据权利要求3所述的稀疏名词对齐方法,其特征在于,所述输入层包括第一输入单元和第二输入单元,其中:
所述第一输入单元由N个GRU神经网络组成,每一GRU神经网络按照预设方向依次连接,N表示所述待处理语料中所有分割词语的数量;
所述第二输入单元由N个GRU神经网络组成,每一GRU神经网络按照与所述预设方向相反的方向依次连接;
所述第一输入单元中每一GRU神经网络与所述第二输入单元中每一GRU神经网络一一对应连接。


5.根据权利要求4所述的稀疏名词对齐方法,其特征在于,所述对齐层由N个GRU神经网...

【专利技术属性】
技术研发人员:蔡洁
申请(专利权)人:语联网武汉信息技术有限公司
类型:发明
国别省市:湖北;42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1