一种稀疏名词对齐方法及系统技术方案

技术编号：25989974 阅读：22 留言：0更新日期：2020-10-20 18:58

本发明专利技术实施例提供一种稀疏名词对齐方法及系统，该方法包括：根据待处理语料的语系，选取对应的分割方式，对待处理语料进行分割，获取每一分割词语；根据每一分割词语，按照多空间词嵌入的方法，获取若干空间词汇向量；将目标词向量和每一词汇向量输入到稀疏词语对齐模型的输入层和对齐层中，获取目标词向量与每一预测词汇向量之间的对齐关系矩阵，并将对齐关系矩阵输入到稀疏词语对齐模型的softmax函数中，获取目标词向量与每一预测词汇向量的对齐概率向量；根据对齐概率向量获取目标词汇对齐的译文中词汇。本发明专利技术首次提出一种针对稀疏词语的稀疏稀疏词语对齐模型，对于比较稀疏词汇对齐效果比较好。

全部详细技术资料下载

【技术实现步骤摘要】
一种稀疏名词对齐方法及系统
本专利技术涉及计算机
，尤其涉及一种稀疏名词对齐方法及系统。
技术介绍
目前主要的词对齐方式是基于统计概率模型或者词典等语言知识库的规则混合，常见的统计概率模型有HMM或者其改良模型，但是对于比较稀疏词汇例如人物的姓名、小说创造的非常见姓名、或者小说中作者创造的“招式”“功法”等翻译，因为只在一本小说出现一次非常稀疏，通过统计很难获得其概率模型。因此，亟需一种针对稀疏名词的对齐方法。
技术实现思路
为了解决上述问题，本专利技术实施例提供一种稀疏名词对齐方法及系统。第一方面，本专利技术实施例提供一种稀疏名词对齐方法，包括：根据待处理语料的语系，选取对应的分割方式，对所述待处理语料进行分割，获取每一分割词语；根据每一分割词语，按照多空间词嵌入的方法，获取若干空间词汇向量；将目标词向量和每一词汇向量输入到稀疏词语对齐模型的输入层和对齐层中，获取目标词向量与每一预测词汇向量之间的对齐关系矩阵，并将所述对齐关系矩阵输入到所述稀疏词语对齐模型的softmax函数中，获取所述目标词向量与每一预测词汇向量的对齐概率向量，所述稀疏词语对齐模型是以若干词汇向量样本进行训练得到，预测词汇向量根据所述词汇向量得到；根据所述对齐概率向量获取所述目标词汇对齐的译文中词汇，所述目标词汇为所述待处理语料中的一个分割词语，所述目标词向量为所述目标词汇对应的向量。优选地，所述将目标词向量和每一词汇向量输入到稀疏词语对齐模型的输入层和对齐层中，获...

【技术保护点】
1.一种稀疏名词对齐方法，其特征在于，包括：/n根据待处理语料的语系，选取对应的分割方式，对所述待处理语料进行分割，获取每一分割词语；/n根据每一分割词语，按照多空间词嵌入的方法，获取若干空间词汇向量；/n将目标词向量和每一词汇向量输入到稀疏词语对齐模型的输入层和对齐层中，获取目标词向量与每一预测词汇向量之间的对齐关系矩阵，并将所述对齐关系矩阵输入到所述稀疏词语对齐模型的softmax函数中，获取所述目标词向量与每一预测词汇向量的对齐概率向量，所述稀疏词语对齐模型是以若干词汇向量样本进行训练得到，预测词汇向量根据所述词汇向量得到；/n根据所述对齐概率向量获取所述目标词汇对齐的译文中词汇，所述目标词汇为所述待处理语料中的一个分割词语，所述目标词向量为所述目标词汇对应的向量。/n

【技术特征摘要】
1.一种稀疏名词对齐方法，其特征在于，包括：
根据待处理语料的语系，选取对应的分割方式，对所述待处理语料进行分割，获取每一分割词语；
根据每一分割词语，按照多空间词嵌入的方法，获取若干空间词汇向量；
将目标词向量和每一词汇向量输入到稀疏词语对齐模型的输入层和对齐层中，获取目标词向量与每一预测词汇向量之间的对齐关系矩阵，并将所述对齐关系矩阵输入到所述稀疏词语对齐模型的softmax函数中，获取所述目标词向量与每一预测词汇向量的对齐概率向量，所述稀疏词语对齐模型是以若干词汇向量样本进行训练得到，预测词汇向量根据所述词汇向量得到；
根据所述对齐概率向量获取所述目标词汇对齐的译文中词汇，所述目标词汇为所述待处理语料中的一个分割词语，所述目标词向量为所述目标词汇对应的向量。

2.根据权利要求1所述的稀疏名词对齐方法，其特征在于，所述将目标词向量和每一词汇向量输入到稀疏词语对齐模型的输入层和对齐层中，获取目标词向量与每一预测词汇向量的对齐关系矩阵，具体包括：
将每一词汇向量和所述目标词向量输入到所述稀疏词语对齐模型的输入层中，获取中间结果；
将所述中间结果作为所述稀疏词语对齐模型的对齐层，获取所述目标词向量和每一预测词汇向量之间的对齐关系矩阵。

3.根据权利要求1所述的稀疏名词对齐方法，其特征在于，所述稀疏词语对齐模型是以若干词汇向量样本进行训练得到，具体包括：
将每一空间词汇向量样本输入到所述稀疏词语对齐模型的输入层，获取每一预测词汇向量；
计算每一预测词汇向量和参考词汇向量之间的交叉熵损失；
通过反向传播更新所述稀疏词语对齐模型的参数，重复上述过程，进行梯度下降找到局部最优解，获取训练后的稀疏词语对齐模型。

4.根据权利要求3所述的稀疏名词对齐方法，其特征在于，所述输入层包括第一输入单元和第二输入单元，其中：
所述第一输入单元由N个GRU神经网络组成，每一GRU神经网络按照预设方向依次连接，N表示所述待处理语料中所有分割词语的数量；
所述第二输入单元由N个GRU神经网络组成，每一GRU神经网络按照与所述预设方向相反的方向依次连接；
所述第一输入单元中每一GRU神经网络与所述第二输入单元中每一GRU神经网络一一对应连接。

5.根据权利要求4所述的稀疏名词对齐方法，其特征在于，所述对齐层由N个GRU神经网...

【专利技术属性】
技术研发人员：蔡洁，
申请(专利权)人：语联网武汉信息技术有限公司，
类型：发明
国别省市：湖北;42

全部详细技术资料下载我是这个专利的主人