平行句对构建方法、装置、电子设备和存储介质制造方法及图纸

技术编号:34953501 阅读:18 留言:0更新日期:2022-09-17 12:31
本发明专利技术提供一种平行句对构建方法、装置、电子设备和存储介质,其中方法包括:获取第一语句和第二语句,第一语句和第二语句对应不同语种;基于跨语种语言模型,确定第一语句的第一语义特征和第二语句的第二语义特征,跨语种语言模型是基于第一样本语句中各分词与第二样本语句中各分词之间的词义关系训练得到的,第一样本语句和第二样本语句对应不同语种;基于第一语义特征和第二语义特征之间的相似度,构建平行句对,本发明专利技术实施例中,应用不同语种的样本语句各自包含的分词之间的词义关系,进行模型训练,能够使训练所得的模型性能更优,在面向稀缺资源语言时,提升了句子嵌入的准确度,精进了平行句对的构建过程,实现了平行句对构建质量的提升。对构建质量的提升。对构建质量的提升。

【技术实现步骤摘要】
平行句对构建方法、装置、电子设备和存储介质


[0001]本专利技术涉及数据处理
,尤其涉及一种平行句对构建方法、装置、电子设备和存储介质。

技术介绍

[0002]近年来,面向稀缺资源语言的机器翻译成为了热门的研究方向,研究人员从枢轴语言、迁移学习、数据增强、半/无监督训练等方面进行了深入的研究,并取得了较好的成果。但是,在实际训练过程中,训练数据的数量和质量在很大程度上决定了机器翻译模型的性能,因而可知,面向稀缺资源语言的机器翻译效果面临着很大的挑战。
[0003]目前,在进行稀缺资源语言的机器翻译任务之前,多通过多语种的平行语料训练语句嵌入模型,并通过对海量互联网文本数据进行相似度计算以挖掘平行句对,从而扩充不同语种的平行语料库,但是,该方法依赖于平行语料库进行模型训练,在面向稀缺资源语言时,语句嵌入准确度低,从而导致挖掘的平行句对的质量不高,进而使得构建的平行语料库质量较差,形成了恶性循环。

技术实现思路

[0004]本专利技术提供一种平行句对构建方法、装置、电子设备和存储介质,用以解决现有技术中因稀缺资源语言的平行语料稀少,导致模型的训练效果不佳,从而使得句子嵌入的准确性过低,挖掘的平行句对的质量不高的缺陷。
[0005]本专利技术提供一种平行句对构建方法,包括:
[0006]获取第一语句和第二语句,所述第一语句和所述第二语句对应不同语种;
[0007]基于跨语种语言模型,确定所述第一语句的第一语义特征和所述第二语句的第二语义特征,所述跨语种语言模型是基于第一样本语句中各分词与第二样本语句中各分词之间的词义关系训练得到的,所述第一样本语句和所述第二样本语句对应不同语种;
[0008]基于所述第一语义特征和所述第二语义特征之间的相似度,构建平行句对。
[0009]根据本专利技术提供的一种平行句对构建方法,所述跨语种语言模型基于如下步骤训练:
[0010]基于初始语言模型,确定所述第一样本语句的初始第一语义特征,以及所述第二样本语句的初始第二语义特征;
[0011]基于所述第一样本语句中各分词与所述第二样本语句中各分词之间的词义关系,以及所述初始第一语义特征中各分词的分词特征与所述初始第二语义特征中各分词的分词特征之间的相似度,确定词义损失;
[0012]基于所述词义损失,对所述初始语言模型进行参数迭代,得到跨语种语言模型。
[0013]根据本专利技术提供的一种平行句对构建方法,所述基于所述第一样本语句中各分词与所述第二样本语句中各分词之间的词义关系,以及所述初始第一语义特征中各分词的分词特征与所述初始第二语义特征中各分词的分词特征之间的相似度,确定词义损失,包括:
[0014]基于所述第一样本语句中各分词和所述第二样本语句中各分词之间的词义关系为同义词或近义词的词对,确定正样本词对;
[0015]基于所述第一样本语句中各分词和/或所述第二样本语句中各分词之间的词义关系非同义词和近义词的词对,确定负样本词对;
[0016]基于所述正样本词对分别在所述初始第一语义特征和所述初始第二语义特征中的分词特征之间的相似度,以及所述负样本词对在所述初始第一语义特征和/或所述初始第二语义特征中的分词特征之间的相似度,确定词义损失。
[0017]根据本专利技术提供的一种平行句对构建方法,所述基于所述词义损失,对所述初始语言模型进行参数迭代,得到跨语种语言模型,包括:
[0018]基于初始语义特征中掩码分词的分词特征指示所述掩码分词的概率,确定掩码损失,所述初始语义特征包括所述初始第一语义特征和/或所述初始第二语义特征;
[0019]基于所述词义损失和所述掩码损失,对所述初始语言模型进行参数迭代,得到跨语种语言模型。
[0020]根据本专利技术提供的一种平行句对构建方法,所述基于所述词义损失,对所述初始语言模型进行参数迭代,得到跨语种语言模型,之后还包括:
[0021]基于样本平行句对,对所述跨语种语言模型进行模型微调。
[0022]根据本专利技术提供的一种平行句对构建方法,任一语种的样本语句基于如下步骤确定:
[0023]确定所述任一语种的检索词;
[0024]基于所述检索词的检索结果,构建所述任一语种的初始语料库;
[0025]对所述初始语料库中的各语句进行语种分类,得到各语句的语种类别;
[0026]筛除所述初始语料库中语种类别非所述任一语种的语句,得到所述任一语种的语料库;
[0027]从所述任一语种的语料库中获取所述任一语种的样本语句。
[0028]根据本专利技术提供的一种平行句对构建方法,所述基于所述检索词的检索结果,构建所述任一语种的初始语料库,包括:
[0029]基于所述检索词的检索结果,确定目标网站;
[0030]基于所述目标网站的网站内容,构建所述任一语种的初始语料库;
[0031]所述目标网站为按照检索词出现频次从高到低的顺序排列时,前预设数量个检索结果对应的网站。
[0032]根据本专利技术提供的一种平行句对构建方法,所述对所述初始语料库中的各语句进行语种分类,得到各语句的语种类别,包括:
[0033]基于语种分类模型,确定所述初始语料库中的各语句的语种类别;
[0034]所述语种分类模型包括掩码语言层和多分类层,所述掩码语言层基于掩码语句以及所述掩码语句的掩码分词训练得到,所述多分类层基于所述掩码语句以及所述掩码语句的语种类别,联合所述掩码语言层训练得到。
[0035]根据本专利技术提供的一种平行句对构建方法,所述对所述初始语料库中的各语句分别进行语种分类,得到各语句的语种类别,之后还包括:
[0036]基于边界判别模型的语义编码层,对所述初始语料库中的各语句进行语义编码,
得到各语句的语义特征;
[0037]基于所述边界判别模型的边界判别层,对所述各语句的语义特征进行所述各语句的语种类别下的边界判别,得到所述各语句的边界判别结果;
[0038]基于所述各语句的边界判别结果,对所述各语句进行分句。
[0039]本专利技术还提供一种平行句对构建装置,包括:
[0040]语句获取单元,用于获取第一语句和第二语句,所述第一语句和所述第二语句对应不同语种;
[0041]语义特征提取单元,用于基于跨语种语言模型,确定所述第一语句的第一语义特征和所述第二语句的第二语义特征,所述跨语种语言模型是基于第一样本语句中各分词与第二样本语句中各分词之间的词义关系训练得到的,所述第一样本语句和所述第二样本语句对应不同语种;
[0042]平行句对构建单元,用于基于所述第一语义特征和所述第二语义特征之间的相似度,构建平行句对。
[0043]本专利技术还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述的平行句对构建方法。
[0044]本专利技术还提供一种非暂态计算机可读存储介质,其上存储有计算本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种平行句对构建方法,其特征在于,包括:获取第一语句和第二语句,所述第一语句和所述第二语句对应不同语种;基于跨语种语言模型,确定所述第一语句的第一语义特征和所述第二语句的第二语义特征,所述跨语种语言模型是基于第一样本语句中各分词与第二样本语句中各分词之间的词义关系训练得到的,所述第一样本语句和所述第二样本语句对应不同语种;基于所述第一语义特征和所述第二语义特征之间的相似度,构建平行句对。2.根据权利要求1所述的平行句对构建方法,其特征在于,所述跨语种语言模型基于如下步骤训练:基于初始语言模型,确定所述第一样本语句的初始第一语义特征,以及所述第二样本语句的初始第二语义特征;基于所述第一样本语句中各分词与所述第二样本语句中各分词之间的词义关系,以及所述初始第一语义特征中各分词的分词特征与所述初始第二语义特征中各分词的分词特征之间的相似度,确定词义损失;基于所述词义损失,对所述初始语言模型进行参数迭代,得到跨语种语言模型。3.根据权利要求2所述的平行句对构建方法,其特征在于,所述基于所述第一样本语句中各分词与所述第二样本语句中各分词之间的词义关系,以及所述初始第一语义特征中各分词的分词特征与所述初始第二语义特征中各分词的分词特征之间的相似度,确定词义损失,包括:基于所述第一样本语句中各分词和所述第二样本语句中各分词之间的词义关系为同义词或近义词的词对,确定正样本词对;基于所述第一样本语句中各分词和/或所述第二样本语句中各分词之间的词义关系非同义词和近义词的词对,确定负样本词对;基于所述正样本词对分别在所述初始第一语义特征和所述初始第二语义特征中的分词特征之间的相似度,以及所述负样本词对在所述初始第一语义特征和/或所述初始第二语义特征中的分词特征之间的相似度,确定词义损失。4.根据权利要求2所述的平行句对构建方法,其特征在于,所述基于所述词义损失,对所述初始语言模型进行参数迭代,得到跨语种语言模型,包括:基于初始语义特征中掩码分词的分词特征指示所述掩码分词的概率,确定掩码损失,所述初始语义特征包括所述初始第一语义特征和/或所述初始第二语义特征;基于所述词义损失和所述掩码损失,对所述初始语言模型进行参数迭代,得到跨语种语言模型。5.根据权利要求2所述的平行句对构建方法,其特征在于,所述基于所述词义损失,对所述初始语言模型进行参数迭代,得到跨语种语言模型,之后还包括:基于样本平行句对,对所述跨语种语言模型进行模型微调。6.根据权利要求1至5中任一项所述的平行句对构建方法,其特征在于,任一语种的样本语句基于如下步骤确定:确定所述...

【专利技术属性】
技术研发人员:张为泰叶忠义刘俊华胡郁
申请(专利权)人:科大讯飞股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1