样本的生成方法、装置、计算机设备和存储介质制造方法及图纸

技术编号：32228217 阅读：22 留言：0更新日期：2022-02-09 17:33

本发明专利技术提供了一种样本的生成方法，包括：接收包括第一语言的语料和第二语言的语料形成的第一样本；其中，所述第一样本中包括的语料趋于表达相同的语义；所述语料包括至少一个词汇；获取与所述第一样本包括的词汇，具有近义词关系的候选词；使用所述候选词替换所述第一样本中相应近义词关系的词汇，形成第二样本；其中，所述第二样本包括第一语言的语料，和第二语言的语料。通过将现有平行语料中的词汇替换成与所述词汇具有近义词关系的候选词，形成样本，以在一定程度上扩展了平行语料的训练样本。样本。样本。

全部详细技术资料下载

【技术实现步骤摘要】
样本的生成方法、装置、计算机设备和存储介质

[0001]本说明书涉及计算机数据处理的
，具体涉及一种样本的生成方法、装置、计算机设备和存储介质。

技术介绍

[0002]随着自然语言处理技术的不断发展，基于神经网络的机器翻译模型在各个领域的应用也越来越多。为提高机器翻译模型的性能，往往需要大量的平行语料样本对模型进行训练。然而，在一些特定领域，例如医疗领域，高质量平行语料样本数量仍然有限。现有技术中，往往需要对语料进行人工翻译以获得更多的训练样本。这不仅需要耗费较多的时间，而且成本高昂。

技术实现思路

[0003]有鉴于此，本说明书多个实施方式致力于提供一种样本的生成方法、装置、计算机设备和存储介质，以一定程度上基于现有的语料扩充平行语料训练样本。
[0004]本说明书实施方式提出了一种样本的生成方法，所述方法包括：接收包括第一语言的语料和第二语言的语料形成的第一样本；其中，所述第一样本中包括的语料趋于表达相同的语义；所述语料包括至少一个词汇；获取与所述第一样本包括的词汇，具有近义词关系的候选词；...

【技术保护点】

【技术特征摘要】
1.一种样本的生成方法，其特征在于，包括：接收包括第一语言的语料和第二语言的语料形成的第一样本；其中，所述第一样本中包括的语料趋于表达相同的语义；所述语料包括至少一个词汇；获取与所述第一样本包括的词汇，具有近义词关系的候选词；使用所述候选词替换所述第一样本中相应近义词关系的词汇，形成第二样本；其中，所述第二样本包括第一语言的语料，和第二语言的语料。2.根据权利要求1所述的方法，其特征在于，还包括：接收第一语料；其中，所述第一语料属于第一语言；获取采用第二语言表达与所述第一语料趋于相同语义的第二语料，所述第一语料和所述第二语料形成所述第一样本。3.根据权利要求2所述的方法，其特征在于，所述第一样本用于训练将第二语言翻译成第一语言的训练模型。4.根据权利要求1所述的方法，其特征在于，还包括：获取初级样本；其中，所述初级样本包括所述第一语言和所述第二语言形成的语料；计算所述初级样本的语料的困惑度指标；其中，所述困惑度指标用于表示语料语义质量；将所述困惑度指标小于设定阈值的所述初级样本，作为所述第一样本。5.根据权利要求1所述的方法，其特征在于，还包括：获取初级样本；其中，所述初级样本包括所述第一语言和所述第二语言形成的语料；将所述初级样本的第一语言的语料中的词汇，在所述第二语言的语料中匹配语义趋于相同的词汇；在所述第一语言的语料中的词汇均匹配到所述第二语言的语料中的词汇的情况下，将所述初级样本作为所述第一样本。6.根据权利要求5所述的方法，其特征在于，还包括：将所述初级样本的第二语...

【专利技术属性】
技术研发人员：李旭，张凯，张忠敏，吴大帅，王书乔，尹传政，马成，
申请(专利权)人：浙江太美医疗科技股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人