【技术实现步骤摘要】
文本处理方法、装置、电子设备及可读存储介质
本公开涉及文本翻译及系统监控领域,更具体地,涉及一种文本处理方法、装置、电子设备及可读存储介质。
技术介绍
随着电子技术的发展,为了提高处理效率,降低人工成本,基于机器学习模型的语言处理得到快速发展。其中,机器翻译为该语言处理的一个重要分支。在实现本公开构思的过程中,专利技术人发现现有技术中至少存在以下技术问题:机器翻译除了可以应用于日常的口语翻译外,还可以应用于各种不同的专业领域中。在应用于各种不同的专业领域时,往往需要大量的平行语料作为先验知识来对机器模型进行训练。但考虑到领域专业性及平行语料获取的广泛性,用于训练模型的语料往往鱼目混杂,很难保证训练的模型的准确性,从而在一定程度上影响翻译得到的文本的准确性。
技术实现思路
有鉴于此,本公开提供了一种能够提高翻译准确性的文本处理方法、装置、电子设备及计算机可读存储介质。本公开的一个方面提供了一种文本处理方法,该方法包括:获得混合平行语料和目标平行语料;以混合平行语料和目标平行语料作为训练样本, ...
【技术保护点】
1.一种文本处理方法,包括:/n获得混合平行语料和目标平行语料;/n以所述混合平行语料和所述目标平行语料作为训练样本,训练预定模型得到第一翻译模型;以及/n以待处理文本作为所述第一翻译模型的输入,获得针对所述待处理文本的翻译文本,/n其中,所述目标平行语料为针对目标领域的平行语料,所述目标平行语料包括通过第二翻译模型筛选得到的平行语料;所述第二翻译模型以所述混合平行语料作为训练样本训练得到。/n
【技术特征摘要】
1.一种文本处理方法,包括:
获得混合平行语料和目标平行语料;
以所述混合平行语料和所述目标平行语料作为训练样本,训练预定模型得到第一翻译模型;以及
以待处理文本作为所述第一翻译模型的输入,获得针对所述待处理文本的翻译文本,
其中,所述目标平行语料为针对目标领域的平行语料,所述目标平行语料包括通过第二翻译模型筛选得到的平行语料;所述第二翻译模型以所述混合平行语料作为训练样本训练得到。
2.根据权利要求1所述的方法,其中,获得目标平行语料包括:
获得针对所述目标领域的多个平行语料;
采用所述第二翻译模型,确定所述多个平行语料中满足第一条件的平行语料;以及
根据所述满足第一条件的平行语料,获得所述目标平行语料。
3.根据权利要求2所述的方法,其中,所述确定所述多个平行语料中满足第一条件的平行语料包括:针对多个平行语料中的第一平行语料执行以下操作:
以所述第一平行语料包括的源语句作为所述第二翻译模型的输入,输出得到所述第一平行语料对应的预测翻译语句;以及
根据所述第一平行语料包括的源语句、所述第一平行语料包括的翻译语句以及所述第一平行语料对应的预测翻译语句,确定所述第一平行语料是否满足第一条件,
其中,所述第一平行语料为所述多个平行语料中的任意一个平行语料。
4.根据权利要求3所述的方法,其中,确定所述第一平行语料是否满足第一条件包括:
确定所述第一平行语料对应的预测翻译语句中的多个目标词串,所述多个目标词串中的每个目标词串由所述预测翻译语句中位置连续的多个第一词组成,所述多个第一词中目标词的占比不小于预定占比;
确定所述多个目标词串中长度最大的目标词串为最大目标词串;
确定所述最大目标词串包括的目标词属于所述第一平行语料包括的翻译语句的第一比例;以及
在所述第一比例不小于第一预定比例的情况下,确定所述第一平行语料满足第一条件,
其中,所述目标词包括预定词汇表中的词及所述多个平行语料包括的翻译语句中的词。
5.根据权利要求4所述的方法,其中,根据所述满足第一条件的平行语料,获得所述目标平行语料包括:针对所述满足第一条件的平行语料中的第二平行语料执行以下操作:
根据所述第二平行语料对应的预测翻译语句的最大目标词串,确定所述第二平行语料包括的翻译语句中满足第二条件的至少一个分句;
确定所述第二平行语料包括的源语句中与所述第二平行语料对应的最大目标词串匹配的至少一个第二词;以及
拼接所述至少一个第二词得到目标源语句,拼接所述至少一个分句得到目标翻译语句,
其中,根据所述第二平行语料得到的目标平行语料包括所述目标源语句及所述目标翻译语句,所述第二平行语料为所述满足第一条件的平行语料中的任意一个平行语料。
6.根据权利要求5所述的方法,其中,确定所述第二平行语料包括的翻译语句中满足第二条件的至少一...
【专利技术属性】
技术研发人员:徐晨灿,袁宁,宫晨,石建勋,
申请(专利权)人:中国工商银行股份有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。