数据匹配方法、装置、设备及存储介质制造方法及图纸

技术编号:33860167 阅读:32 留言:0更新日期:2022-06-18 10:49
本申请实施例提供了一种数据匹配方法、装置、设备及存储介质。数据匹配方法包括:获取翻译记忆库,翻译记忆库中包含由标准原文和对应译文组成的句对组;标准原文为对初始原文进行预处理操作得到的,其中,预处理操作包括:字符编码格式统一化处理和/或预设字符消除处理;预设字符为不影响语义完整性的字符;获取待翻译原文,并对待翻译原文执行预处理操作,得到处理后待翻译原文;从标准原文中确定与处理后待翻译原文匹配的匹配标准原文,并将匹配标准原文对应的译文确定为待翻译原文的翻译结果。本申请实施例可以有效提升数据匹配过程中的召回率。召回率。召回率。

【技术实现步骤摘要】
数据匹配方法、装置、设备及存储介质


[0001]本申请实施例涉及计算机
,尤其涉及一种数据匹配方法、装置、设备及存储介质。

技术介绍

[0002]智能扫描翻译类产品中,通常配置有翻译记忆库和翻译模型,其中,翻译记忆库中包含有大量由标准原文和对应译文组成的句对组;翻译模型用于对通过扫描及OCR(Optical Character Recognition,光学字符识别)获得的待翻译原文进行翻译。
[0003]为了提高翻译效率和翻译质量,在获取到待翻译原文之后,通常先将待翻译原文与翻译记忆库中的标准原文进行匹配,当匹配成功时,则输出对应的译文作为翻译结果;若匹配失败,则通过翻译模型完成待翻译原文的翻译任务并输出翻译结果。
[0004]受书写习惯(如,不同的大小写书写习惯等)以及扫描操作(如空格遗漏、字母重复、跨行扫描)等方面因素影响,即使含义相同,获得的待翻译原文和标准原文在表现形式上也可能存在较大差异,因此,如何进行待翻译原文和标准原文的匹配,以准确地获取待翻译原文的译文,是一个亟待解决的问题。

技术实现思路

本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据匹配方法,包括:获取翻译记忆库,所述翻译记忆库中包含由标准原文和对应译文组成的句对组;所述标准原文为对初始原文进行预处理操作得到的,其中,所述预处理操作包括:字符编码格式统一化处理和/或预设字符消除处理;所述预设字符为不影响语义完整性的字符;获取待翻译原文,并对所述待翻译原文执行所述预处理操作,得到处理后待翻译原文;从所述标准原文中确定与所述处理后待翻译原文匹配的匹配标准原文,并将所述匹配标准原文对应的译文确定为所述待翻译原文的翻译结果。2.根据权利要求1所述的方法,其中,所述翻译记忆库中的标准原文为对初始原文进行预处理操作以及预设编码操作后得到的;在所述对所述待翻译原文执行所述预处理操作,得到处理后待翻译原文之后,所述方法还包括:对所述处理后待翻译原文执行所述预设编码操作,得到编码后待翻译原文;所述从所述标准原文中确定与所述处理后待翻译原文匹配的匹配标准原文,包括:将与所述编码后待翻译原文完全相同的标准原文,确定为匹配标准原文。3.根据权利要求2所述的方法,其中,所述预设编码操作为采用信息摘要算法进行的编码操作;所述对所述处理后待翻译原文执行所述预设编码操作,得到编码后待翻译原文,包括:采用信息摘要算法,对所述处理后待翻译原文进行编码,得到编码后待翻译原文。4.根据权利要求1所述的方法,其中,所述预处理操作包括:字符编码格式统一化处理和预设字符消除处理;所述对所述待翻译原文执行所述预处理操作,得到处理后待翻译原文,包括:消除所述待翻译原文中的预设字符,得到第一原文;根据预设的标点符号编码格式和数字字符编码格式,调整所述第一原文中的标点符号和数字字符,得到处理后待翻译原文。5.根据权利要求4所述的方法,其中,若所述待翻译原文中包含字母,所述根据预设的标点符号编码格式和数字字符编码格式,调整所述第一原文中的标点符号和数字字符,得到处理后待翻译原文,包括:根据预设的标点符号编码格式和数字字符编码格式,调整所述第一原文中的标点符号和数字字符,得到第二原文;将所述第二原文中的字母统一为预设字母格式,以得到处理后待翻译原文;其中,预设字母格式为大写格式或者小写格式。6.根据权利要求1所述的方法,其中,所述预设字符包括如下至少一项:断句符号、空字符以及回车符。7.一种数据匹配方法,应用于扫读笔,包括:接收用于指示进行文本翻译的指令;并根据所述指令,对包含待翻译原文的目标区域进行扫描,得到目标图像;对所述目标图像进行文本识别,得到待翻译原文;对所述待翻译原文执行预处理操作,得到处理后待翻译原文;其中,所述预处理操作包括:字符编码格式统一化处理和/或预设字符消除处理;所述预设字符为不影...

【专利技术属性】
技术研发人员:徐浩广
申请(专利权)人:阿里巴巴中国有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1