一种漏译检测、翻译方法及装置、服务器及存储介质制造方法及图纸

技术编号:19341927 阅读:64 留言:0更新日期:2018-11-07 13:48
本发明专利技术实施例公开了一种漏译检测、翻译方法及装置、服务器及存储介质,本发明专利技术实施例对原始内容进行翻译,生成翻译内容之后,解析原始内容,获取其包含的至少一个分词,然后根据分词的不译概率从至少一个分词中确定目标分词,并获取目标分词对应的候选翻译内容,以进行漏译检测,例如当翻译内容不包括目标分词对应的候选翻译内容时,确定翻译内容存在漏译,因此,本发明专利技术实施例可以检测翻译是否存在漏译,并可以基于检测结果优化翻译模型,保证了翻译模型的翻译准确率,同时也提高了用户使用体验。

A leaky translation detection and translation method and device, server and storage medium

The embodiment of the present invention discloses a missed translation detection, translation method and device, server and storage medium. The embodiment of the present invention translates the original content, generates the translated content, parses the original content, obtains at least one participle contained therein, and then determines from at least one participle according to the untranslated probability of the participle. For example, when the translation content does not include the candidate translation content corresponding to the target segmentation, it is determined that the translation content has missed translation. Therefore, embodiments of the present invention can detect whether the translation has missed translation, and can be optimized based on the detection results. The translation model ensures the accuracy of translation and improves user experience.

【技术实现步骤摘要】
一种漏译检测、翻译方法及装置、服务器及存储介质
本专利技术涉及翻译领域,具体涉及一种漏译检测、翻译方法及装置、服务器及存储介质。
技术介绍
文本翻译可以使得同一文本在多个语种之间进行转换,是使用不同语种的用户之间进行交流所必须的,常规的翻译方式包括人工翻译和机器翻译,因为人工翻译需要大量的人力物力,实现成本高,因此机器翻译是翻译领域的通用技术。机器翻译又包括SMT(StatisticalMachineTranslation,统计机器翻译)和NMT(NeuralMachineTranslation,神经机器翻译)两个方向。SMT是一种基于统计的机器翻译方法,其基本思想是通过对大量的平行语料进行统计分析,构建统计翻译模型,进而使用此模型进行翻译,但是该方式是基于统计翻译,翻译比较僵硬,不流畅,而不是有明显语法错误;因此基于模型的机器翻译方法NMT是机器翻译目前主流的发展方向。NMT也存在一些问题,例如漏译等,在以下翻译句对中:原始内容:我给你的红包给你妈妈了。翻译内容:Igaveyouaredenvelope.在这个例子中,原文中的"妈妈"没有被翻译到翻译内容中,因此“妈妈”属于漏译。若一个翻译模型的翻译结果存在漏译,则说明这个翻译模型需要改进或者更换,以提高用户的使用体验,因此,为了保证翻译模型的翻译准确率,需要准确对翻译结果进行漏译等校验。
技术实现思路
本专利技术实施例提供一种漏译检测、翻译方法及装置、服务器及存储介质,可以检测翻译是否存在漏译。为解决上述技术问题,本专利技术实施例提供以下技术方案:一种漏译检测方法,包括:获取原始内容、以及所述原始内容对应的翻译内容;对所述原始内容进行分词处理,得到至少一个分词;获取所述分词的不译概率;所述不译概率为所述分词在翻译样本集中不被翻译的概率;根据所述分词的不译概率从所述至少一个分词中确定目标分词,并获取所述目标分词对应的候选翻译内容;当所述翻译内容不包括所述目标词语的候选翻译内容时,确定所述原始内容对应的翻译内容存在漏译。一种翻译方法,包括:使用机器翻译模型,对原始内容进行翻译,获得所述原始内容对应的翻译内容;对所述原始内容进行分词处理,得到至少一个分词;获取所述分词的不译概率;所述不译概率为所述分词在翻译样本集中不被翻译的概率;根据所述分词的不译概率从所述至少一个分词中确定目标分词,并获取所述目标分词对应的候选翻译内容;当所述翻译内容不包括所述目标词语的候选翻译内容时,确定所述原始内容对应的翻译内容存在漏译;统计所述原始内容中的漏译分词;所述漏译分词包括在所述翻译内容中不存在候选翻译内容的分词;根据统计结果,对机器翻译模型进行优化处理;使用优化处理后的机器翻译模型,对所述原始内容重新进行翻译。一种漏译检测装置,包括:第一获取模块,用于获取原始内容、以及所述原始内容对应的翻译内容对原始内容进行翻译,得到所述原始内容对应的翻译内容;第一解析模块,用于对所述原始内容进行分词处理,得到至少一个分词;第二获取模块,用于获取所述分词的不译概率;所述不译概率为所述分词在翻译样本集中不被翻译的概率;第三获取模块,用于根据所述分词的不译概率从所述至少一个分词中确定目标分词,并获取所述目标分词对应的候选翻译内容;第一校验模块,用于当所述翻译内容不包括所述目标词语的候选翻译内容时,确定所述原始内容对应的翻译内容存在漏译。一种翻译装置,包括:第一翻译模块,用于使用机器翻译模型,对原始内容进行翻译,获得所述原始内容对应的翻译内容;第二解析模块,用于对所述原始内容进行分词处理,得到至少一个分词;第四获取模块,用于获取所述分词的不译概率;所述不译概率为所述分词在翻译样本集中不被翻译的概率;第五获取模块,用于根据所述分词的不译概率从所述至少一个分词中确定目标分词,并获取所述目标分词对应的候选翻译内容;第二校验模块,用于当所述翻译内容不包括所述目标词语的候选翻译内容时,确定所述原始内容对应的翻译内容存在漏译;统计模块,用于统计所述原始内容中的漏译分词;所述漏译分词包括在所述翻译内容中不存在候选翻译内容的分词;优化模块,用于根据统计结果,对机器翻译模型进行优化处理;第二翻译模块,用于使用优化处理后的机器翻译模型,对所述原始内容重新进行翻译。一种服务器,包括处理器和存储器,所述存储器存储有多条指令,所述指令适于处理器进行加载,以执行上述漏译检测方法中的步骤,或者上述的翻译方法中的步骤。一种存储介质,所述存储介质存储有多条指令,所述指令适于处理器进行加载,以执行上述漏译检测方法中的步骤,或者上述的翻译方法中的步骤。本专利技术实施例在对原始内容进行翻译,生成翻译内容之后,解析原始内容,获取其包含的至少一个分词,然后根据所述分词的不译概率从所述至少一个分词中确定目标分词,并获取所述目标分词对应的候选翻译内容,以进行漏译检测,例如当翻译内容不包括目标分词对应的候选翻译内容时,确定翻译内容存在漏译,因此,本专利技术实施例可以对翻译是否存在漏译进行检测,并可以基于漏译统计结果对翻译模型进行优化,保证了翻译模型的翻译准确率,同时也提高了用户使用体验。附图说明为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1是本专利技术实施例提供的翻译系统的第一种组网示意图;图2是本专利技术实施例提供的漏译检测方法的第一种流程示意图;图3是本专利技术实施例提供的漏译检测装置的结构示意图;图4是本专利技术实施例提供的翻译方法的流程示意图;图5是本专利技术实施例提供的翻译装置的结构示意图;图6是本专利技术实施例提供的翻译系统的第二种组网示意图;图7是本专利技术实施例提供的漏译检测方法的第二种流程示意图;图8是本专利技术实施例提供的漏译检测方法的第三种流程示意图;图9是本专利技术实施例提供的用户界面的第一种示意图;图10是本专利技术实施例提供的用户界面的第二种示意图;图11是本专利技术实施例提供的数据界面的第一种示意图;图12是本专利技术实施例提供的数据界面的第二种示意图;图13是本专利技术实施例提供的数据界面的第三种示意图;图14是本专利技术实施例提供的终端的结构示意图;图15是本专利技术实施例提供的服务器的结构示意图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。请参阅图1,图1为本专利技术实施例所提供的翻译系统的场景示意图,该翻译系统可以包括接口服务器11、翻译服务器12、校验服务器13以及提供各种数据支持的数据服务器14;其中:数据服务器14用于提供翻译模型数据、校验数据等,翻译模型数据用于翻译服务器12对原始内容进行翻译,以输出对应的翻译内容,校验数据用于校验服务器13对翻译内容进行校验,判断是否存在漏译等问题;接口服务器11用于为用户提供访问接口,接收用户通过终端发送的翻译请求等,并转发至翻译服务器12;翻译服务器12用于从翻译请求中提取需要翻译的原始内容,并使用翻译模型对其进行翻译输出本文档来自技高网...

【技术保护点】
1.一种漏译检测方法,其特征在于,包括:获取原始内容、以及所述原始内容对应的翻译内容;对所述原始内容进行分词处理,得到至少一个分词;获取所述分词的不译概率;所述不译概率为所述分词在翻译样本集中不被翻译的概率;根据所述分词的不译概率从所述至少一个分词中确定目标分词,并获取所述目标分词对应的候选翻译内容;当所述翻译内容不包括所述目标词语的候选翻译内容时,确定所述原始内容对应的翻译内容存在漏译。

【技术特征摘要】
1.一种漏译检测方法,其特征在于,包括:获取原始内容、以及所述原始内容对应的翻译内容;对所述原始内容进行分词处理,得到至少一个分词;获取所述分词的不译概率;所述不译概率为所述分词在翻译样本集中不被翻译的概率;根据所述分词的不译概率从所述至少一个分词中确定目标分词,并获取所述目标分词对应的候选翻译内容;当所述翻译内容不包括所述目标词语的候选翻译内容时,确定所述原始内容对应的翻译内容存在漏译。2.根据权利要求1所述的漏译检测方法,其特征在于,所述获取所述分词的不译概率的步骤包括:统计所述分词在所述翻译样本中出现次数的第一数值;统计所述分词对应的候选翻译内容在所述翻译样本中出现次数的第二数值;获取所述第一数值与所述第二数值的第一差值;获取所述第一差值与所述第一数值的第一比值,作为所述分词对应的不译概率。3.根据权利要求1所述的漏译检测方法,其特征在于,所述获取所述目标分词对应的候选翻译内容的步骤包括:将所述翻译样本中每个翻译句对作为一个用户;将所述翻译样本中每个分词作为一个项目;构建用户项目矩阵;根据所述用户项目矩阵,获取各项目的相似项目;将项目的相似项目对应的分词,作为该项目对应分词的候选翻译内容。4.根据权利要求3所述的漏译检测方法,其特征在于,所述根据所述用户项目矩阵,获取各项目的相似项目的步骤包括:采用相似度计算方法,计算各项目之间的余弦相似度;采用协同过滤算法,基于各项目之间的余弦相似度,获得各项目的相似项目。5.根据权利要求1所述的漏译检测方法,其特征在于,所述根据所述分词的不译概率从所述至少一个分词中确定目标分词的步骤包括:获取预设条件中的错误率阈值;比对所述分词的不译概率与所述错误率阈值;若所述分词的不译概率小于所述错误率阈值,则将所述分词确定为目标分词。6.根据权利要求1所述的漏译检测方法,其特征在于,所述根据所述分词的不译概率从所述至少一个分词中确定目标分词的步骤包括:获取预设条件中的校验数;将各分词的不译概率按照从小到大进行排序;在排序结果中,从小到大选择所述校验数对应数量的不译概率;若所述分词的不译概率被选中,则将所述分词确定为目标分词。7.根据权利要求1所述的漏译检测方法,其特征在于,所述根据所述分词的不译概率从所述至少一个分词中确定目标分词的步骤包括:获取预设条件中的校验率;根据所述原始内容包含的分词的总数、以及所述校验率,计算校验总数;将各分词的不译概率按照从小到大进行排序;在排序结果中,从小到大选择所述校验总数对应数量的不译概率;若所述分词的不译概率被选中,则将所述分词确定为目标分词。8.根据权利要求1至7任一项所述的漏译检测方法,其特征在于,在获取所述目标分词对应的候选翻译内容的步骤之后,还包括:获取所述分词在所述原始内容中出现次数的第三数值;获取所述分词的候选翻译内容在所述翻译内容中出现次数的第...

【专利技术属性】
技术研发人员:郑吴杰邓月堂刘思凡
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1