一种漏译检测、翻译方法及装置、服务器及存储介质制造方法及图纸

技术编号：19341927 阅读：64 留言：0更新日期：2018-11-07 13:48

本发明专利技术实施例公开了一种漏译检测、翻译方法及装置、服务器及存储介质，本发明专利技术实施例对原始内容进行翻译，生成翻译内容之后，解析原始内容，获取其包含的至少一个分词，然后根据分词的不译概率从至少一个分词中确定目标分词，并获取目标分词对应的候选翻译内容，以进行漏译检测，例如当翻译内容不包括目标分词对应的候选翻译内容时，确定翻译内容存在漏译，因此，本发明专利技术实施例可以检测翻译是否存在漏译，并可以基于检测结果优化翻译模型，保证了翻译模型的翻译准确率，同时也提高了用户使用体验。

A leaky translation detection and translation method and device, server and storage medium

The embodiment of the present invention discloses a missed translation detection, translation method and device, server and storage medium. The embodiment of the present invention translates the original content, generates the translated content, parses the original content, obtains at least one participle contained therein, and then determines from at least one participle according to the untranslated probability of the participle. For example, when the translation content does not include the candidate translation content corresponding to the target segmentation, it is determined that the translation content has missed translation. Therefore, embodiments of the present invention can detect whether the translation has missed translation, and can be optimized based on the detection results. The translation model ensures the accuracy of translation and improves user experience.

全部详细技术资料下载

【技术实现步骤摘要】
一种漏译检测、翻译方法及装置、服务器及存储介质
本专利技术涉及翻译领域，具体涉及一种漏译检测、翻译方法及装置、服务器及存储介质。
技术介绍
文本翻译可以使得同一文本在多个语种之间进行转换，是使用不同语种的用户之间进行交流所必须的，常规的翻译方式包括人工翻译和机器翻译，因为人工翻译需要大量的人力物力，实现成本高，因此机器翻译是翻译领域的通用技术。机器翻译又包括SMT(StatisticalMachineTranslation，统计机器翻译)和NMT(NeuralMachineTranslation，神经机器翻译)两个方向。SMT是一种基于统计的机器翻译方法，其基本思想是通过对大量的平行语料进行统计分析，构建统计翻译模型，进而使用此模型进行翻译，但是该方式是基于统计翻译，翻译比较僵硬，不流畅，而不是有明显语法错误；因此基于模型的机器翻译方法NMT是机器翻译目前主流的发展方向。NMT也存在一些问题，例如漏译等，在以下翻译句对中：原始内容：我给你的红包给你妈妈了。翻译内容：Igaveyouaredenvelope.在这个例子中，原文中的"妈妈"没有被翻译到翻译内容中，因此“妈妈”属于漏译。若一个翻译模型的翻译结果存在漏译，则说明这个翻译模型需要改进或者更换，以提高用户的使用体验，因此，为了保证翻译模型的翻译准确率，需要准确对翻译结果进行漏译等校验。
技术实现思路
本专利技术实施例提供一种漏译检测、翻译方法及装置、服务器及存储介质，可以检测翻译是否存在漏译。为解决上述技术问题，本专利技术实施例提供以下技术方案：一种漏译检测方法，包括：获取原始内容、以及所述原始内容对应的...

【技术保护点】
1.一种漏译检测方法，其特征在于，包括：获取原始内容、以及所述原始内容对应的翻译内容；对所述原始内容进行分词处理，得到至少一个分词；获取所述分词的不译概率；所述不译概率为所述分词在翻译样本集中不被翻译的概率；根据所述分词的不译概率从所述至少一个分词中确定目标分词，并获取所述目标分词对应的候选翻译内容；当所述翻译内容不包括所述目标词语的候选翻译内容时，确定所述原始内容对应的翻译内容存在漏译。

【技术特征摘要】
1.一种漏译检测方法，其特征在于，包括：获取原始内容、以及所述原始内容对应的翻译内容；对所述原始内容进行分词处理，得到至少一个分词；获取所述分词的不译概率；所述不译概率为所述分词在翻译样本集中不被翻译的概率；根据所述分词的不译概率从所述至少一个分词中确定目标分词，并获取所述目标分词对应的候选翻译内容；当所述翻译内容不包括所述目标词语的候选翻译内容时，确定所述原始内容对应的翻译内容存在漏译。2.根据权利要求1所述的漏译检测方法，其特征在于，所述获取所述分词的不译概率的步骤包括：统计所述分词在所述翻译样本中出现次数的第一数值；统计所述分词对应的候选翻译内容在所述翻译样本中出现次数的第二数值；获取所述第一数值与所述第二数值的第一差值；获取所述第一差值与所述第一数值的第一比值，作为所述分词对应的不译概率。3.根据权利要求1所述的漏译检测方法，其特征在于，所述获取所述目标分词对应的候选翻译内容的步骤包括：将所述翻译样本中每个翻译句对作为一个用户；将所述翻译样本中每个分词作为一个项目；构建用户项目矩阵；根据所述用户项目矩阵，获取各项目的相似项目；将项目的相似项目对应的分词，作为该项目对应分词的候选翻译内容。4.根据权利要求3所述的漏译检测方法，其特征在于，所述根据所述用户项目矩阵，获取各项目的相似项目的步骤包括：采用相似度计算方法，计算各项目之间的余弦相似度；采用协同过滤算法，基于各项目之间的余弦相似度，获得各项目的相似项目。5.根据权利要求1所述的漏译检测方法，其特征在于，所述根据所述分词的不译概率从所述至少一个分词中确定目标分词的步骤包括：获取预设条件中的错误率阈值；比对所述分词的不译概率与所述错误率阈值；若所述分词的不译概率小于所述错误率阈值，则将所述分词确定为目标分词。6.根据权利要求1所述的漏译检测方法，其特征在于，所述根据所述分词的不译概率从所述至少一个分词中确定目标分词的步骤包括：获取预设条件中的校验数；将各分词的不译概率按照从小到大进行排序；在排序结果中，从小到大选择所述校验数对应数量的不译概率；若所述分词的不译概率被选中，则将所述分词确定为目标分词。7.根据权利要求1所述的漏译检测方法，其特征在于，所述根据所述分词的不译概率从所述至少一个分词中确定目标分词的步骤包括：获取预设条件中的校验率；根据所述原始内容包含的分词的总数、以及所述校验率，计算校验总数；将各分词的不译概率按照从小到大进行排序；在排序结果中，从小到大选择所述校验总数对应数量的不译概率；若所述分词的不译概率被选中，则将所述分词确定为目标分词。8.根据权利要求1至7任一项所述的漏译检测方法，其特征在于，在获取所述目标分词对应的候选翻译内容的步骤之后，还包括：获取所述分词在所述原始内容中出现次数的第三数值；获取所述分词的候选翻译内容在所述翻译内容中出现次数的第...

【专利技术属性】
技术研发人员：郑吴杰，邓月堂，刘思凡，
申请(专利权)人：腾讯科技深圳有限公司，
类型：发明
国别省市：广东,44

全部详细技术资料下载我是这个专利的主人