一种译句的数据分析方法及系统技术方案

技术编号:15254962 阅读:148 留言:0更新日期:2017-05-02 22:15
本发明专利技术公开了一种译句的数据分析方法及系统,属于翻译技术领域。分析方法包括:从译文文档中提取译句;从译文文档对应的原文文档中,提取与译句对应的原句;将译句和原句推送给至少一个评价用户;获取至少一个评价用户对译句的译句错误标记;统计译句错误标记,并根据译句错误标记确定译句的翻译质量。本发明专利技术分析方法将全文评估任务分解为碎片型单句任务,通过对标记样本的统计分析得到译句的分析分析方法,获得了的一种客观的译句评价结果,有效利用了译员的碎片时间扩大了符合要求的人员数量;该分析方法在提高译文识别效率、降低成本、减少专家资源依赖程度上都有非常优秀的表现。

Data analysis method and system for sentence translation

The invention discloses a data analysis method and a system for translating sentences, which belongs to the technical field of translation. The analysis method includes: extracting translated sentences from the document; from the translation documents corresponding to the original document, extraction and sentence corresponding to the original sentence; sentence and the original sentence will be pushed to the at least one evaluation of the user; acquiring at least one user evaluation of the sentence the sentence error marker; statistical sentence error marker and, according to the sentence error markers to determine translation quality of sentence translation. The method for analyzing the text evaluation task into pieces of sentence type tasks, analysis the sentence analysis method based on statistical analysis of labeled samples, obtained an objective sentence evaluation results, the effective use of the interpreter's fragments of time expanded with the required number of personnel; the analysis method in improving the recognition efficiency and reduce cost, reduce dependence on expert resources has a very good performance.

【技术实现步骤摘要】

本专利技术涉及翻译
,特别是涉及一种译句的数据分析方法及系统。
技术介绍
在传统的翻译服务流程中,翻译服务最终输出的为终稿译文,译文内容是否准确、表达是否流畅、格式标点是否使用正确等因素关系着付费客户的满意程度。由于翻译人员自身翻译能力的影响,不同翻译人员对同一待译文本的理解存在差异,因此为了提高翻译的准确性,在实际翻译过程中,需要通过增加人工审校环节,由翻译专家通读译文,对存在问题的译文进行标注;如果发现问题,则退回翻译人员进行修改。而在实际翻译项目中,受翻译周期短、费用少、翻译专家稀缺等因素的限制,对于终稿译文的翻译质量的评价数较少,难以实现对被译文档的翻译质量的准确评估。
技术实现思路
本专利技术实施例提供了一种译句的数据分析方法及系统。为了对披露的实施例的一些方面有一个基本的理解,下面给出了简单的概括。该概括部分不是泛泛评述,也不是要确定关键/重要组成元素或描绘这些实施例的保护范围。其唯一目的是用简单的形式呈现一些概念,以此作为后面的详细说明的序言。根据本专利技术的一个方面,提供了一种译句的数据分析方法,包括:从译文文档中提取译句;从译文文档对应的原文文档中,提取与译句对应的原句;将译句和原句推送给至少一个评价用户;获取至少一个评价用户对译句的译句错误标记;统计译句错误标记,并根据译句错误标记确定译句的翻译质量。进一步的,根据译句错误标记,确定译句的翻译质量,包括:统计至少一个评价用户对译句的第一类错误评分和第二类错误评分,确定每一评价用户对译句的译句错误总评分;译句错误总评分按照如下方式计算:Err=k1·Err_LC+k2·Err_GE,其中,Err为译句错误总评分,Err_LC为第一类错误评分,k1为第一类错误评分的权重系数,Err_GE为第二类错误评分,k2为与第二类错误评分的权重系数。进一步的,在确定译句错误总评分Err之前,分析方法还包括确定第一类错误评分的权重系数k1和第二类错误评分的权重系数k2,包括:提取语料库中已确定翻译质量的多个译句样本的评价数据,分析数据包括译句样本的译句错误总评分ErrS、第一类错误评分Err_LCS和第二类错误评分Err_GES;构建线性方程,线性方程为:ErrS=k1·Err_LCS+k2·Err_GES;根据线性方程,通过多元线性回归参数计算方法,确定译句的第一类错误评分对应的权重系数k1和第二类错误评分对应的权重系数k2,其中,多元线性回归参数计算方法包括最小二乘法或梯度下降法。进一步的,译句错误标记包括每一评价用户对译句所选定的第一类错误选项,第一类错误选项包括:整句错译、阅读不畅、语法错误、专有名词错误、固定搭配错误、用词错误和表达不符目标语言习惯;分析方法还包括:根据译句错误标记,确定第一类错误评分Err_LC,第一类错误评分Err_LC按照如下方式计算:Err_LC=k11·Err_LC1+k12·Err_LC2+k13·Err_LC3+k14·Err_LC4+k15·Err_LC5+k16·Err_LC6+k17·Err_LC7,其中,Err_LC1~Err_LC7为第一类错误选项一一对应的选项评分,k11~k17为第一类错误选项一一对应的权重系数。进一步的,在确定第一类错误评分Err_LC之前,分析方法还包括确定第一类错误选项的权重系数k11~k17,包括:提取语料库中已确定翻译质量的多个译句样本的评价数据,评价数据包括译句样本的第一类错误评分Err_LCS和第一类错误选项一一对应的选项评分Err_LCS1~Err_LCS7;构建线性方程,线性方程为:根据线性方程,通过多元线性回归参数计算方法,确定译句的第一类错误选项的权重系数k11~k17,其中,多元线性回归参数计算方法包括最小二乘法或梯度下降法。进一步的,译句错误标记包括每一评价用户对译句所选定的第二类错误选项,第二类错误选项包括:词汇漏译、拼写错误、数字错误和标点错误;分析方法还包括:根据译句错误标记,确定第二类错误评分Err_GE,第二类错误评分Err_GE按照如下方式计算:Err_GE=k21·Err_GE1+k22·Err_GE2+k23·Err_GE3+k24·Err_GE4,其中,Err_GE1~Err_GE4为第二类错误选项一一对应的选项评分,k21~k24为第二类错误选项一一对应的权重系数。进一步的,在确定第二类错误评分Err_GE之前,分析方法还包括确定第二类错误选项的权重系数k21~k24,包括:提取语料库中已确定翻译质量的多个译句样本的评价数据,评价数据包括译句样本的第二类错误评分Err_GES和第二类错误选项一一对应的选项评分Err_GES1~Err_GES4;构建线性方程,线性方程为:Err_GES=k21·Err_GES1+k22·Err_GES2+k23·Err_GES3+k24·Err_GES4;根据线性方程,通过多元线性回归参数计算方法,确定译句的第二类错误选项的权重系数k21~k24,其中,多元线性回归参数计算方法包括最小二乘法或梯度下降法。进一步的,分析方法还包括:统计所有评价用户的译句错误总评分,确定所述译句的译句总评分ScoreST;译句总评分ScoreST的计算方式为:其中,n为对翻译质量评价任务进行反馈的评价用户的人数,F为评价满分分值,Erri为第i个评价用户的译句错误总评分,Ci为第i个评价用户的能力系数C。进一步的,分析方法还包括:在确定译句的译句总评分之前,确定每一评价用户的能力系数C;确定能力系数C包括:其中,T为每一评价用户的自身评价等级,t为译句的译文要求等级,α和β为调节系数,α取值为1.8,β取值为1/3。根据本专利技术的第二个方面,提供了一种译句的数据分析系统,包括:提取单元,用于从译文文档中提取译句;以及从译文文档对应的原文文档中,提取与译句对应的原句;推送单元,用于将译句和原句推送给至少一个评价用户;获取单元,用于获取至少一个评价用户对译句的译句错误标记;确定单元,用于统计译句错误标记,并根据译句错误标记确定译句的翻译质量。进一步的,确定单元用于:统计至少一个评价用户对译句的第一类错误评分和第二类错误评分,确定每一评价用户对译句的译句错误总评分;译句错误总评分按照如下方式计算:Err=k1·Err_LC+k2·Err_GE,其中,Err为译句错误总评分,Err_LC为第一类错误评分,k1为第一类错误评分的权重系数,Err_GE为第二类错误评分,k2为与第二类错误评分的权重系数。进一步的,确定单元还用于在确定译句错误总评分Err之前,确定第一类错误评分的权重系数k1和第二类错误评分的权重系数k2,包括:提取语料库中已确定翻译质量的多个译句样本的评价数据,评价数据包括译句样本的译句错误总评分ErrS、第一类错误评分Err_LCS和第二类错误评分Err_GES;构建线性方程,线性方程为:ErrS=k1·Err_LCS+k2·Err_GES;根据线性方程,通过多元线性回归参数计算方法,确定译句的第一类错误评分对应的权重系数k1和第二类错误评分对应的权重系数k2,其中,多元线性回归参数计算方法包括最小二乘法或梯度下降法。进一步的,译句错误标记包括每一评价用户对译句所选定的第一类错误选项,第一类错误选项包括:整句错本文档来自技高网...

【技术保护点】
一种译句的数据分析方法,其特征在于,包括:从译文文档中提取译句;从所述译文文档对应的原文文档中,提取与所述译句对应的原句;将所述译句和所述原句推送给至少一个评价用户;获取所述至少一个评价用户对所述译句的译句错误标记;统计所述译句错误标记,并根据所述译句错误标记确定所述译句的翻译质量。

【技术特征摘要】
1.一种译句的数据分析方法,其特征在于,包括:从译文文档中提取译句;从所述译文文档对应的原文文档中,提取与所述译句对应的原句;将所述译句和所述原句推送给至少一个评价用户;获取所述至少一个评价用户对所述译句的译句错误标记;统计所述译句错误标记,并根据所述译句错误标记确定所述译句的翻译质量。2.根据权利要求1所述的分析方法,其特征在于,根据所述译句错误标记,确定所述译句的翻译质量,包括:统计至少一个所述评价用户对所述译句的第一类错误评分和第二类错误评分,确定每一所述评价用户对所述译句的译句错误总评分;所述译句错误总评分按照如下方式计算:Err=k1·Err_LC+k2·Err_GE,其中,所述Err为所述译句错误总评分,Err_LC为所述第一类错误评分,k1为所述第一类错误评分的权重系数,Err_GE为所述第二类错误评分,k2为与所述第二类错误评分的权重系数。3.根据权利要求2所述的分析方法,其特征在于,在确定所述译句错误总评分Err之前,所述分析方法还包括确定所述第一类错误评分的所述权重系数k1和第二类错误评分的所述权重系数k2,包括:提取语料库中已确定翻译质量的多个译句样本的评价数据,所述评价数据包括所述译句样本的译句错误总评分ErrS、第一类错误评分Err_LCS和第二类错误评分Err_GES;构建线性方程,所述线性方程为:ErrS=k1·Err_LCS+k2·Err_GES;根据所述线性方程,通过多元线性回归参数计算方法,确定所述译句的所述第一类错误评分对应的所述权重系数k1和第二类错误评分对应的所述权重系数k2,其中,所述多元线性回归参数计算方法包括最小二乘法或梯度下降法。4.根据权利要求2所述的分析方法,其特征在于,所述译句错误标记包括每一所述评价用户对所述译句所选定的第一类错误选项,所述第一类错误选项包括:整句错译、阅读不畅、语法错误、专有名词错误、固定搭配错误、用词错误和表达不符目标语言习惯;所述分析方法还包括:根据所述译句错误标记,确定所述第一类错误评分Err_LC,所述第一类错误评分Err_LC按照如下方式计算:Err_LC=k11·Err_LC1+k12·Err_LC2+k13·Err_LC3+k14·Err_LC4+k15·Err_LC5+k16·Err_LC6+k17·Err_LC7,其中,所述Err_LC1~Err_LC7为所述第一类错误选项一一对应的选项评分,所述k11~k17为所述第一类错误选项一一对应的权重系数。5.根据权利要求4所述的分析方法,其特征在于,在确定所述第一类错误评分Err_LC之前,所述分析方法还包括确定所述第一类错误选项的所述权重系数k11~k17,包括:提取语料库中已确定翻译质量的多个译句样本的评价数据,所述评价数据包括所述译句样本的第一类错误评分Err_LCS和所述第一类错误选项一一对应的选项评分Err_LCS1~Err_LCS7;构建线性方程,所述线性方程为:Err_LCS=k11·Err_LCS1+k12·Err_LCS2+k13·Err_LCS3+k14·Err_LCS4+k15·Err_LCS5+k16·Err_LCS6+k17·Err_LCS7;]]>根据所述线性方程,通过多元线性回归参数计算方法,确定所述译句的所述第一类错误选项的所述权重系数k11~k17,其中,所述多元线性回归参数计算方法包括最小二乘法或梯度下降法。6.根据权利要求2所述的分析方法,其特征在于,所述译句错误标记包括每一所述评价用户对所述译句所选定的第二类错误选项,所述第二类错误选项包括:词汇漏译、拼写错误、数字错误和标点错误;所述分析方法还包括:根据所述译句错误标记,确定所述第二类错误评分Err_GE,所述第二类错误评分Err_GE按照如下方式计算:Err_GE=k21·Err_GE1+k22·Err_GE2+k23·Err_GE3+k24·Err_GE4,其中,所述Err_GE1~Err_GE4为所述第二类错误选项一一对应的选项评分,所述k21~k24为所述第二类错误选项一一对应的权重系数。7.根据权利要求6所述的分析方法,其特征在于,在确定所述第二类错误评分Err_GE之前,所述分析方法还包括确定所述第二类错误选项的所述权重系数k21~k24,包括:提取语料库中已确定翻译质量的多个译句样本的评价数据,所述评价数据包括所述译句样本的第二类错误评分Err_GES和所述第二类错误选项一一对应的选项评分Err_GES1~Err_GES4;构建线性方程,所述线性方程为:Err_GES=k21·Err_GES1+k22·Err_GES2+k23·Err_GES3+k24·Err_GES4;根据所述线性方程,通过多元线性回归参数计算方法,确定所述译句的所述第二类错误选项的所述权重系数k21~k24,其中,所述多元线性回归参数计算方法包括最小二乘法或梯度下降法。8.根据权利要求2所述的分析方法,其特征在于,所述分析方法还包括:统计所有所述评价用户的所述译句错误总评分确定所述译句的译句总评分ScoreST;所述译句总评分ScoreST的计算方式为:ScoreST=Σi=1n(F-Erri)·CiΣi=1nCi,]]>其中,n为对所述翻译质量评价任务进行反馈的所述评价用户的人数,F为评价满分分值,Erri为第i个评价用户的译句错误总评分,Ci为第i个评价用户的能力系数C。9.根据权利要求8所述的分析方法,其特征在于,还包括:在确定所述译句总评分之前,确定每一所述评价用户的所述能力系数C;确定所述能力系数C包括:C=α1+e-β(T-t),]]>其中,T为每一所述评价用户的自身评价等级,t为所述译句的译文要求等级,α和β为调节系数,所述α取值为1.8,β取值为1/3。10.一种译句的数据分析系统,其特征...

【专利技术属性】
技术研发人员:张芃蔺伟郭凤梅周露义刘丽颖
申请(专利权)人:语联网武汉信息技术有限公司
类型:发明
国别省市:湖北;42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1