一种语句翻译复杂度的分析方法技术

技术编号:9935423 阅读:100 留言:0更新日期:2014-04-18 07:16
一种语句翻译复杂度的分析方法,其特征在于,包括:扫描待译语句,对所述待译语句进行分词处理,得到所述待译语句中的所有词汇,并统计出词汇总数;根据得到的所述待译语句中的所有词汇,并统计出词汇总数,确定所述待译语句中的的句长、所述待译语句中的子句的数量、子句的平均长度、所述待译语句中的词汇等级、所述待译语句中的实义词密度和所述待译语句中的习语数;根据所述待译语句的句长、子句的平均长度、词汇等级、实义词密度和习语数建立计算翻译复杂度的多元线性回归模型,通过样本数据得到回归系数,从而得到所述语句的翻译复杂度。

【技术实现步骤摘要】
【专利摘要】本专利技术公开了,包括:扫描待译语句,对待译语句进行分词处理,得到待译语句中的所有词汇,并统计出词汇总数;根据得到的待译语句中的所有词汇,并统计出词汇总数,确定待译语句中的句长、待译语句中的子句的数量、子句的平均长度、待译语句中的词汇等级、待译语句中的实义词密度和待译语句中的习语数;根据待译语句的句长、子句的平均长度、词汇等级、实义词密度和习语数建立计算翻译复杂度的多元线性回归模型,通过样本数据得到回归系数,从而得到所述语句的翻译复杂度。本专利技术通过对影响语句翻译复杂度的因素进行分析,得到语句翻译复杂度的多元线性回归模型,提高了所得到的语句翻译复杂度的准确性。【专利说明】
本专利技术涉及翻译
,具体而言,涉及。
技术介绍
译前处理是翻译过程中非常重要的一个环节,对于一个翻译任务,如何为其确定翻译资源,如何为其安排翻译生产是译前处理的主要工作,这些工作的一个基础就是确定翻译量。翻译任务的翻译量由翻译文档的大小和难度所决定,翻译文档的大小可以通过字数统计得到,相对简单准确,而翻译文档的难度的判定则复杂得多,其中判断文档翻译难度最重要的一个因素是判断文档中语句的翻译难度。对于语句翻译难度的判别可以分为人工判别和机器判别。人工判别是通过语言专家或翻译专家对待语句进行标注和判别,由于人的阅读和理解限制,这种方法速度较慢同时要耗费非常大的的人力成本,并且由于判别人能力的参差以及每人对语句语义难度的理解不同而产生很大的判别差别,判别结果无法做到统一标准,客观性很差。机器判别是通过计算机结合一定的方法对语句进行翻译难度判断,目前最常用的方法是通过对语句中生僻字词的统计来进行难度判断,这种单一维度的判断方法其用来作为判别因素的可靠性比较单薄,有较大的片面性,得到的判别结果往往与实际情况差别很大,无法保证判别结果的准确性。目前对语句翻译难度的判别,还缺乏一个既高效又相对准确的判别方法。
技术实现思路
本专利技术旨在提供,解决了如何对语句的翻译复杂度进行既高效又相对准确的判别的问题。本专利技术公开了,包括:扫描待译语句,对所述待译语句进行分词处理,得到所述待译语句中的所有词汇,并统计出词汇总数;根据得到的所述待译语句中的所有词汇,并统计出词汇总数,确定所述待译语句中的的句长、所述待译语句中的子句的数量、子句的平均长度、所述待译语句中的词汇等级、所述待译语句中的实义词密度和所述待译语句中的习语数;根据所述待译语句的句长、子句的平均长度、词汇等级、实义词密度和习语数建立计算翻译复杂度的多元线性回归模型,通过样本数据得到回归系数,从而得到所述语句的翻译复杂度。优选地,所述待译语句中的句长为所述待译语句所述词汇总数。优选地,确定所述待译语句中的子句的平均长度的过程包括:将所述待译语句中的所述词汇总数除以所述子句数量,结果作为所述子句的平均长度。优选地,确定所述待译语句的词汇等级的过程包括:将得到的每个所述词汇在词汇分级表中进行匹配,得到每个所述词汇的词汇级别;所述词汇级别为一级、二级、三级或四级;分别统计所述词汇级别为二级或二级以上的级别的所述词汇的数量;按照词汇等级计算公式计算出所述语句的词汇等级,所述词汇等级计算公式如下:【权利要求】1.,其特征在于,包括: 扫描待译语句,对所述待译语句进行分词处理,得到所述待译语句中的所有词汇,并统计出词汇总数; 根据得到的所述待译语句中的所有词汇,并统计出词汇总数,确定所述待译语句中的的句长、所述待译语句中的子句的数量、子句的平均长度、所述待译语句中的词汇等级、所述待译语句中的实义词密度和所述待译语句中的习语数; 根据所述待译语句的句长、子句的平均长度、词汇等级、实义词密度和习语数建立计算翻译复杂度的多元线性回归模型,通过样本数据得到回归系数,从而得到所述语句的翻译复杂度。2.根据权利要求1所述的方法,其特征在于,所述待译语句中的句长为所述待译语句所述词汇总数。3.根据权利要求2所述的方法,其特征在于,确定所述待译语句中的子句的平均长度的过程包括: 将所述待译语句中的所述词汇总数除以所述子句数量,结果作为所述子句的平均长度。4.根据权利要求1所述的方法,其特征在于,确定所述待译语句的词汇等级的过程包括: 将得到的每个所述词汇在词汇分级表中进行匹配,得到每个所述词汇的词汇级别;所述词汇级别为一级、二级、三`级或四级; 分别统计所述词汇级别为二级或二级以上的级别的所述词汇的数量; 按照词汇等级计算公式计算出所述语句的词汇等级,所述词汇等级计算公式如下: 5.根据权利要求4所述的方法,其特征在于,所述词汇等级调节系数为所述多元线性回归模型的回归系数,采用最小二乘法对样本数据进行计算得到。6.根据权利要求1所述的方法,其特征在于,确定所述待译语句的实义词密度的过程包括: 将得到的所有所述实义词按照一定顺序进行排列; 根据同义词本体工具得到每个所述实义词的义项数Hieaningsi,其中i为所述实义词的序号;并统计所述实义词的义项总数; 按照实义词词义密度计算公式计算,得到所述语句的实义词词义密度;所述实义词词义密度计算公式如下: 7.根据权利要求1所述的方法,其特征在于,确定所述待译语句的习语数的过程包括: 通过习语本体工具统计所述待译语句中的习语数。8.根据权利要求1所述的方法,其特征在于,计算所述待译语句的语句复杂度的过程包括: 按照语句复杂度计算公式计算得到所述待译语句的语句复杂度,所述语句复杂度计算公式如下:diff_setence = K1.WorddK2.grade_worddK3.density_notiOnallK4.count_clause+K5.MLC+K6.count—idiom ; 其中,diff_setence为所述待译语句的语句复杂度,word为所述待译语句的句长,grade_word为所述待译语句的词汇等级,density_notional为所述待译语句的实义词密度,count_clause为所述待译语句的子句数,MLC为待译语句中的子句的平均长度,count_idiom为所述待译语句的习语数,`K1, K2, K3> K4, K5和K6为语句复杂度调节系数。【文档编号】G06Q10/06GK103729348SQ201310712248【公开日】2014年4月16日 申请日期:2013年12月23日 优先权日:2013年12月23日 【专利技术者】江潮 申请人:武汉传神信息技术有限公司本文档来自技高网
...

【技术保护点】
一种语句翻译复杂度的分析方法,其特征在于,包括:扫描待译语句,对所述待译语句进行分词处理,得到所述待译语句中的所有词汇,并统计出词汇总数;根据得到的所述待译语句中的所有词汇,并统计出词汇总数,确定所述待译语句中的的句长、所述待译语句中的子句的数量、子句的平均长度、所述待译语句中的词汇等级、所述待译语句中的实义词密度和所述待译语句中的习语数;根据所述待译语句的句长、子句的平均长度、词汇等级、实义词密度和习语数建立计算翻译复杂度的多元线性回归模型,通过样本数据得到回归系数,从而得到所述语句的翻译复杂度。

【技术特征摘要】

【专利技术属性】
技术研发人员:江潮
申请(专利权)人:武汉传神信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1