一种确定具有专名译文的词汇的翻译方向的方法技术

技术编号:11367782 阅读:120 留言:0更新日期:2015-04-29 18:25
一种确定具有专名译文的词汇的翻译方向的方法,包括:当检测出待翻译词汇是否具有专名译文时,获取所述待翻译词汇的关联文本,并从所述关联文本中找出与该待翻译词汇的专名译文相关联的特征词;以找出的所述特征词,在用于判定该待翻译词汇是否按照其专名译文进行翻译的决策树中,依照所述决策树的生成顺序依次判定;根据判定结果,确定所述待翻译词汇当前是否应采用其专名译文进行翻译。本发明专利技术保证了不同语境下专名翻译的准确性,并且无需再通过人工对翻译稿件预处理,降低了劳动成本,并且大大提升了翻译效率,提高了翻译结果的准确性。

【技术实现步骤摘要】
一种确定具有专名译文的词汇的翻译方向的方法
本专利技术属于翻译
,尤其是一种确定具有专名译文的词汇的翻译方向的方法。
技术介绍
专名的翻译是翻译中一个重要的方面,由于其特殊性,虽然许多专名虽然按音译翻译不是完全准确,但长期以来约定俗成是固定翻译的,所以应该以固定的翻译结果出现,否则对于译文的理解就会产生很大的偏差,比如按韦氏拼音拼写的“蒋介石”的英文名“ChiangKai-shek”被误译成“常凯申”就是一种非常严重的误翻译。专名的翻译包括人名、地名、机构名、媒体名、文艺作品名、品牌名等各类专有名词的翻译,在文字系统相同和相似的语言间,由于书同文的便利,源语言名称往往能够以原文的书写形式被目的语直接借用,而在文字系统各不相同的语言间,由于文字兼容性不足,导致在专名翻译中音译、语义翻译、重新命名等多样化转换方式的存在,从而使得专名翻译的规范化存在困难。由于大量的专名与普通名词在形式上是一致的,只是普通名词在特定场合、特定环境下的一种使用,对于这些专名的翻译是采用普通翻译还是专名翻译,需要根据上下文的情况来具体而为。比如:“Holmes”这个词作为一般人名翻译成“赫尔莫斯”或“霍莫斯”都可以,但作为专有名词则只能翻译成“福尔摩斯”,同样“Watson’s”是翻译成“沃森的”还是翻译成“屈臣氏”、“McDonald”是翻译成“麦克唐纳”还是翻译成“麦当劳”等等都需要根据该词所在文档的具体上下文情况而定。目前一个翻译任务往往是多人或多个小组共同完成,对其中专名的翻译进行统一、准确的规范化翻译是提高翻译质量、保持翻译一致性的重要手段。以往对于这种需要进行统一翻译的关键词汇,首先是由翻译助理对文档进行标注或者通过计算机自动标注,然后由翻译专家对这些标注出专名给出标准的翻译结果,这样做虽然可以保证翻译的准确性,但增加了翻译流程中的人工处理环节,延缓了翻译处理流程,同时也增加了成本。
技术实现思路
本专利技术的目的之一是提供一种确定具有专名译文的词汇的翻译方向的方法,以解决现有技术中对于专名词汇的翻译效率低的问题。在一些说明性实施例中,所述确定具有专名译文的词汇的翻译方向的方法,其特征在于,包括:当检测出待翻译词汇是否具有专名译文时,获取所述待翻译词汇的关联文本,并从所述关联文本中找出与该待翻译词汇的专名译文相关联的特征词;以找出的所述特征词,在用于判定该待翻译词汇是否按照其专名译文进行翻译的决策树中,依照所述决策树的生成顺序依次判定;根据判定结果,确定所述待翻译词汇当前是否应采用其专名译文进行翻译。与现有技术相比,本专利技术的说明性实施例包括以下优点:本专利技术保证了不同语境下专名翻译的准确性,并且无需再通过人工对翻译稿件预处理,降低了劳动成本,并且大大提升了翻译效率,翻译结果可靠性强。附图说明此处所说明的附图用来提供对本专利技术的进一步理解,构成本申请的一部分,本专利技术的示意性实施例及其说明用于解释本专利技术,并不构成对本专利技术的不当限定。在附图中:图1是按照本专利技术的说明性实施例的流程图;图2是按照本专利技术的说明性实施例的流程图;图3是按照本专利技术的说明性实施例的决策树示例图。具体实施方式在以下详细描述中,提出大量特定细节,以便于提供对本专利技术的透彻理解。但是,本领域的技术人员会理解,即使没有这些特定细节也可实施本专利技术。在其它情况下,没有详细描述众所周知的方法、过程、组件和电路,以免影响对本专利技术的理解。如图1所示,公开一种确定具有专名译文的词汇的翻译方向的方法,包括:S11、当检测出待翻译词汇是否具有专名译文时,获取所述待翻译词汇的关联文本,并从所述关联文本中找出与该待翻译词汇的专名译文相关联的特征词;其中,对词汇的是否具有专名译文的判定可以通过,与专名进行匹配确定,若匹配到即判定成功,否则判定失败。S12、以找出的所述特征词,在用于判定该待翻译词汇是否按照其专名译文进行翻译的决策树中,依照所述决策树的生成顺序依次判定;S13、根据判定结果,确定所述待翻译词汇当前是否应采用其专名译文进行翻译。本专利技术保证了不同语境下专名翻译的准确性,并且无需再通过人工对翻译稿件预处理,降低了劳动成本,并且大大提升了翻译效率,翻译结果可靠性强。在一些说明性实施例中,在所述以找出的所述特征词,在用于判定该待翻译词汇是否按照其专名译文进行翻译的决策树中,依照所述决策树的生成顺序依次判定之前,还包括:从历史翻译数据库中随机抽取一定数量的包含有所述待翻译词汇的特定段落;对选取的所述特定段落进行至少一次数据筛选,确定出用于判定的所述特征词。其中,所述特定段落为待翻译词汇在语料库中的所在句、所在的自然段或该词汇在语料库中前后一定范围的词汇集合。在一些说明性实施例中,所述对选取的所述特定段落进行至少一次数据筛选,确定出用于判定的所述特征词,具体包括:S21、对选取的每个特定段落进行分词处理,去除其中的停用词,将剩余的词汇作为候选关联词;其中,具体包括:保留为名称、动词、形容词、副词、习语或缩略语的词汇。S22、保留出现概率高于第一阈值的候选关联词作为关联词,并计算出每个所述关联词与所述待翻译词汇在按照专名译文翻译和未按照专名译文翻译两种状态的互信息;S23、得到的所述互信息高于第二阈值的关联词作为该词义的所述特征词。在一些说明性实施例中,所述计算出每个所述关联词与所述待翻译词汇在按照专名译文翻译和未按照专名译文翻译两种状态的互信息,具体包括:将所述特定段落中的所述待翻译词汇按照所述专名译文翻译和未按照所述专名译文翻译划分,分别计算出所述按照所述专名译文翻译和所述未按照所述专名译文翻译两种状态的先验概率;按照如下公式计算第j个所述关联词与所述两种状态的互信息I(Ri,wj):其中,P(Ri)为所述按照所述专名译文翻译状态R1或所述未按照所述专名译文翻译状态R2的先验概率,i=1或2;P(wj)为第j个关联词wj在所述选取的所述特定段落中的出现概率,j为关联词的序号。在一些说明性实施例中,在所述以找出的所述特征词,在用于判定该待翻译词汇是否按照其专名译文进行翻译的决策树中,依照所述决策树的生成顺序依次判定之前,还包括:根据确定的所述特征词,利用ID3算法或C4.5算法构建所述决策树。其中,具体包括:将与所述两种状态具有对应关系的特征词作为所述决策树的判定结点上的特征项;根据所述特征项的信息增益或信息增益比从大到小的顺序生成所述决策树;其中,每个所述特征项对应有判定其取值结果的第三阈值。其中,构建的决策树例如图3所示。以下对上述过程,进行详细描述:首先,对一些术语进行说明:信息熵设X是一个取有限个值的离散随机变量,其概率分布为P(X=xi)=pi,i=1,2,…,n,则随机变量X的信息熵定义为:熵越大表明随机变量不确定性越大,从定义可知0≤H(X)≤logn,且令0log0=0。条件熵设随机变量(X,Y),其联合概率分布为P(X=xi,Y=yi)=pij,i=1,2,…,n;j=1,2,…,m,在随机变量X给定的条件下随机变量Y的条件熵H(Y|X)定义为:其中,pi=P(X=xi),令0log0=0,条件熵表示在已知随机变量X的条件下随机变量Y的不确定性。信息增益特征A对训练数据集D的信息增益g(D,A),定义为集合D的信息熵H(D)和条件熵H(D|A)之差,即g(D,本文档来自技高网
...
一种确定具有专名译文的词汇的翻译方向的方法

【技术保护点】
一种确定具有专名译文的词汇的翻译方向的方法,其特征在于,包括:当检测出待翻译词汇是否具有专名译文时,获取所述待翻译词汇的关联文本,并从所述关联文本中找出与该待翻译词汇的专名译文相关联的特征词;以找出的所述特征词,在用于判定该待翻译词汇是否按照其专名译文进行翻译的决策树中,依照所述决策树的生成顺序依次判定;;根据判定结果,确定所述待翻译词汇当前是否应采用其专名译文进行翻译。

【技术特征摘要】
1.一种确定具有专名译文的词汇的翻译方向的方法,其特征在于,包括:当检测出待翻译词汇是否具有专名译文时,获取所述待翻译词汇的关联文本,并从所述关联文本中找出与该待翻译词汇的专名译文相关联的特征词;从历史翻译数据库中随机抽取一定数量的包含有所述待翻译词汇的特定段落;对选取的每个特定段落进行分词处理,去除其中的停用词,将剩余的词汇作为候选关联词;保留出现概率高于第一阈值的候选关联词作为关联词,并计算出每个所述关联词与所述待翻译词汇在按照专名译文翻译和未按照专名译文翻译两种状态的互信息;得到的所述互信息高于第二阈值的关联词作为按专名和不按专名翻译两种状态下的特征词;以找出的所述特征词,在用于判定该待翻译词汇是否按照其专名译文进行翻译的决策树中,依照所述决策树的生成顺序依次判定;根据判定结果,确定所述待翻译词汇当前是否应采用其专名译文进行翻译。2.根据权利要求1所述的方法,其特征在于,所述计算出每个所述关联词与所述待翻译词汇在按照专名译文翻译和未按照专名译文翻译两种状态的互信息,具体包括:将所述特定段落中的所述待翻译词汇按照所述专名译文翻译和未按照所述专名译文翻译划分,分别计算出所述按照所述专名译文翻译和所述未按照所述专名译文翻译两种状态的先验概率;按照如下公式计算第j个所述关联词与所述两种状态的互信息I(Ri,wj):其中,P(Ri)为所述按照所述专名译文翻译状态R1或所述未按照所述专名译...

【专利技术属性】
技术研发人员:江潮张芃
申请(专利权)人:语联网武汉信息技术有限公司
类型:发明
国别省市:湖北;42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1