一种实现领域自适应的统计机器翻译方法技术

技术编号:15690855 阅读:65 留言:0更新日期:2017-06-24 03:35
本发明专利技术公开了一种实现领域自适应的统计机器翻译方法,本翻译方法将所有的中英对照的名词及名词短语依照现有的知识体系,建立电脑可识别的知识体系树状结构图,通过得到所有的中英对照的名词及名词短语具有它对应的知识树层级;计算每个领域位置点的领域影响权重之和;比较后得出最高领域影响权重之和的领域位置点,在该知识领域内,根据名词词典,确定对应的翻译词汇。本统计机器翻译方法通过模拟人脑知识架构体系,让计算机可以学习人类阅读文字分析相关领域的方法,从而实现计算机对文字知识进行领域识别,从而实现机器翻译的领域自适应功能,从而提高翻译准确性。

A statistical Machine Translation method for domain adaptation

The invention discloses a method for realizing domain adaptive statistical Machine Translation method, this translation method in English noun and noun phrase all in accordance with the existing knowledge system, knowledge system tree structure diagram to establish computer identification, obtained by English noun and noun phrase all has its corresponding knowledge hierarchy tree; calculating points of each field and field effect weight; compared the highest point of the field of field effect and weight, in the field of knowledge, according to the dictionary, to determine the corresponding vocabulary translation. The statistical method of Machine Translation is to simulate the human brain architecture knowledge, let the computer can learn human reading text analysis methods in the related fields, so as to realize the recognition of the text field of computer knowledge, so as to realize the adaptive function of Machine Translation field, so as to improve the accuracy of translation.

【技术实现步骤摘要】
一种实现领域自适应的统计机器翻译方法
本专利技术属于的统计机器翻译
,具体地说,涉及一种实现领域自适应的统计机器翻译方法。
技术介绍
统计机器翻译是当今使用的最流行的机器翻译。它的工作方式是使用非常庞大的平行文本以及单语语料库训练翻译引擎。系统会寻找源文本和译文之间的统计相关性。然后对源语言句子,去查找概率最大的译文。翻译引擎本身没有规则或语法概念。统计机器翻译的主要缺点是,如果在翻译训练语料库中没有相似的资料的文本时,得出的译文不行。例如,一个使用技术文本训练的翻译引擎,在翻译口语化的文本时效果会很差。因此,需要持续使用与待翻译材料相似的文本来训练引擎。但即使有庞大合适的训练语料,统计机器翻译通常也不能生成出版质量的文本。统计机器翻译经常是在不管上下文的情况下翻译原文,缺乏对上下文语境及专业领域的相关性。统计机器翻译的难点在于领域迁移和自适应。训练机器翻译系统的原始数据可能来自宽泛的各个领域,遇见某个具体领域生僻的词语、句型时,如何快速迁移,以得到高水平的翻译颇为不易,因为这些领域的语料库掌握得少,迁移时知识不足。目前几家著名的在线翻译系统,新闻翻译尚可胜任(因为新闻语料最多),但对银行、法律这些语料稀缺的领域,自适应能力则薄弱许多。
技术实现思路
针对现有技术中上述的不足,本专利技术提供一种实现领域自适应的统计机器翻译方法,本翻译方法通过上下文知识树计算出相关的领域,从而为每个名词选择相应领域的对应译法,增强翻译方法的自适应能力,提高翻译准确性。为了达到上述目的,本专利技术采用的解决方案是:一种实现领域自适应的统计机器翻译方法,包括以下步骤,a、将所有的中英对照的名词及名词短语依照现有的知识体系,建立电脑可识别的知识体系树状结构图,所述的知识体系树状结构图包括若干依次排列且逐层细分的层级,层级的标号从1开始直至n;所述的中英对照的名词及名词短语分为通用名词和行业名词,通用名词属于第1层,行业名词从第2层开始按领域逐层细分;所述的知识体系树状结构图包括所有的由大及小的领域名称以及该领域内的名词及名词短语,该领域内的名词及名词短语设置在该领域名称的下属层级内,领域名称形成领域位置点;由此得到所有的中英对照的名词及名词短语具有它对应的知识树层级;b、建立电脑可识别的中英对照的名词及名词短语数据库,数据库如下:中文英文知识树层级(level)领域影响权重(weight):nn+k由此得到所有的中英对照的名词及名词短语具有它对应的领域影响权重;c、计算每个领域位置点的领域影响权重之和;d、比较各个领域位置点的领域影响权重之和,得出最高领域影响权重之和的领域位置点,即该段文字所相关的知识领域;e、在该知识领域内,根据名词词典,确定对应的翻译词汇。优选地,在步骤b中,针对一词多义的名词,则将该名词分布在不同意义所针对的领域位置点上,且该名词在每个领域位置点的领域影响权重为(n+k)/x,x为该名词涉及的领域数量。优选地,k=-0.5。本专利技术的有益效果是,本统计机器翻译方法通过模拟人脑知识架构体系,让计算机可以学习人类阅读文字分析相关领域的方法,从而实现计算机对文字知识进行领域识别,从而实现机器翻译的领域自适应功能,从而提高翻译准确性。具体实施方式以下对本专利技术作进一步描述:本专利技术提供一种实现领域自适应的统计机器翻译方法,包括以下步骤,a、将所有的中英对照的名词及名词短语依照现有的知识体系,建立电脑可识别的知识体系树状结构图,所述的知识体系树状结构图包括若干依次排列且逐层细分的层级,层级的标号从1开始直至n;所述的中英对照的名词及名词短语分为通用名词和行业名词,通用名词属于第1层,行业名词从第2层开始按领域逐层细分;通用性名词通常不影响上下文领域,而细分的行业名词对领域有较高影响,更加细分的行业领域的词汇,对上下文领域有更高的影响度;所述的知识体系树状结构图包括所有的由大及小的领域名称以及该领域内的名词及名词短语,该领域内的名词及名词短语设置在该领域名称的下属层级内,领域名称形成领域位置点;由此得到所有的中英对照的名词及名词短语具有它对应的知识树层级;b、建立电脑可识别的中英对照的名词及名词短语数据库,数据库如下:中文英文知识树层级(level)领域影响权重(weight):nn+k由此得到所有的中英对照的名词及名词短语具有它对应的领域影响权重;针对一词多义的名词,则将该名词分布在不同意义所针对的领域位置点上,且该名词在每个领域位置点的领域影响权重为(n+k)/x,x为该名词涉及的领域数量,k=-0.5;c、计算每个领域位置点的领域影响权重之和;d、比较各个领域位置点的领域影响权重之和,得出最高领域影响权重之和的领域位置点,即该段文字所相关的知识领域;e、在该知识领域内,根据名词词典,确定对应的翻译词汇。本统计机器翻译方法通过模拟人脑知识架构体系,让计算机可以学习人类阅读文字分析相关领域的方法,从而实现计算机对文字知识进行领域识别,从而实现机器翻译的领域自适应功能,从而提高翻译准确性。本文档来自技高网...

【技术保护点】
一种实现领域自适应的统计机器翻译方法,其特征是:包括以下步骤,a、将所有的中英对照的名词及名词短语依照现有的知识体系,建立电脑可识别的知识体系树状结构图,所述的知识体系树状结构图包括若干依次排列且逐层细分的层级,层级的标号从1开始直至n;所述的中英对照的名词及名词短语分为通用名词和行业名词,通用名词属于第1层,行业名词从第2层开始按领域逐层细分;所述的知识体系树状结构图包括所有的由大及小的领域名称以及该领域内的名词及名词短语,该领域内的名词及名词短语设置在该领域名称的下属层级内,领域名称形成领域位置点;由此得到所有的中英对照的名词及名词短语具有它对应的知识树层级;b、建立电脑可识别的中英对照的名词及名词短语数据库,数据库如下:

【技术特征摘要】
1.一种实现领域自适应的统计机器翻译方法,其特征是:包括以下步骤,a、将所有的中英对照的名词及名词短语依照现有的知识体系,建立电脑可识别的知识体系树状结构图,所述的知识体系树状结构图包括若干依次排列且逐层细分的层级,层级的标号从1开始直至n;所述的中英对照的名词及名词短语分为通用名词和行业名词,通用名词属于第1层,行业名词从第2层开始按领域逐层细分;所述的知识体系树状结构图包括所有的由大及小的领域名称以及该领域内的名词及名词短语,该领域内的名词及名词短语设置在该领域名称的下属层级内,领域名称形成领域位置点;由此得到所有的中英对照的名词及名词短语具有它对应的知识树层级;b、建立电脑可识别的中英对照的名词及名词短语数据库,数据库如下:中文英文...

【专利技术属性】
技术研发人员:梁如昕
申请(专利权)人:成都佳音多语信息技术有限公司
类型:发明
国别省市:四川,51

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1