一种实现领域自适应的统计机器翻译方法技术

技术编号：15690855 阅读：98 留言：0更新日期：2017-06-24 03:35

本发明专利技术公开了一种实现领域自适应的统计机器翻译方法，本翻译方法将所有的中英对照的名词及名词短语依照现有的知识体系，建立电脑可识别的知识体系树状结构图，通过得到所有的中英对照的名词及名词短语具有它对应的知识树层级；计算每个领域位置点的领域影响权重之和；比较后得出最高领域影响权重之和的领域位置点，在该知识领域内，根据名词词典，确定对应的翻译词汇。本统计机器翻译方法通过模拟人脑知识架构体系，让计算机可以学习人类阅读文字分析相关领域的方法，从而实现计算机对文字知识进行领域识别，从而实现机器翻译的领域自适应功能，从而提高翻译准确性。

A statistical Machine Translation method for domain adaptation

The invention discloses a method for realizing domain adaptive statistical Machine Translation method, this translation method in English noun and noun phrase all in accordance with the existing knowledge system, knowledge system tree structure diagram to establish computer identification, obtained by English noun and noun phrase all has its corresponding knowledge hierarchy tree; calculating points of each field and field effect weight; compared the highest point of the field of field effect and weight, in the field of knowledge, according to the dictionary, to determine the corresponding vocabulary translation. The statistical method of Machine Translation is to simulate the human brain architecture knowledge, let the computer can learn human reading text analysis methods in the related fields, so as to realize the recognition of the text field of computer knowledge, so as to realize the adaptive function of Machine Translation field, so as to improve the accuracy of translation.

全部详细技术资料下载

【技术实现步骤摘要】
一种实现领域自适应的统计机器翻译方法
本专利技术属于的统计机器翻译
，具体地说，涉及一种实现领域自适应的统计机器翻译方法。
技术介绍
统计机器翻译是当今使用的最流行的机器翻译。它的工作方式是使用非常庞大的平行文本以及单语语料库训练翻译引擎。系统会寻找源文本和译文之间的统计相关性。然后对源语言句子，去查找概率最大的译文。翻译引擎本身没有规则或语法概念。统计机器翻译的主要缺点是，如果在翻译训练语料库中没有相似的资料的文本时，得出的译文不行。例如，一个使用技术文本训练的翻译引擎，在翻译口语化的文本时效果会很差。因此，需要持续使用与待翻译材料相似的文本来训练引擎。但即使有庞大合适的训练语料，统计机器翻译通常也不能生成出版质量的文本。统计机器翻译经常是在不管上下文的情况下翻译原文，缺乏对上下文语境及专业领域的相关性。统计机器翻译的难点在于领域迁移和自适应。训练机器翻译系统的原始数据可能来自宽泛的各个领域，遇见某个具体领域生僻的词语、句型时，如何快速迁移，以得到高水平的翻译颇为不易，因为这些领域的语料库掌握得少，迁移时知识不足。目前几家著名的在线翻译系统，新闻翻译尚可胜...

【技术保护点】
一种实现领域自适应的统计机器翻译方法，其特征是：包括以下步骤，a、将所有的中英对照的名词及名词短语依照现有的知识体系，建立电脑可识别的知识体系树状结构图，所述的知识体系树状结构图包括若干依次排列且逐层细分的层级，层级的标号从1开始直至n；所述的中英对照的名词及名词短语分为通用名词和行业名词，通用名词属于第1层，行业名词从第2层开始按领域逐层细分；所述的知识体系树状结构图包括所有的由大及小的领域名称以及该领域内的名词及名词短语，该领域内的名词及名词短语设置在该领域名称的下属层级内，领域名称形成领域位置点；由此得到所有的中英对照的名词及名词短语具有它对应的知识树层级；b、建立电脑可识别的中英对照的...

【技术特征摘要】
1.一种实现领域自适应的统计机器翻译方法，其特征是：包括以下步骤，a、将所有的中英对照的名词及名词短语依照现有的知识体系，建立电脑可识别的知识体系树状结构图，所述的知识体系树状结构图包括若干依次排列且逐层细分的层级，层级的标号从1开始直至n；所述的中英对照的名词及名词短语分为通用名词和行业名词，通用名词属于第1层，行业名词从第2层开始按领域逐层细分；所述的知识体系树状结构图包括所有的由大及小的领域名称以及该领域内的名词及名词短语，该领域内的名词及名词短语设置在该领域名称的下属层级内，领域名称形成领域位置点；由此得到所有的中英对照的名词及名词短语具有它对应的知识树层级；b、建立电脑可识别的中英对照的名词及名词短语数据库，数据库如下：中文英文...

【专利技术属性】
技术研发人员：梁如昕，
申请(专利权)人：成都佳音多语信息技术有限公司，
类型：发明
国别省市：四川,51

全部详细技术资料下载我是这个专利的主人