当前位置: 首页 > 专利查询>李玉鉴鑑专利>正文

一种英汉翻译机器的实现方法技术

技术编号:2886022 阅读:277 留言:0更新日期:2012-04-11 18:40
一种基于模板匹配替换通用算法的英汉翻译机器。其特征是采用任意常项和任意变项的模板匹配替换通用算法,在对源语言的句子进行翻译时,只需利用该算法将句子与模板翻译规则库的规则按顺序进行,匹配成功一部分,则翻译一部分,如果整个句子完全匹配成功,就可以获得高质量的翻译结果。本发明专利技术除了能够高质量地翻译符合文法结构的句子外,同时还能够较好地翻译不太符合文法结构的句子。(*该技术在2020年保护过期,可自由使用*)

【技术实现步骤摘要】
【国外来华专利技术】一种基于模板匹配替换通用算法的英汉翻译机器,属于G06F15/38类计算机科学
实现机器翻译的现有技术方案主要是先对源语言的句子进行文法分析,然后构造该句子在源语言中的句法树,再将源语言句法树转换为目标语言中的句法树,最后利用目标语言句法树构造目标语言中的翻译结果。专利技术专利95119554.9提出了一种比较有效的算法对该方案进行技术实现。现在市场上已经能够买到多种机器翻译产品,比较著名的有东方快车和金山快译等,但它们对不太符合文法结构的句子,例如“It never gets as cold there as it doeshere”,翻译质量较差,东方快车2000将它翻译为“当它这里做,它从来不作为寒冷得到在那里”,金山快义2000将它翻译为“不决变和它在这里做同样在那里冷”。本专利技术的目的是提供一种英汉翻译机器,该翻译机器除了能够翻译符合文法结构的句子外,同时还能够较好地翻译不太符合文法结构的句子。本专利技术的目的是通过以下方法实现的英汉翻译机器的硬件含有逻辑运算部件、存储部件、视频显示部件和输入部件,其特征在于本翻译机内采用具有任意常项和任意变项的模板匹配替换通用算法,这个通用算法的执行流程是(1)从输入部件输入或者从存储部件读取要翻译的源语言中的句子,并将它显示在视频显示部件上;(2)启动执行算法的功能选项,将句子分解并表示为以源语言中的词汇、标点等为基本单元的信息属性结构,记录“句子长度变量”=基本单元的数目;(3)对句子中的每个基本单元进行形态分析,并记录它的所有词类代码和每个词类在目标语言中的所有可能含义,并令“规则计数变量”=1;(4)如果规则计数变量大于模板翻译规则库的规则总数,则进入(8);否则从模板翻译规则库中取出规则计数变量所指向的模板翻译规则作为当前规则,然后取出该规则的源语言模板作为当前源语言模板,记录“源语言模板长度变量”=它所包含的常项和变项的总数,如果源语言模板长度变量大于句子长度变量,令规则计数变量=规则计数变量+1,返回(4);否则,令句子“匹配起始位置变量”=1,“匹配终止位置变量”=匹配起始位置变量+源语言模板长度变量-1,然后进入(5);(5)令“当前匹配位置变量”=匹配起始位置变量,进入(6);(6)将当前匹配位置变量在句子所指的项记为“句子匹配项”,将“当前匹配位置变量-匹配起始位置变量+1”的值在源语言模板中所指的项记为“模板匹配项”,判定句子匹配项是否与模板匹配项匹配,判定标准是a.如果这两项都是常项,那么只需通过形态分析看它们在源语言中是否为同一个词汇的不同形态,是则匹配成功,否则匹配失败;b.如果句子匹配项为常项,而模板匹配项为变项,则看句子匹配项具有的所有可能类型代码中是否存在被模板匹配项所包含的代码,存在则匹配成功,不存在则匹配失败;c.如果句子匹配项为变项,模板匹配项也为变项,则当句子匹配项被模板匹配项所包含时,匹配成功,否则匹配失败;d.如果句子匹配项为变项,而模板匹配项为常项,则匹配失败;如果根据该标准判定结果为匹配成功,那么当当前匹配位置变量=匹配终止位置变量时,进入(7),当当前匹配位置变量<匹配终止位置变量时,令当前匹配位置变量=当前匹配位置变量+1,返回(6);否则令匹配起始位置变量=匹配起始位置变量+1,匹配终止位置变量=匹配终止位置变量+1,如果匹配终止位置变量≤句子长度变量,则返回(5),否则令规则计数变量=规则计数变量+1,返回(4);(7)此时句子中对应于从匹配起始位置变量到匹配终止位置变量的项与当前源语言模板完全匹配,记录“当前源语言模板的类型代码”,以及句子中对应于从匹配起始位置变量到匹配终止位置变量的项与当前源语言模板中变项相对应的所有项,将这些项在目标语言中的意义对应代入当前源语言模板的所有目标语言模板,并把得到的结果作为当前源语言模板的类型代码在目标语言中的翻译结果集;然后将句子中对应于从匹配起始位置变量到匹配终止位置的所有项用当前源语言模板的类型代码替换,并记录得到的结果为新的句子状态,令句子长度变量=句子长度变量-源语言模板长度变量+1,显然代码替换后句子对应于匹配起始位置变量的项变为当前源语言模板的类型代码;如果句子长度变量=1,则进入(8);如果句子长度变量>1,当匹配终止位置变量不超过句子长度变量时,返回(5),当匹配终止位置变量超过句子长度变量时,令规则计数变量=规则计数变量+1,返回(4);(8)将句子的各项在目标语言中的翻译结果集取出,此时翻译结果集的个数恰好与句子长度变量相等,而且如果匹配完全成功,则翻译结果集只有一个,句子长度变量等于1;将这些翻译结果集中的字符串按顺序连接起来,得到最终翻译结果集,进入(9);(9)直接将最终翻译结果集中的第一个翻译结果显示在视频显示部件上作为在(1)中输入的句子最终翻译结果,或者将最终翻译结果集中的字符串优化排序后,将最可能的字符串作为在(1)中输入的句子最终翻译结果;也可将最终翻译结果集中的部分或所有字符串列举在某个选择框中,由用户去选择在(1)中输入的句子的最终翻译结果。关于本专利技术的概念说明(1)常项是指任何一种自然语言的基本符号、标点符号和基本词汇,比如英语中的26个字母,标点和所有单词都是常项。变项是指任何一种自然语言的词类代码和结构代码,比如英语中的动词代码可记为“VERB”,名词代码可记为“NOUN”,代词代码可记为“PRON”,句子代码可记为“S”。模板是指任何一种自然语言中由常项和变项构成的具有一定认知结构并符合语言习惯的一个符号串,比如英语中的词组“give R toR”(中文解释为“把R给R”,其中R指名词NOUN或代词PRON)。(2)模板翻译规则都用下列形式来描述(一般情况下n=1)源语言模板→源语言模板类型代码(集)目标语言模板1;目标语言模板2;…目标语言模板n;例如give R to R→VI把R给R;(其中VI是不及物动词代码,R指名词或代词)(3)句子状态由带有信息属性结构常项和变项构成的序列来刻画。常项可以是单词、标点或其它特殊符号,变项可以是常项或模板的类型代码(常项和模板都可以具有多个类型代码)。信息属性结构主要包括形态特征,类型代码,以及每个类型代码在目标语言中的意义集合。例如单词study和hard的结构如下study{VERB学习,研究;NOUN学习,书房;}hard{ADJ坚硬的,困难的;ADV努力地,猛烈地;}在进行模板匹配时,通用算法将根据模板中的变量类型的要求自动确定study为VERB类型还是NOUN类型;在进行模板替换时,通用算法根据已经确定的study的类型代码选择其中文意义进行替换,从而实现多类型代码的自动消岐。例如“study hard”与模板翻译规则“VIADV→VIADV VI;”进行匹配时,“study”将被确定为VERB类型,“hard”将被确定为ADV类型(ADV是副词类型代码),所以模板替换后的结果将是VI{VI努力地学习,努力地研究,猛烈地学习,猛烈地研究;}本专利技术的优点是它不仅对翻译不符合文法结构的句子具有很大优势,而且它几乎使机器翻译系统的实现转换成为一件在文本文件中输入和组织模板翻译规则的简单工作,从而能够极大地提高机器翻译系统的开发效率和翻译质量。下面结本文档来自技高网...

【技术保护点】
一种英汉翻译机器,它的硬件含有逻辑运算部件、存储部件、视频显示部件和输入部件,其特征在于本翻译机内采用具有任意常项和任意变项的模板匹配替换通用算法。

【技术特征摘要】
【国外来华专利技术】

【专利技术属性】
技术研发人员:李玉鉴鑑
申请(专利权)人:李玉鉴鑑
类型:发明
国别省市:11[中国|北京]

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1