当前位置: 首页 > 专利查询>高庆狮专利>正文

句义表达式的生成方法、机器翻译及电子词典技术

技术编号:2863406 阅读:196 留言:0更新日期:2012-04-11 18:40
一种利用语义单元表示库自动为一个句子生成句义表达式的方法,其中该句子为原始语种的句子并且所述语义单元表示库至少包括所述原始语种的语义单元表示,所述方法包括:    根据所述语义单元表示库的原始语种的表示,编制语义单元表示树索引库;    根据所述语义单元表示树索引库,为该句子中的每个字提取以该字为实量开始的语义单元表示树;    逐字地对所述提取出的语义单元表示树进行剪枝;以及    根据所述语义单元表示树中没有被剪掉的语义单元,求出该句子的句义表达式。(*该技术在2023年保护过期,可自由使用*)

【技术实现步骤摘要】

本专利技术涉及数据处理技术,特别涉及计算机自然语言处理技术。
技术介绍
利用计算机技术来实现在不同自然语言之间的自动翻译一直是技术人员的努力方向,但是由于自然语言的复杂多样性以及不同语种之间存在着的大量复杂的对应关系,因此现有的机器翻译系统的准确率和译文的可接受程度都比较低,始终没有达到实用水平。以往机器翻译是基于语法分析和基于统计方法两大类,这两大类方法都难于做到实用。以往的机器翻译三到五步——汉语切分、语法分析、语义分析、转换和形成,其中转换必须在双语中进行。通常通过中间语言的机器翻译方法也需要四到六步——汉语切分、语法分析、语义分析、转换成为中间语言、目标语言的转换和形成,其中两个转换都是在中间语言和相关语言的双语中进行。2001年12月27日提交的专利技术名称为“基于语义语言的机器翻译系统及方法”的中国专利申请No.01131689.6揭示了一种基于语义的机器翻译方法,用于将原始语种的原文自动地翻译成一个或多个目的语种的译文,该方法包括如下步骤提取原文的一句;根据语义单元表示库,对该句进行语义分析,从而得到该句的句义表达式;根据语义单元表示库,将该句义表达式用目的语种的表示展开;将展开后的句子作为译文输出(其全部内容被包含于此,以供参考)。所述方法的翻译只需两步,而且N种自然语言之间互译只需要研制N套翻译系统,不需要一般的N(N-1)/2套,也不需要一般引入中间语言的2N套系统,翻译质量可以有效提高。在进行语义分析得到句义表达式的过程中,如果仅用现有的搜索匹配方法,无论是横向优先还是纵向优先,都是复杂和费时的。
技术实现思路
因此,本专利技术的一个方面,提供了一种高效的通过语义分析得到句义表达式的方法,即,利用语义单元表示库自动为一个句子生成句义表达式的方法,其中该句子为原始语种的句子并且所述语义单元表示库至少包括所述原始语种的语义单元表示,所述方法包括根据所述语义单元表示库的原始语种的表示,编制语义单元表示树索引库;根据所述语义单元表示树索引库,为该句子中的每个字提取以该字为实量开始的语义单元表示树;逐字地对所述提取出的语义单元表示树进行剪枝;以及根据所述语义单元表示树中没有被剪掉的语义单元,求出该句子的句义表达式。本专利技术的另一个方面,提供了一种自然语言机器翻译方法,用于将原始语种的句子翻译成一个或多个目标语种的译文,包括通过前面描述的生成句义表达式的方法,生成所述句子的句义表达式,其中所述语义单元表示库还包括对应的所述一个或多个目标语种的语义单元表示;以及根据所述语义单元表示库,将所述生成的句义表达式展开为所述一个或多个目标语种的译文。本专利技术的另一个方面,提供了一种利用语义单元表示库自动为一个句子句义表达式的产生装置,其中该句子为原始语种的句子,并且所述语义单元表示库至少包括所述原始语种的语义单元表示,所述装置包括语义单元表示树索引库,用于记录按照所述语义单元表示库中所述原始语种语义单元的表示中实量的顺序、为所述语义单元表示库编制的索引;语义表示树提取装置,用于根据所述语义单元表示树索引库,为该句子中的每个字提取以该字为实量开始的语义单元表示树;语义表示树剪枝装置,用于逐字地对所述提取出的语义单元表示树进行剪枝;以及句义表达式生成装置,用于根据所述提取出的语义单元表示树中经所述语义表示树剪枝装置剪枝后剩余的语义单元,求出该句子的句义表达式。本专利技术的另一个方面,提供了一种自然语言机器翻译系统,用于将原始语种的句子翻译成一个或多个目标语种的译文,包括语义单元表示库,记录有语义单元对应的两个或两个以上语种的语义单元表示;前面描述的句义表达式的产生装置;以及句义表达式展开装置,用于按照语义单元表示库中记录的目的语种的语义单元表示,将句义表达式的产生装置生成的句义表达式展开为目的语种的语句。本专利技术的另一个方面,提供了一种自动根据上下文缩小词义解释范围的词语解释方法,用于利用语义单元表示库对原始语种的句子中的一个词提供一个或多个目标语种的解释,所述语义单元表示库含有原始语种的语义单元表示和对应的一个或多个目标语种的语义单元表示,所述方法包括根据所述语义单元表示库的原始语种的表示,编制语义单元表示树索引库;根据所述语义单元表示树索引库,为该句子中的所述希望提供解释的词及其之前的每个字,提取以该字为实量开始的语义单元表示树;逐字地对所述提取出的语义单元表示树进行剪枝;以及将所述希望提供解释的词对应的语义单元表示树中没有被剪掉的语义单元所对应的目标语种的语义单元表示,提供作为解释。本专利技术的另一个方面,提供了一种根据上下文缩小词义解释范围的电子词典,用于为原始语种的词语提供一个或多个目标语种的解释,包括语义单元表示库,记录有原始语种的语义单元表示和对应的一个或多个目标语种的语义单元表示;语义单元表示树索引库,用于记录按照所述语义单元表示库中所述原始语种语义单元的表示中实量的顺序、为所述语义单元表示库编制的索引;字取出装置,用于从原始语种的句子中取出一个字;语义表示树提取装置,用于从所述语义单元表示树索引库,为原始语种的字提取以该字为实量开始的语义单元表示树;语义表示树剪枝装置,用于对所述提取出的语义单元表示树进行剪枝;以及解释输出装置,用于将所述提取出的语义单元表示树中经所述语义表示树剪枝装置剪枝后剩余的语义单元对应的目标语义单元表示,作为解释输出。附图说明相信通过以下结合附图对本专利技术具体实施方式的说明,能够使人们更好地了解本专利技术上述的特点、优点和目的。图1是根据本专利技术的一个实施例的生成句义表达式的方法的流程图;图2是根据本专利技术的一个实施例的生成句义表达式的方法中剪枝过程的详细流程图;图3是根据本专利技术的一个实施例的生成句义表达式的方法中剪枝过程的详细流程图;图4是展示根据本专利技术的一个实施例的句义表达式的产生装置的结构的方块图;图5是展示根据本专利技术的一个实施例的机器翻译系统的结构的方块图;图6是根据本专利技术的一个实施例的自动根据上下文缩小词义解释范围的词语解释方法的流程图;图7是展示根据本专利技术的一个实施例的根据上下文缩小词义解释范围的电子词典的结构的方块图。具体实施例方式下面就结合附图对本专利技术的各个优选实施例进行详细的说明。生成句义表达式的方法如前所述在基于语义的机器翻译中,根据原文的语句生成句义表达式的处理过程是非常关键的,直接影响机器翻译的效率和译文的准确性。为此,本专利技术提供了一种生成句义表达式的方法。图1是根据本专利技术的一个实施例的生成句义表达式的方法的流程图。下面就参照该图对该实施例的生成句义表达式的方法进行说明。首先在步骤101,根据语义单元表示库的原始语种的表示,编制语义单元表示树索引库。如中国专利申请No.01131689.6中说明的那样,语义单元表示库是记录一种或多种自然语言的语义表示的数据集合。通常在语义单元表示库中包含有每个语义单元对应的两个或两个以上语种的语义单元表示、语义单元类型以及语义单元的虚量(参数部分)的类型要求(如果由虚量的话),下面的表1示例性地列举了一个多语种语义单元表示库的内容,当然,本领域技术人员可以作出各种变化,本专利技术对此没有特别限定。表1.多语种语义单元表示库的示例 具体地,根据本实施例,步骤101,按照所述语义单元表示库中所述原始语种语义单元的表示中实量的本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种利用语义单元表示库自动为一个句子生成句义表达式的方法,其中该句子为原始语种的句子并且所述语义单元表示库至少包括所述原始语种的语义单元表示,所述方法包括根据所述语义单元表示库的原始语种的表示,编制语义单元表示树索引库;根据所述语义单元表示树索引库,为该句子中的每个字提取以该字为实量开始的语义单元表示树;逐字地对所述提取出的语义单元表示树进行剪枝;以及根据所述语义单元表示树中没有被剪掉的语义单元,求出该句子的句义表达式。2.根据权利要求1所述的生成句义表达式的方法,其特征在于,所述为所述语义单元表示库编制索引的步骤,包括按照所述语义单元表示库中所述原始语种语义单元的表示中实量的顺序,为所述语义单元表示库编制索引。3.根据权利要求2所述的生成句义表达式的方法,其特征在于,所述为所述语义单元表示库编制索引的步骤,还包括当所述原始语种语义单元的表示中出现由虚量隔开的两个或多个实量时,将后面的实量也依次加入作为所述索引中的一个条目。4.根据权利要求1所述的生成句义表达式的方法,其特征在于,所述提取出的语义单元表示树进行剪枝的步骤,包括根据所述提取出的原始语种的语义单元表示树中各个语义单元表示的实量,对所述提取出的语义单元表示树剪枝;以及根据所述提取出的原始语种的语义单元表示树中各个语义单元表示的虚量,对所述提取出的语义单元表示树剪枝。5.根据权利要求4所述的生成句义表达式的方法,其特征在于,所述根据实量对所述提取出的语义单元表示树剪枝的步骤,包括从所述提取出的原始语种的语义单元表示树中,将其实量与所述句子中后续字不匹配的分支去掉。6.根据权利要求4所述的生成句义表达式的方法,其特征在于,所述根据虚量对所述提取出的语义单元表示树剪枝的步骤,包括从所述提取出的原始语种的语义单元表示树中,将其虚量与所述句子的对应部分中确定的语义单元的类型不匹配的分支去掉。7.根据权利要求6所述的生成句义表达式的方法,其特征在于,所述将语义单元的原始语种语义表示的虚量的类型与所述句子的对应部分中确定的语义单元的类型不匹配的分支去掉的步骤,包括从所述提取出的原始语种的语义单元表示树中,将在实量之前的虚量与所述句子的对应部分的语义单元的类型不匹配的分支去掉;以及从所述提取出的原始语种的语义单元表示树中,将在实量之后的虚量与所述句子的对应部分的语义单元的类型不匹配的分支去掉。8.根据权利要求6所述的生成句义表达式的方法,其特征在于,所述根据虚量对所述提取出的语义单元表示树剪枝的步骤,还包括当出现两个或多个连续的语义单元时进行类型流转换处理。9.根据权利要求1所述的生成句义表达式的方法,其特征在于,所述求出该句子的句义表达式的步骤,包括将通过剩下的语义单元表示的代入能得到所述句子的对应的语义单元进行相同的代入得到句义表达式。10.根据权利要求9所述的生成句义表达式的方法,其特征在于,所述求出该句子的句义表达式的步骤,还包括如果剩下的语义单元表示的代入无法得到所述句子,则判断该句子无解;以及如果剩下的语义单元表示的多个不同代入可以得到所述句子,则判断该句子有歧义。11.一种自然语言机器翻译方法,用于将原始语种的句子翻译成一个或多个目标语种的译文,包括通过权利要求1~10所述的生成句义表达式的方法,生成所述句子的句义表达式,其中所述语义单元表示库还包括对应的所述一个或多个目标语种的语义单元表示;以及根据所述语义单元表示库,将所述生成的句义表达式展开为所述一个或多个目标语种的译文。12.一种利用语义单元表示库自动为句子产生句义表达式的句义表达式产生装置,其中该句子为原始语种的句子,并且所述语义单元表示库至少包括所述原始语种的语义单元表示,所述装置包括语义单元表示树索引库,用于记录按照所述语义单元表示库中所述原始语种语义单元的表示中实量的顺序、为所述语义单元表示库编制的索引;语义表示树提取装置,用于根据所述语义单元表示树索引库,为该句子中的每个字提取以该字为实量开始的语义单元表示树;语义表示树剪枝装置,用于逐字地对所述提取出的语义单元表示树进行剪枝;以及句义表达式生成装置,用于根据所述提取出的语义单元表示树中经所述语义表示树剪枝装置剪枝后剩余的语义单元,求出该句子的句义表达式。13.根据权利要求12所述的句义表达式的产生装置,其特征在于,当所述原始语种语义单元的表示中出现由虚量隔开的两个或多个实量时,将后面的实量也依次加入作为所述语义单元表示树索引库中一个条目。14.根据权利要求12所述的句义表达式的产生装置,其特征在于,所述语义表示树剪枝装置还包括实量剪枝装置,用于根据所述提取出的原始语种语义单元表示树中各个语义单元表示的实量,对所述提取出的语义单元表示树剪枝;以及虚量剪枝装置,用于根据所述提取出的原始语种语义单元表示树中各个语义单元表示的虚量,对所述提取出的语义单元表示树剪枝。15.根据权利要求14所述的句义表达式的产生装置,其特征在于,所述实量剪枝装置,从所述提取出的原始语种语义单元表示树中,将其实量与所述句子中后续字不匹配的分支去掉。16.根据权利要求14所述的句义表达式的产生装置,其特征在于,所述虚量剪枝装置,从所述提取出的原始语种语义单元表示树中,将其虚量的类型与所述句子的对应部分中确定的语义单元的类型不匹配的分支去掉。17.根据权利要求16所述的句义表达式的产生装置,其特征在于,所述虚量剪枝装置,从所述提取出的原始语种语义单元表示树中,将在实量之前的虚量的类型与所述句子的对应部分的语义单元的类型不匹配的分支去掉,并且从所述提取出的原始语种语义单元表示树中,将在实量之后的虚量的类型与所述句子的对应部分的语义单元的类型不匹配的分支去掉。18.根据权利要求16所述的句义表达式的产生装置,其特征在于,所述虚量剪枝装置,当出现两个或多个连续的语义单元时进行类型流转换处理。19.根据权利要求12所述的句义表达式的产生装置,其特征在于,所述句义表达式生成装置,将通过剩下的语义单元表示的代入能得到所述句子的对应...

【专利技术属性】
技术研发人员:高小宇高庆狮胡玥
申请(专利权)人:高庆狮
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1