信息处理方法和装置制造方法及图纸

技术编号:11031833 阅读:75 留言:0更新日期:2015-02-11 17:50
本申请提供一种信息处理方法和装置。该信息处理方法包括:识别信息中的多词单元;从翻译规则数据库中查找所述多词单元的最相似多词单元及关联词串所分别匹配的翻译规则,所述关联词串包括所述多词单元的所有子串及与所述多词单元部分重叠的多词单元;根据每一翻译规则与所述最相似多词单元所匹配的翻译规则的关系确定每一翻译规则的得分;根据得分满足预设条件的翻译规则确定所述多词单元的翻译结果。本申请中,根据最相似多词单元的翻译规则确定没有匹配翻译规则的多词单元的翻译方法,对最相似多词单元的翻译规则的参考提高了译文的可读性。

【技术实现步骤摘要】
信息处理方法和装置
本申请涉及自然语言处理领域,尤其涉及机器翻译中的信息处理方法和装置。
技术介绍
统计机器翻译是把一种语言通过一些自动学习出来的翻译规则和一定算法转换成另一种语言的自然语言处理技术。但是,在一些特定的领域例如科技文献领域,由于往往会出现较多的多词单元,且这些多词单元并不存在匹配的翻译规则,此时对于这些多词单元的翻译通常采用逐词翻译的方式,导致翻译错误,影响译文的可读性。
技术实现思路
本申请的实施方式提供了一种信息处理方法和装置,能够利用最相似多词单元对没有匹配的翻译规则的多词单元进行处理,提高译文的可读性。本申请实施方式提供一种信息处理方法,包括:识别信息中的多词单元;从翻译规则数据库中查找所述多词单元的最相似多词单元及关联词串所分别匹配的翻译规则,所述关联词串包括所述多词单元的所有子串及与所述多词单元部分重叠的多词单元;根据每一翻译规则与所述最相似多词单元所匹配的翻译规则的关系确定每一翻译规则的得分;根据得分满足预设条件的翻译规则确定所述多词单元的翻译结果。本申请的另一实施方式中提供一种信息处理装置,包括:多词单元识别模块,配置成识别信息中的多词单元;翻译规则查找模块,配置成从翻译规则数据库中查找所述多词单元的最相似多词单元及关联词串所分别匹配的翻译规则,所述关联词串包括所述多词单元的所有子串及与所述多词单元部分重叠的多词单元;得分确定模块,配置成根据每一翻译规则与所述最相似多词单元所匹配的翻译规则的关系确定每一翻译规则的得分;以及翻译结果确定模块,配置成根据得分满足预设条件的翻译规则确定所述多词单元的翻译结果。本申请中,根据最相似多词单元的翻译规则确定没有匹配翻译规则的多词单元的翻译方法,对最相似多词单元的翻译规则的参考提高了译文的可读性。附图说明参照下面结合附图对本申请实施方式的说明,会更加容易地理解本申请的以上和其它目的、特点和优点。附图以示例而非限制性的方式来说明本申请。在附图中,相同的或类似的技术特征或部件将采用相同或类似的附图标记来表示。图1至图3示出机器翻译系统的平行语料;图4示出利用标注器对信息进行标注的示意图;图5示出多词单元的翻译方法的实施方式一的流程示意图;图6示出多词单元的翻译方法的实施方式二的流程示意图;图7示出本申请提供的信息处理方法的应用示例的流程图;图8示出图7所示的应用示例中信息的翻译结果;图9示出本申请实施方式提供的信息处理装置的结构示意图;以及图10示出本申请实施方式提供的计算设备的结构示意图。具体实施方式现在参考附图来更加详细地描述本申请的实施方式。示例实施方式的提供是为了使本申请更加详尽,并且向本领域技术人员充分地传达保护范围。阐述了众多的特定细节如特定部件、装置的例子,以提供对本申请的实施方式的详尽理解。对于本领域技术人员而言将会明显的是,示例实施方式可以用许多不同的形式来实施而不一定使用这些特定的细节,因此它们都不应当被解释为限制本申请的范围。另外,在本技术的一个附图或一种实施方式中描述的元素和特征可以与一个或更多个其它附图或实施方式中示出的元素和特征相结合。在某些示例实施方式中,为了清楚的目的,没有在附图和说明中详细地描述众所周知的过程、结构和技术。下面参考附图结合具体实施方式介绍本申请提供的信息处理方法。其中,按照多词单元的提取方式、对提取得到的多词单元进行翻译的顺序来介绍本申请提供的信息处理方法。多词单元的提取方式的实施方式一本实施方式提供一种多词单元的提取方式,具体如下。从机器翻译系统的语料库中获取双语的平行语料,该平行语料是对两种语言进行篇章、段落、语句等的对齐处理后的成对的信息,以双语为汉语和英语为例,例如得到如图1所示的平行语料,并获取如图2所示的汉语语料和英语语料之间的词的互译关系,其中,箭头表示词之间的对应关系。其中,汉语语料和英语语料之间的词的互译关系以及下文所述的英文端词性标注和英文多词单元的提取既可以人为实现,也可以通过设置相应的操作程序由机器实现,本文对此不做限制。由于英文自身是以词为基本的语言单元,而且英文的歧义性比汉语小,可以通过分析英语端得到多词单元,再通过英汉的互译关系确定汉语端的多词单元。如图3所示,在英文端加入词性标注,其中,例如使用“VV”表示动词,“NN”表示名词,“P”表示介词,“DT”表示冠词,“VBG”表示动名词,“JJ”表示形容词,然后选择其中的一个或多个连续的词性为NN(名词)的词串,得到例如“polymericcyanoacrylatefilm”的英文词串,也就是说,通过分析英文端得到包括多个英文单词的词串,即英文端的多词单元。然后,获取与英文端的多词单元对应的汉语端词串,例如获取到与“polymericcyanoacrylatefilm”对应的“聚腈/基/丙烯酸/酯/膜”,将该汉语端词串作为多词单元。通过上述方式可以从机器翻译系统的语料库中得到大量的多词单元匹配词串,例如<polymericcyanoacrylatefilm,聚腈/基/丙烯酸/酯/膜>。利用得到的大量的多词单元匹配词串构建针对汉语的多词单元提取器的训练集,并利用该训练集训练多词单元提取器,使得多词单元提取器具备从信息中提取汉语多词单元的能力。这里,多词单元提取器可以采用任何可用的分类器实现,并可以采用任何训练方式来进行训练。在对多词单元提取器进行训练以后,可以利用训练得到的多词单元提取器提取汉语信息中的多词单元。注意,在本申请中,以汉语-英语平行语料为例,并且作为举例以汉语作为处理对象。但本申请不限于此。与上述情形相反,可以以英语为处理对象,在获取训练集时先确定汉语多词单元,然后映射得到英语多词单元。以这样的训练集训练得到的多词单元提取器可以用于提取英语信息中的多词单元。当然,上述方案可以应用于任何两种互译的语言。另外,对于训练集中汉语多词单元的标注,也可以不利用平行语料,而直接在汉语语料中人工或者机器标注多词单元。另外,在前面的实施方式中,由于语言之间的差异,与英语中的多词单元对应的汉语中的“多词单元”可能不是真正的多词单元,而可能只包括一个词。因此,在该实施方式的一种变型中,设置多词单元的进一步筛选处理,例如清除只包括一个词的多词单元,从而得到可信度高的多词单元,为了描述方便,下文中将进一步筛选后得到的多词单元称为可信多词单元。另外,在前面的实施方式中,由于语言之间的差异或者多词单元的提取方式的差异,还可能导致提取到不恰当的多词单元,例如可能将“的存储器”作为一个多词单元而其中“的”字应当被删除。因而,在该实施方式的另一种变型中,还可以单独地或者结合上述筛选条件设置其他条件,例如,可以对得到的多词单元进行下述进一步的筛选处理:根据语料库中的语料设置停用词表,该停用词表包括例如对于翻译本身无实质影响的或者应用非常普遍的不易导致翻译错误的一些词,停用词表中的停用词由用户根据实际需要设置,例如包括“一/种”、“本/专利技术”这类高频的搭配且并不容易引起翻译错误的词;对于包括两个词的多词单元,如果两个词都在停用词表中,则排除该多词单元;对于包括三个以上词的多词单元,如果多词单元的边界词是停用词,则删除该边界词,将剩下的多词单元作为可信多词单元,如果多词单元的边界词不是停用词,则直接将多词单元作为本文档来自技高网...
信息处理方法和装置

【技术保护点】
一种信息处理方法,包括:识别信息中的多词单元;从翻译规则数据库中查找所述多词单元的最相似多词单元及关联词串所分别匹配的翻译规则,所述关联词串包括所述多词单元的所有子串及与所述多词单元部分重叠的多词单元;根据每一翻译规则与所述最相似多词单元所匹配的翻译规则的关系确定每一翻译规则的得分;根据得分满足预设条件的翻译规则确定所述多词单元的翻译结果。

【技术特征摘要】
1.一种信息处理方法,包括:识别信息中的多词单元;从翻译规则数据库中查找所述多词单元的最相似多词单元及关联词串所分别匹配的翻译规则,所述关联词串包括所述多词单元的所有子串及与所述多词单元部分重叠的多词单元;根据每一翻译规则与所述最相似多词单元所匹配的翻译规则的关系确定每一翻译规则的得分;根据得分满足预设条件的翻译规则确定所述多词单元的翻译结果。2.根据权利要求1所述的方法,所述根据每一翻译规则与所述最相似多词单元匹配的翻译规则的关系确定每一翻译规则的得分包括:统计所述每一翻译规则在所述最相似多词单元所匹配的翻译规则中出现的次数,即第一次数;统计所述每一翻译规则对应的子串所匹配的所有翻译规则在所述最相似多词单元所匹配的翻译规则中出现的次数的和;根据所述第一次数与所述和确定所述每一翻译规则的得分。3.根据权利要求2所述的方法,所述根据每一翻译规则与所述最相似多词单元匹配的翻译规则的关系确定每一翻译规则的得分还包括:当所述最相似多词单元为所述多词单元本身时,确定所述多词单元作为其自身的子串所匹配的翻译规则的得分为第一预定得分。4.根据权利要求2所述的方法,所述根据所述第一次数与所述和确定所述每一翻译规则的得分包括:根据所述第一次数与所述和的比例关系确定所述每一翻译规则的得分。5.根据权利要求4所述的方法,所述根据所述第一次数与所述和确定所述每一翻译规则的得分还包括:当所述第一次数的值为0时,设置所述翻译规则的得分为默认值。6.根据权利要求1所述的方法,所述根据每一翻译规则与所述最相似多词单元匹配的翻译规则的关系确定每一翻译...

【专利技术属性】
技术研发人员:郑仲光孟遥于浩
申请(专利权)人:富士通株式会社
类型:发明
国别省市:日本;JP

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1