一种基于语块的中文机构名翻译方法及装置制造方法及图纸

技术编号:2836430 阅读:174 留言:0更新日期:2012-04-11 18:40
本发明专利技术公开一种基于语块的中文机构名翻译方法及装置,直接从中 文机构名的结构入手,进行语块的切分,语块的翻译过程和顺序调整过 程同时采用同步上下文无关文法的推导来完成,最终实现中文机构名的 翻译。这种将整个实体划分成更小粒度单位进行翻译的方法,符合中文 机构名构成方式和翻译规律,对于结构易变的机构名翻译具有很大的优 势。在翻译系统中,该装置相当于预处理部分,独立于用于句子翻译的 机器翻译系统。这种“分而治之”的策略大大降低了整句翻译的难度,从 而提高了翻译系统的整体性能。实验证明本发明专利技术在中文机构名翻译中的 有效性。把它加入到机器翻译系统中,按BLEU打分标准,翻译系统的 整体性能相对提高约13.3%。

【技术实现步骤摘要】

本专利技术涉及自然语言处理
,涉及一种基于语块的中文机构名翻译方法及装置
技术介绍
命名实体包括人名、地名、机构名等七类。命名实体在人类语言中传递着重要信息,它的识别和翻译是自然语言处理研究中的关键技术之一。在多语言处理中,命名实体的识别和翻译结果直接影响到自然语言的理解。其中,机构名是最复杂的一类命名实体。它结构多变,可以是人名、地名甚至机构名的组合。如何翻译好机构名在整个翻译系统中具有举足轻重的作用。因此,中文机构名的翻译研究具有重要的理论意义和实用价值。命名实体翻译一般采用的方法是对双语平行句子的语料进行对齐,抽取其中的命名实体翻译对,然后建立命名实体的翻译词典。这种查找字典方法比较适合人名和地名的翻译,因为人名和地名的结构一般都比较简单,但对于机构名,单纯采用这种方法是不足的,因为机构名可以是多种修饰语(包括人名,地名)的组合。它的粒度比较大,要保证在翻译词典中找到一致的源语言机构名比较困难,所以需要从中文机构名的组成结构研究出发,寻找基于结构的中文机构名翻译方法。经典的统计机器翻译方法,例如基于短语的翻译,并不适合机构名的翻译,因为机构名虽然在命名实体中最为复杂,但相对句子来说,却比较简单而且有规律可循。翻译时大规模的解码搜索是不必要的,还可能会造成歧义。所以我们需要一个独立于整体翻译系统的机构名翻译系统。中文机构名组成方式非常复杂,种类繁多,各类机构都有其独特的命名方式。按照它的功能性质,可以大致分为两类行政管理类结构名和企业类机构名。企业类机构主要是私有的带有盈利性质的机构,例如酒店、银行、公司等,这类机构名多以地名开头,中间加以企业字号,例如“吉百利”等。大部分的企业字号属于未登录词。翻译时需要音译等方法进行处理,而且这类机构名的翻译主要是按词的顺序翻译,所以企业类机构名的翻译重点在于企业字号类未登录词的处理。而行政管理类机构主要是从属于国家或地方级别的公共机构,例如国家部门、省市政府、大学和协会等。这类机构名的组成比较规则,并且它的组成词大部分是已登录词。它的组成结构是一系列的修饰词加上最末必需的机构称呼词。例如“中国国际对外交流中心”(例a)。对LDC发布的LDC2005T34语料库(Chinese<->English Name Entity Lists(v1.0))进行实验的数据表明,在随机抽取的3457个包含2~20个词的行政管理类机构名(分词后)中,有43%的行政管理类机构名在翻译时需要进行词位置的调整。这就需要根据这类机构名组成结构方式进行翻译。所以行政管理类机构名的翻译重点在于分析它的组成结构,然后进行翻译时的位置调整。
技术实现思路
本专利技术目的是针对行政管理类机构名翻译存在的问题,这类机构名的长度很不稳定,而且机构名中还有嵌套的情况,机构名中还可能包含有另一个机构名,本专利技术的目的在于解决准确率低和错误率高问题,本专利技术正确分解机构名的结构,实现的是从中文机构名到对应英文机构名的翻译,为此,本专利技术提供一种基于语块的中文机构名翻译方法及装置。本专利技术针对行政管理类机构名的翻译存在的问题,这类机构名的长度很不稳定,少至两个字,多至几十个字。而且机构名中还有嵌套的情况,机构名中还可能包含有另一个机构名,例如“北京医科大学第一附属医院”,如何正确分解它的结构然后进行翻译是本专利技术的关键。根据上述思路,本文从研究机构名组成结构规律入手,设计了一种适用于中文机构名翻译的基于语块的翻译方法,并通过实验证明该方法能获得比较高的翻译准确率,把该方法加入到机器翻译系统中,能提高系统的整体翻译质量。本专利技术的第一方面,一种基于语块的中文机构名翻译方法,包括如下步骤训练语料步骤基于语块即最高级的修饰语语块、次高级修饰语语块、机构称呼词语块,从训练语料中提取每类语块的上下文无关文法规则及概率信息;翻译步骤先将中文机构名切割成语块,然后利用同步上下文无关文法推导按照设置的三个步骤对语块位置进行调整,完成语块的翻译。本专利技术的基本思想是将中文机构名切割为几个语块,根据语块的特点,以语块为单元,利用同步上下文无关文法(CFG)推导对语块进行位置的调整,同时也完成了语块的翻译。本专利技术首先定义了机构名中包含的三类语块即最高级的修饰语语块、次高级修饰语语块、机构称呼词语块,然后根据其不同的特点对机构名进行切割,接着对包含的各个语块进行翻译,最后调整所有语块的翻译顺序。我们用同步上下文无关文法推导同时实现了后两个步骤。本专利技术采用上述“切割语块”的思想来进行机构名的翻译,与简单的查找词典的翻译方法不同。机构名被切割成更小粒度的单位,这种思想符合机构名的构成方式和翻译规律,对于结构易变的机构名翻译具有很大的优势。分割语块后利用同步上下文无关文法推导来实现翻译。根据包含语块的特点,本专利技术限制了推导步骤,这相当于确定一条最优解码路径。这也是本专利技术提出的基于语块的翻译思想所在。同时这种方法独立于用于句子翻译的机器翻译系统,作为预处理部分,简化了句子翻译难度。提高了翻译系统的整体性能。本专利技术的第二方面,一种基于语块的中文机构名翻译装置,包括分词装置、语块分割装置以及语块翻译和顺序调整装置,上述装置依次顺序连接;中文机构名数据置入分词装置,语块分割装置分别与分词装置和语块翻译和顺序调整装置相连接,分词装置用于对需要翻译的中文机构名进行分词并输出分词后的中文机构名;语块分割装置用于将中文机构名切割成语块,即由分词装置输出分词后的中文机构名作为语块分割装置的输入,使语块分割装置输出切割成语块的中文机构名;语块翻译和顺序调整装置用于对语块进行翻译及顺序的调整并输出翻译结果,语块翻译和顺序调整装置基于语块的同步CFG推导模块,同步CFG推导模块包括CFG规则*模块和CFG普通规则模块,先运行CFG规则*模块的匹配过程,如果CFG规则*模块没有可匹配的规则*,则采用CFG普通规则进行三个推导步骤。附图说明通过以下结合附图的详细描述,本专利技术的上述和其它方面、特征和优点将变得更加显而易见。附图中图1是本专利技术中翻译部分的中文机构名翻译装置结构2是本专利技术中训练部分的整体框架3是本专利技术例a的基于语块的同步CFG推导示例图具体实施方式下面结合附图对本专利技术作具体说明。应该指出,所描述的施例仅仅视为说明的目的,而不是对本专利技术的限制。图1是本专利技术一种基于语块的中文机构名翻译系统装置的结构图,在一台PC机上(Pentium 4处理器,3.00GHz,512M内存)运行基于语块的中文机构名翻译装置。由三部分装置构成分词装置1、语块切割装置2、语块翻译和顺序调整装置3,上述装置依次顺序连接;中文机构名4数据置入分词装置1,语块分割装置2分别与分词装置1和语块翻译和顺序调整装置3相连接,分词装置1用于对待翻译中文机构名进行分词并输出分词后的中文机构名;语块分割装置2用于将中文机构名切割成语块即由分词装置1输出分词后的中文机构名作为语块分割装置2的输入,使语块分割装置2输出切割成语块的中文机构名;语块翻译和顺序调整装置3用于对语块进行翻译及顺序的调整,语块翻译和顺序调整装置3输出翻译结果5。语块翻译和顺序调整装置3基于语块的同步CFG推导模块,同步CFG推导模块包括CFG规则*模块6和CFG普通规则模块7,先运行CFG规则*模本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于语块的中文机构名翻译方法,其特征在于,采用如下步骤训练语料步骤基于语块即最高级的修饰语语块、次高级修饰语语块、机构称呼词语块,从训练语料中提取每个语块的同步上下文无关文法规则及概率信息;翻译步骤先将中文机构名切割成语块,然后利用同步上下文无关文法推导按照设置的三个步骤对语块位置进行调整,完成语块的翻译。2.根据权利要求1所述基于语块的中文机构名翻译方法,其特征在于,训练语料步骤包括a)对训练语料即机构名中英对照翻译对中的中文机构名进行分词;b)利用GIZA++工具,从中文到英文方向,对训练语料中的机构名中英对照翻译对进行对位,由对位结果得到词的中英翻译概率p(ei|oi),或者加入词典用以覆盖训练语料中未出现词的翻译对;c)在训练语料对位结果的基础上,将中英对照机构名翻译对分别切割成若干语块,并得到语块概率模型p(oi1...oij|ci)和p(ci|ci-1);d)根据提取规则的定义,对训练语料中语块的切割后的每个语块中英翻译对,采用一个定义对每个机构名的对位结果提取同步上下文无关文法(Context-Free Grammar,CFG)规则,规则分为普通规则和规则*两类,并统计每条规则的概率信息。3.根据权利要求1所述基于语块的中文机构名翻译方法,其特征在于,翻译步骤包括aa)将待翻译的中文机构名进行分词,采用最大概率分词法或最大匹配法或其他分词方法;bb)在分词的结果基础上,将中文机构名划分成若干个只包含单一称呼词的机构名,然后再分别将中文机构名切割成语块;cc)在语块的基础上,用同步上下文无关文法推导方法对分割语块后的中文机构名进行推导,按照设定的同步CFG三个推导步骤为机构名翻译设定一条路径,即利用训练过程得到的同步CFG规则为普通规则和规则*,对切割语块后的中文机构名进行同步CFG推导;对语块进行翻译及顺序的调整,或加入词典辅助机构名的翻译,覆盖更多词的翻译,直至完成翻译。4.根据权利要求1或2所述基于语块的中文机构名翻译方法,其特征在于,所述训练语料步骤是对中文到英文方向的对齐文件进行预处理,去除不符合条件的错误对齐结果,筛选其中同时满足两个条件的对位结果,这两个条件是1)对齐文件中每个中文词都对应至少一个的英文词;2)每个中文词对应的英文词位置是连续的;满足这两个条件的对位结果是相对比较正确结果,则被筛选出用于后续提取规则步骤。5.根据权利要求1所述基于语块的中文机构名翻译方法,其特征在于,所述中文机构名被分割成三类语块包括第一类语块(First Chunk,FC)为最高级的修饰语语块,第二类语块(Second Chunk,SC)为次高级修饰语语块,第三类语块(Third Chunk,TC)为机构称呼词语块;在翻译过程中,需要最先确定最高级修饰语语块的位置,并且最高级修饰语语块内部的翻译是顺序的;在翻译过程中,次高级修饰语语块的位置取决于机构称呼词语块的位置,次高级修饰语语块在机构称呼词语块之前或之后,并且次高级修饰语语块内部的词翻译需要进行位置的调整;机构称呼词语块的位置在确定最高级的修饰语语块位置后确定,并且机构称呼词语块内部的词是顺序翻译。6.根据权利要求1或3所述基于语块的中文机构名翻译方法,其特征在于,所述在翻译过程中语块的分割是根据语块切割模型,C*是所有可能的语块序列中最大概率的语块序列为C*=argmaxC(p(O|C)p(C))]]>≈argmaxC...

【专利技术属性】
技术研发人员:宗成庆陈钰枫
申请(专利权)人:中国科学院自动化研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术