【技术实现步骤摘要】
本专利技术涉及自然语言处理
,涉及一种基于语块的中文机构名翻译方法及装置。
技术介绍
命名实体包括人名、地名、机构名等七类。命名实体在人类语言中传递着重要信息,它的识别和翻译是自然语言处理研究中的关键技术之一。在多语言处理中,命名实体的识别和翻译结果直接影响到自然语言的理解。其中,机构名是最复杂的一类命名实体。它结构多变,可以是人名、地名甚至机构名的组合。如何翻译好机构名在整个翻译系统中具有举足轻重的作用。因此,中文机构名的翻译研究具有重要的理论意义和实用价值。命名实体翻译一般采用的方法是对双语平行句子的语料进行对齐,抽取其中的命名实体翻译对,然后建立命名实体的翻译词典。这种查找字典方法比较适合人名和地名的翻译,因为人名和地名的结构一般都比较简单,但对于机构名,单纯采用这种方法是不足的,因为机构名可以是多种修饰语(包括人名,地名)的组合。它的粒度比较大,要保证在翻译词典中找到一致的源语言机构名比较困难,所以需要从中文机构名的组成结构研究出发,寻找基于结构的中文机构名翻译方法。经典的统计机器翻译方法,例如基于短语的翻译,并不适合机构名的翻译,因为机构名虽然在命名实体中最为复杂,但相对句子来说,却比较简单而且有规律可循。翻译时大规模的解码搜索是不必要的,还可能会造成歧义。所以我们需要一个独立于整体翻译系统的机构名翻译系统。中文机构名组成方式非常复杂,种类繁多,各类机构都有其独特的命名方式。按照它的功能性质,可以大致分为两类行政管理类结构名和企业类机构名。企业类机构主要是私有的带有盈利性质的机构,例如酒店、银行、公司等,这类机构名多以地名开头,中间加以 ...
【技术保护点】
【技术特征摘要】
1.一种基于语块的中文机构名翻译方法,其特征在于,采用如下步骤训练语料步骤基于语块即最高级的修饰语语块、次高级修饰语语块、机构称呼词语块,从训练语料中提取每个语块的同步上下文无关文法规则及概率信息;翻译步骤先将中文机构名切割成语块,然后利用同步上下文无关文法推导按照设置的三个步骤对语块位置进行调整,完成语块的翻译。2.根据权利要求1所述基于语块的中文机构名翻译方法,其特征在于,训练语料步骤包括a)对训练语料即机构名中英对照翻译对中的中文机构名进行分词;b)利用GIZA++工具,从中文到英文方向,对训练语料中的机构名中英对照翻译对进行对位,由对位结果得到词的中英翻译概率p(ei|oi),或者加入词典用以覆盖训练语料中未出现词的翻译对;c)在训练语料对位结果的基础上,将中英对照机构名翻译对分别切割成若干语块,并得到语块概率模型p(oi1...oij|ci)和p(ci|ci-1);d)根据提取规则的定义,对训练语料中语块的切割后的每个语块中英翻译对,采用一个定义对每个机构名的对位结果提取同步上下文无关文法(Context-Free Grammar,CFG)规则,规则分为普通规则和规则*两类,并统计每条规则的概率信息。3.根据权利要求1所述基于语块的中文机构名翻译方法,其特征在于,翻译步骤包括aa)将待翻译的中文机构名进行分词,采用最大概率分词法或最大匹配法或其他分词方法;bb)在分词的结果基础上,将中文机构名划分成若干个只包含单一称呼词的机构名,然后再分别将中文机构名切割成语块;cc)在语块的基础上,用同步上下文无关文法推导方法对分割语块后的中文机构名进行推导,按照设定的同步CFG三个推导步骤为机构名翻译设定一条路径,即利用训练过程得到的同步CFG规则为普通规则和规则*,对切割语块后的中文机构名进行同步CFG推导;对语块进行翻译及顺序的调整,或加入词典辅助机构名的翻译,覆盖更多词的翻译,直至完成翻译。4.根据权利要求1或2所述基于语块的中文机构名翻译方法,其特征在于,所述训练语料步骤是对中文到英文方向的对齐文件进行预处理,去除不符合条件的错误对齐结果,筛选其中同时满足两个条件的对位结果,这两个条件是1)对齐文件中每个中文词都对应至少一个的英文词;2)每个中文词对应的英文词位置是连续的;满足这两个条件的对位结果是相对比较正确结果,则被筛选出用于后续提取规则步骤。5.根据权利要求1所述基于语块的中文机构名翻译方法,其特征在于,所述中文机构名被分割成三类语块包括第一类语块(First Chunk,FC)为最高级的修饰语语块,第二类语块(Second Chunk,SC)为次高级修饰语语块,第三类语块(Third Chunk,TC)为机构称呼词语块;在翻译过程中,需要最先确定最高级修饰语语块的位置,并且最高级修饰语语块内部的翻译是顺序的;在翻译过程中,次高级修饰语语块的位置取决于机构称呼词语块的位置,次高级修饰语语块在机构称呼词语块之前或之后,并且次高级修饰语语块内部的词翻译需要进行位置的调整;机构称呼词语块的位置在确定最高级的修饰语语块位置后确定,并且机构称呼词语块内部的词是顺序翻译。6.根据权利要求1或3所述基于语块的中文机构名翻译方法,其特征在于,所述在翻译过程中语块的分割是根据语块切割模型,C*是所有可能的语块序列中最大概率的语块序列为C*=argmaxC(p(O|C)p(C))]]>≈argmaxC...
【专利技术属性】
技术研发人员:宗成庆,陈钰枫,
申请(专利权)人:中国科学院自动化研究所,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。