基于人名起源分类的人名音译方法技术

技术编号:8532877 阅读:257 留言:0更新日期:2013-04-04 15:54
基于人名起源分类的人名音译方法,它涉及一种翻译系统。本发明专利技术解决了中英人名音译中不同起源国家人名的音译模式不一致问题。本方法如下:一、人名起源分类;二、线性插值系统融合。本发明专利技术提出的方法将logistic多分类回归模型应用到人名起源分类中,并根据人名构成用字特征的特征模板进行人名起源分类;对于每一种起源的人名类别训练一个特定的音译(翻译)模型,再对多个音译模型的结果进行系统融合,实现双语人名互译。

【技术实现步骤摘要】

本专利技术涉及一种翻译系统。
技术介绍
互联网成为人们生活中不可或缺的一部分,它已经是人类信息获取、相互交流、信息传播的一个最重要的途径。我们每天都依靠互联网从中获取需要的生活服务、工作研究等信息。为了能在互联网的海量数据中更快更准更智能的为用户提供信息,信息检索、信息抽取、问答系统等技术成为近年来研究的重点。随着互联网带来的信息交流革命,人们的信息交流和获取已经不单单局限在单一语言中,能够跨语言处理互联网信息已经成为一种迫切需求,这种需要在新闻、金融等领域中显得尤为迫切。因此,机器翻译、跨语言检索、跨语言问答等技术的研究变得越来越重要。在这些研究之中,命名实体的翻译是这些技术的一个重要且基础的问题。人名,作为命名实体的一个重要的组成部分,具有相当强的表达能力,是一篇文档中的关键信息之一。但由于其开放性,人名常常是自然语言处理和机器翻译中未登陆词的主要成分。因此,正确地、自动地翻译人名将是一个有意义的工作,并且对于人工翻译也有一定的指导作用。人名翻译主要依据发音相似来进行,因此也叫做人名的音译。音译在上世纪90年代开始发展,至今已经有十几年的研究积累,主要有基于音素的和基于字素的两类方法,前者依赖语音学的知识,后者则直接在字素之间建模,而综合使用这两类方法则称之为混合音译方法。具体地,基于音素的音译方法借助一个统一的语音学表示方法作为中间转换轴(这个中间轴的表示符号常称为音素),实现源语言到音素、音素到目标语言的转换,所以该方法也叫中轴法或基于语音的音译方法。基于语音的方法因为需要做字素到音素、音素到字素多步转换,每个转换过程都有可能出错,会使得错误累加。同时该方法依赖于具体的语言,每种语言对用到的中间发音单元不同,每种语言对都需要构建自己的音素表,所以方法是不可扩展的。为了克服基于语音的方法的上述缺点,受到机器翻译中词对齐的启发,研究人员直接对源和目标语言间的字素构建音译模型,这类方法也被称作直接音译或者基于字素的音译方法。后来有研究者综合利用这两类方法,提出了混合音译的方法,将基于字素和语音的音译方法相结合,使用线性插值等多种系统融合方法对两种音译结果进行混合。由于基于字素的方法独立于具体的语言对,并且性能较好,成为音译的主要研究方法。尽管研究者提出了很多的音译方法,但在影响音译效果的诸多因素中,人名起源还尚未引起足够的重视。以中文人名-英文人名音译为例,注意这里的中文人名指的用中文汉字书写的人名,英文人名指的是用英文字母书写的人名。比如“德川家康”是一个日本起源的人名,它的英文翻译是“Tokugawa Ieyasu”,韩国起源的人名“卢武铉”的音译“RohMoo-hyun”,这些中文人名的音译(翻译)与通常说的基于发音相似的中-英音译区别很大。因此,如果对这些人名的起源不加以区分,而直接使用训练出来的单一模型对这类人名进行互译则得不到正确结果,同时他们的存在还会影响模型对中、英起源人名的音译。综上,基于人名起源分类的音译研究是一个十分重要的问题。
技术实现思路
本专利技术的目的是为了解决中英人名音译中不同起源国家人名的音译模式不一致问题,提供了一种。按照以下步骤进行一、人名起源分类根据人名起源特征模板采用logistic回归模型,进行计算0009本文档来自技高网
...

【技术保护点】
基于人名起源分类的人名音译方法,其人名起源分类特征、方法和多系统融合方法按照以下步骤进行:一、人名起源分类:根据人名起源特征模板采用logistic回归模型,进行计算:P(Y=k|x)=exp(wk*x)1+Σk=1K-1exp(wk*x),k=1,2,...,K?1????????????????????????公式一P(Y=K|x)=11+Σk=1K-1exp(wk*x)公式二公式一和公式二中K的值是6,Y为1?6,其中1表示中国,2表示英美,3表示阿拉伯,4表示俄国,5表示日本,6表示韩国,x为人名起源特征模板,P表示起源的概率,w是特征的权重向量;步骤一中所述的人名起源特征模板为中文人名起源特征模板或英文人名起源特征模板;中文人名起源特征模板为语言模型、字的TF?IDF、长度和姓氏;语言模型为整合1?gram模型、整合2?gram模型和整合3?gram模型,所述整合n?gram模型是防止该类特征数量过于庞大,而基于最小方差将n?gram的概率特征值划分到1?100个区间上,形成100个特征;长度为汉字字符数;姓氏为姓氏置信度,姓氏置信度为姓氏出现的次数除以出现的总次数所得的商;字的TF?IDF为“名”单字TF和“名”单字IDF,根据人名语料统计出人名常用字并记录每个常用字的字频,得到6类人名常用字表,然后用下面的两个公式计算TF和IDF:TFi=xiΣi=1i=Nxi公式三IDFi=log26DFi公式四在公式三及公式四中,x代表第i个字在训练语料中的字频,分母是字表中所有字在训练语料中全部的出现次数,N代表字表中字的个数,DF表示包含i的人名起源类别数;英文人名起源特征模板为字符语言模型、音节的语言模型、音节的TF?IDF和长度,语言模型为整合2?gram模型、整合3?gram模型和整合4?gram模型,音节的语言模型为整合1?gram模型、整合2?gram模型和整合3?gram模型,所述整合n?gram模型是防止该类特征数量过于庞大,而基于最小方差将n?gram的概率特征值划分到1?100个区间上,形成100个特征;长度为字符个数和音节个数,并且采用下述的方法将英文切分成音节:1、将‘x’替换成‘ks’;2、{a,o,e,i,u}是基本的元音字符,y如果在辅音后面当作元音处理;3、当‘w’前面是‘a,e,o’且后面不是‘h’的时候,‘w’和之前的元音当作一个新的元音符号;4、除了{iu,eo,io,oi,ia,ui,ua,uo}外,其余的连续的元音当作一个新的元音符号处理;5、将挨着的辅音分开,将元音和紧跟着的辅音分开;6、辅音和其后的元音形成一个音节,其他的孤立元音和辅音作为单独的音节;音节的TF?IDF为音节的TF和音节的IDF,根据人名语料统计出人名常用音节并记录每个常用音节的频率,得到6类人名常用音节表,然后用下面的两个公式计算TF和IDF:TFi=xiΣi=1i=Nxi公式三IDFi=log26DFi公式四在公式三及公式四中,x代表第i个字在训练语料中的音节的频率,分母是字表中所有音节在训练语料中全部的出现次数,N代表字表中音节的个数,DF表示包含i音节的人名起源类别数;二、线性插值系统融合:公式五Q(0,$)=0??????????????????????????公式六Q(t,p)=maxt,t′t-4≤t′≤t{φ(xt′+1t,p′,p)+Q(t′,p)}公式七Q(T+1,$)=maxp′{φ($,p′,$)+Q(T,p′)}公式八公式六、公式七和公式八中T代表的是翻译结果,P代表的是翻译的结果概率,t代表翻译到源语言的第几个位置,在公式五中,λi代表S属于起源i的概率,公式五是多系统融合的策略,公式六、七、八是解码算法。FDA00002639862400023.jpg...

【技术特征摘要】
1.基于人名起源分类的人名音译方法,其人名起源分类特征、方法和多系统融合方法按照以下步骤进行 一、人名起源分类 根据人名起源特征模板采用logistic回归模型,进行计算2.根据权利要求1所述的基于人名起源分类的人名音译方法,其特征在于步骤一所述中文人名起源特征模板中采用SRILM工具...

【专利技术属性】
技术研发人员:赵铁军李婷婷张春越曹海龙
申请(专利权)人:哈尔滨工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1