一种汉英反向音译方法及装置制造方法及图纸

技术编号:4170681 阅读:291 留言:0更新日期:2012-04-11 18:40
本发明专利技术涉及一种汉英反向音译的方法和装置,将待翻译的中文音译名转换成汉语拼音序列表示,借助统计音译模块来生成音译候选;通过修正模块将音译候选修正为真实的英文单词,修正模块借助从大规模的网页上搜集的真实英文单词构成的词汇表;使用修正过的真实英文单词作为查询来验证翻译结果,利用搜索引擎得到的网页资源对修正后的音译候选进行重排序,对网页上以命名实体角色出现的词给予更高的评分,从而滤掉普通的英文单词。该方法能够克服统计模型在音译过程中丢失不发音音节和选择错误的相同发音音节等问题,有效地提高了音译的精确率。经过实验证明,在开放测试中,音译的精确率提高了17.55%。

Reverse Chinese English transliteration method and device

Method and apparatus of the present invention relates to a reverse Chinese English transliteration, translation will be Chinese transliteration of the name into Chinese Pinyin sequence, by means of statistics, module to generate, by modifying the candidate; module, real English correction candidate words, vocabulary words can borrow real English correction module collected from large-scale web page a; use the corrected real English word as a query to verify the translation results, using search engines to get web resources to re rank the candidate, revised, given a higher score on the page to named entity character words, in order to filter out common words English. The method can overcome the problem that the statistical model loses the pronunciation of the syllable and the choice of the same pronunciation syllable in the process of transliteration, thus effectively improving the accuracy of transliteration. Experiments have proved that the accuracy rate of transliteration increases by 17.55% in open test.

【技术实现步骤摘要】

本专利技术涉及自然语言处理
,是一种借助网络挖掘辅助汉英 反向音译的方法及装置。
技术介绍
命名实体包括人名、地名、机构名等七类。命名实体在人类语言中 传递着重要信息,它的识别和翻译是自然语言处理研究中的关键技术之 一。在多语言处理中,命名实体的识别和翻译结果直接影响到自然语言 的理解。音译是指在从源语言到目标语言的翻译过程中,保持了发音的 近似性。绝大多数的人名翻译采取音译,音译也是地名翻译和机构名翻 译的重要组成部分。因此,中文到英文的反向音译研究具有重要的理论 意义和实用价值。传统的音译一般采取统计的方法将作为训练语料的双语音译对按 照一定的方式切分和预处理,然后进行对齐,形成对齐概率。当翻译新 的音译名时,按照同样的方式进行切分和预处理,然后根据已得到的对 齐概率,搜索出一个基于此概率的最优翻译结果。对于汉英反向音译,主要面临两个困难, 一是在将英语音译成汉语 的过程中,不发音音节被损失掉了,所以在恢复的过程中,要将不发音音节补充出来是有难度的。例如,在将英文人名"Campbd"翻译为"坎贝 尔"的过程中,没有发音的音节"p"被省略了。 二是在统计音译模型中,音 节的选择根据发音来进行,而音节之间的限制因素不明显,从而容易出 现选择的偏置。例如,在英文中,音节"c"和音节"k"具有近似的发音规律, 在反向音译"克林顿/Clinton"时,容易出现音节选择的错误。
技术实现思路
本专利技术的目的是针对汉英反向音译存在的两大难点问题,将网络资源引入汉英反向音译的过程中,实现从中文音译名到对应英文音译名的 翻译,为此,提供一种借助网络挖掘辅助的汉英反向音译方法和装置。为达成所述目的,本专利技术第一方面,是提供一种汉英反向音译方法, 步骤如下步骤l:将待翻译的中文音译名转换成汉语拼音序列表示,借助统计 音译模块来生成音译候选;步骤2:通过修正模块将音译候选修正为真实的英文单词,修正模块 将借助从大规模的网页上搜集的真实英文单词构成的词汇表;步骤3:使用修正过的真实的英文单词作为查询来验证翻译结果,重 排序模块利用从搜索引擎得到的网页资源对修正后的音译候选进行重排 序,将网页上以命名实体角色出现的词给予更高的评分,从而滤掉普通 的英文单词。根据本专利技术的实施例,所述音译候选,是使用训练好的统计音译模 块将汉语拼音序列根据对齐概率进行翻译,得到英文字符序列,输出N 个最大概率的若干个英文字符序列作为音译候选。根据本专利技术的实施例,所述修正过程是将统计音译模块产生的音译 候选映射为与之最接近的真实英文单词。根据本专利技术的实施例,所述修正为与之最接近的真实英文单词,是将N个英文音译候选放入修正模块,借助一个从网页中收集的英文真实 词汇表,检索与每个音译候选最相似的K个真实英文单词。根据本专利技术的实施例,所述真实英文单词重排序,是将M个真实英文单词送入重排序模块,使用搜索引擎实时查询每个真实英文单词,得到搜索引擎返回的IO个网页片段。根据本专利技术的实施例,所述验证翻译结果,是利用网页片段中的上 下文验证该真实英文单词是否是一个英文命名实体,从而对M个音译候 选进行重排序,得分最高的真实英文单词将作为原中文音译名的英文翻 译结果。为达成所述目的,本专利技术第二方面提供一种汉英反向音译装置,解决技术问题的技术方案包括统计音译模块接收并训练汉语音译名的拼音序列,使用经训练得到的汉语拼音与英文音节的对齐概率进行翻译,并输出概率最高的若干个 英文字符序列作为音译候选;修正模块与统计音译模块连接,修正模块接收音译候选,将音译候 选在从大规模网页中搜集的真实词汇表中进行映射修正,输出与音译候 选最相近的若干真实单词;重排序模块与修正模块连接,重排序模块接收由音译候选修正得到 的真实单词并输入网页搜索引擎,根据命名实体出现的次数对修正候选 进行重排序,输出最优结果。根据本专利技术的实施例,所述修正模块还包括,用于将N个英文音译 候选借助从网页中的英文真实词汇表,检索与每个音译候选最相似的K 个真实英文单词。根据本专利技术的实施例,所述重排序模块还包括,使用搜索引擎实时 查询每个真实英文单词,用于得到搜索引擎返回的IO个网页片段。本专利技术的有益效果汉英反向音译是将某个已存在的英文音译名的汉语表示还原为英语表示的过程。本专利技术不同于传统的仅使用统计模型 进行汉英反向音译的方法,本专利技术的系统将统计模型和网络资源结合在 一起,加入了借助网络资源的修正模块和重排序模块,通过修正模块, 可以更好地解决统计音译模型的两个难点,即不发音音节补充,以及具 有相似发音特点的音节的选择问题。通过重排序模块,我们根据单词在 真实文本中以命名实体角色出现的频度来重排序修正后的音译候选,从 而有效地提高系统的精确率。先使用基于音节的统计音译模型生成若干 音译候选。对这些音译候选,将借助一个在大规模网页中搜集的真实词 汇表,使用信息检索的若干方法对音译候选进行修正,将统计模块产生 的候选映射到与之最接近的真实单词。最后,我们使用互联网实时查询这些修正后的单词,通过返回的网页片段(snippets)信息,验证单词是 否是命名实体,从而得到最后结果。本专利技术针对汉英反向音译存在的两 大难点入手,将网络资源引入汉英反向音译的过程中,本专利技术的方法能 够克服统计模块在音译过程中丢失不发音音节和选择错误的相同发音音 节等问题,通过实验证明,有效地提高了音译的精确率。经过实验证明, 在开放测试中,音译的精确率提高了 17.55%。附图说明图1是本专利技术中借助网络挖掘辅助的汉英反向音译流程图2是本专利技术中借助网络挖掘辅助的汉英反向音译装置结构图3精确率随音译名音节长度的变化示意图。具体实施例方式下面将结合附图说明和具体实施方式对本专利技术方法作进一步详 细描述,应指出的是,所描述的实施例仅旨在便于对本专利技术的理解, 而对其不起任何限定作用。为了解决汉英反向音译存在的两大难点问题,本专利技术是借助网络资 源,来验证统计音译模块1的结果或者直接从网页上抽取目标翻译。如图1本专利技术借助网络挖掘辅助的汉英反向音译流程图所示,本发 明使用借助网络挖掘的方法辅助汉英反向音译的前提是首先要能构造一 个有效的查询,其次是这个査询能够挖掘到汉英双语网页。而仅使用中 文音译名作为査询内容是无法达到这个效果的,因此我们需要借助统计 音译模块1来生成一些音译候选,使用这些候选作为线索辅助构造查询。 同时考虑到统计音译模块1生成的词不一定是一个真实的英文单词,这 也是无法构成有效查询的,因此我们需要先将统计音译模块1的结果修 正为一个真实的英文单词,然后才能进行检索。通过修正的过程,我们 可以尝试克服统计音译模块1存在的两个困难。修正过程将统计音译模 块1产生的结果映射为与之最接近的真实英文单词,这些英文单词将从 大规模的网页上搜集。然后我们就可以使用修正过的单词作为査询来验 证翻译结果,我们使用检索到的网页资源来对修正过的音译候选进行重 排序,将网页上以命名实体角色出现的词给予更高的评分,从而滤掉普 通的单词。本专利技术要求开发和运行的计算机具有Linux操作系统以及C十+和C 语言开发编译环境,具有正常的网络连接条件,对硬件没有特殊要求。如图2借助网络挖掘辅助的汉英反向音译装置的结构图所示,下面 对照附图2进行说明,图中由三部分构成统本文档来自技高网...

【技术保护点】
一种汉英反向音译方法,其特征在于,包括步骤如下: 步骤1:将待翻译的中文音译名转换成汉语拼音序列表示,借助统计音译模块来生成音译候选; 步骤2:通过修正模块将音译候选修正为真实的英文单词,修正模块将利用从大规模网页上搜集的真实英 文单词构成的词汇表; 步骤3:使用修正过的真实英文单词作为查询来验证翻译结果,重排序模块利用从搜索引擎得到的网页资源对修正后的音译候选进行重排序,将网页上以命名实体角色出现的词给予更高的评分,从而滤掉普通的英文单词。

【技术特征摘要】

【专利技术属性】
技术研发人员:赵军杨帆邹波
申请(专利权)人:中国科学院自动化研究所
类型:发明
国别省市:11[中国|北京]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1