一种个性化的机器翻译系统、方法及训练翻译模型的方法技术方案

技术编号:7996292 阅读:218 留言:0更新日期:2012-11-22 05:07
本发明专利技术提供了一种个性化的机器翻译系统、方法及训练翻译模型的方法,所述系统包括:第一输入模块;第一训练模块;通用翻译模型,用于描述无用户翻译偏好的源语言句子到目标语言句子的翻译概率;第二输入模块;第二训练模块;用户翻译模型,用于描述有用户翻译偏好的源语言句子到目标语言句子的翻译概率;用户识别模块;第三输入模块;翻译模块,用于使用所述通用翻译模型和所述匹配的用户翻译模型对所述待翻译信息进行翻译,以得到翻译结果。上述机器翻译系统,可以很好地针对不同用户输入的相同信息,给出符合用户翻译偏好的翻译结果。

【技术实现步骤摘要】

本专利技术涉及机器翻译领域,特别涉及。
技术介绍
机器翻译系统可划分为基于规则(Rule-Based)和基于语料库(Corpus-Based)两大类。前者由人工整理的词典和规则库构成知识源,后者由语料库构成知识源,既不需要词典也不需要规则,以统计规律为主。在基于语料库的机器翻译中,又主要分为基于实例的机器翻译与基于统计的机器翻译,其中基于统计的机器翻译以其优异的性能已经成为机器翻译领域的研究热点。 基于统计的机器翻译方法把机器翻译看成是一个信息传输的过程,用一种信道模型对机器翻译进行解释。这种思想认为,源语言句子到目标语言句子的翻译是一个概率问题,任何一个目标语言句子都有可能是任何一个源语言句子的译文,只是概率不同,机器翻译的任务就是找到概率最大的句子。具体方法是将翻译看作对原文通过模型转换为译文的解码过程。因此统计机器翻译又可以分为以下几个问题模型问题、训练问题、解码问题。所谓模型问题,就是为机器翻译建立概率模型,也就是要定义源语言句子到目标语言句子的翻译概率的计算方法。而训练问题,是要利用语料库来得到这个模型的所有参数。所谓解码问题,则是在已知模型和参数的基础上,对于任何一个输入的源语言句子,去查找概率最大的译文。但是现有的基于统计的机器翻译系统,均不考虑用户的个人需求,也就是说,无论任何人使用这个系统,只要输入的句子相同,就会得到相同的翻译结果。请参见图1,图I为在现有技术的机器翻译系统下,不同用户进行翻译时的示意图。从图I可以看出,对相同的待翻译信息,系统针对不同用户的翻译结果都是相同的,这是因为现有技术的机器翻译系统中使用的翻译模型是相同的,模型的训练过程中使用的语料,不能体现出不同用户的不同偏好,因此训练好的翻译模型,也就不能反映用户的个人需求,从而导致整个机器翻译系统不能实现针对不同的用户输入的句子,生成符合该用户偏好的翻译结果这样的功能。以下面的句子为例“nearly 500people dead in floods”,假如有的用户希望得到比较口语化的翻译结果“将近500人被洪水淹死了”,而另外一些用户希望得到比较书面化的翻译结果“洪水造成近500人丧生”,在现有的翻译系统下,是无法实现的。
技术实现思路
本专利技术所要解决的技术问题是提供一种个性化的机器翻译系统,以解决现有机器翻译系统不能针对不同用户输入的相同待翻译信息,给出符合用户翻译偏好的翻译结果的缺陷。本专利技术为解决技术问题而采用的技术方案是提供一种个性化的机器翻译系统,包括第一输入模块,用于从所述系统外部获取第一双语语料,其中所述第一双语语料为大规模双语语料,所述双语语料包括由具有互译关系的源语言句子和目标语言句子组成的双语句对;第一训练模块,用于根据所述第一双语语料,训练通用翻译模型;所述通用翻译模型,用于描述无用户翻译偏好的源语言句子到目标语言句子的翻译概率;第二输入模块,用于从所述系统外部获取第二双语语料,所述第二双语语料为用户提交的双语语料;第二训练模块,用于根据所述第二双语语料,训练用户翻译模型;所述用户翻译模型,用于描述有用户翻译偏好的源语言句子到目标语言句子的翻译概率;用户识别模块,用于获取当前用户信息,并根据所述当前用户信息获取所述当前用户和所述用户翻译模型之间的关联关系,并通过所述关联关系选择与所述当前用户匹配的用户翻译模型;第三输入模块,用于从所述系统外部获取所述当前用户输入的待翻译信息;翻译模块,用于使用所述通用翻译模型和所述匹配的用户翻译模型对所述待翻译信息进行翻译,以得到翻译结果。根据本专利技术之一优选实施例,所述第一训练模块进一步包括第一短语抽取单元,用于从所述第一双语语料中抽取具有互译关系的短语对,所述短语对包括源语言短语及目标语言短语;第一计算单元,用于计算所述短语对的特征值;第一添加单元,用于将所述短语对及所述短语对的特征值添加进所述通用翻译模型。 根据本专利技术之一优选实施例,如果所述第一双语语料中的双语句对没有词对齐信息,所述第一短语抽取单元进一步包括第一词对齐单元,用于在抽取所述短语对前对所述双语句对进行词对齐。根据本专利技术之一优选实施例,所述第一计算单元进一步包括统计单元,用于统计所述短语对的相关频次,所述相关频次包括所述源语言短语与所述目标语言短语在所述第一双语语料中分别出现的次数及互译出现的次数。根据本专利技术之一优选实施例,所述第二训练模块进一步包括第二短语抽取单元,用于从所述第二双语语料中抽取具有互译关系的短语对,所述短语对包括源语言短语及目标语言短语;第二计算单元,用于计算所述短语对的相关频次及特征值,所述相关频次包括所述源语言短语与所述目标语言短语在所述第二双语语料中分别出现的次数及互译出现的次数;第二添加单元,用于将所述短语对及所述短语对的相关频次及所述短语对的特征值添加进所述用户翻译模型。根据本专利技术之一优选实施例,如果所述第二双语语料中的双语句对没有词对齐信息,所述第二短语抽取单元进一步包括第二词对齐单元,用于在抽取所述短语对前对所述双语句对进行词对齐。根据本专利技术之一优选实施例,所述用户识别模块进一步包括注册单元,用于获取用户提交的注册信息并在所述系统中保存为用户信息;登录单元,用于获取当前用户提交的登录信息,并将所述登录信息与所述系统中保存的用户信息进行匹配验证,以得到当前用户信息;选择单元,用于根据所述当前用户信息确定所述当前用户和所述用户翻译模型之间的关联关系,并根据所述关联关系选择与所述当前用户匹配的用户翻译模型。根据本专利技术之一优选实施例,所述翻译模块进一步包括预处理单元,用于从所述待翻译信息中抽取出可以作为独立翻译单元的源语言短语;查找单元,用于根据预置策略,在所述通用翻译模型和所述匹配的用户翻译模型中查找与所述源语言短语匹配的多个翻译候选;译文生成单元,用于根据所述翻译候选的特征值计算译文的得分,并选择得分最高的译文为所述待翻译信息的翻译结果。根据本专利技术之一优选实施例,所述预置策略至少包括以下一种A.首先从所述通用翻译模型查找所述翻译候选,如果没有找到再从所述匹配的用户翻译模型查找所述翻译候选首先从所述匹配的用户翻译模型查找所述翻译候选,如果没有找到再从所述通用翻译模型查找所述翻译候选;C.同时在所述通用翻译模型和所述匹配的用户翻译模型中查找所述翻译候选,然后再以预置的权重调整包含相同短语对的翻译候选的特征值;D.同时在所述通用翻译模型和所述匹配的用户翻译模型中查找所述翻译候选,然后把包含相同短语对的翻译候选在所述两个翻译模型中的特征值都作为单独的特征值。根据本专利技术之一优选实施例,如果所述通用翻译模型与所述匹配的用户翻译模型中都保留了源语言短语及目标语言短语的频次信息,所述预置策略进一步包括同时在所述通用翻译模型和所述匹配的用户翻译模型中查找所述翻译候选,然后将包含相同短语对的翻译候选在所述两个翻译模型中的频次累加后计算特征值。根据本专利技术之一优选实施例,所述系统进一步包括用户配置模块,用于获取所述当前用户对系统配置的选择,并根据所述选择建立所述当前用户与所述用户翻译模型之间·的关联关系。根据本专利技术之一优选实施例,所述系统进一步包括用户反馈模块,用于获取所述当前用户对所述翻译结果的修改,并根据所述修改对所述匹配的用户翻译模型进行调整。根据本专利技术之一优选实施例,所述系统进本文档来自技高网
...

【技术保护点】
一种个性化的机器翻译系统,其特征在于,所述系统包括:第一输入模块,用于从所述系统外部获取第一双语语料,其中所述第一双语语料为大规模双语语料,所述双语语料包括由具有互译关系的源语言句子和目标语言句子组成的双语句对;第一训练模块,用于根据所述第一双语语料,训练通用翻译模型;所述通用翻译模型,用于描述无用户翻译偏好的源语言句子到目标语言句子的翻译概率;第二输入模块,用于从所述系统外部获取第二双语语料,所述第二双语语料为用户提交的双语语料;第二训练模块,用于根据所述第二双语语料,训练用户翻译模型;所述用户翻译模型,用于描述有用户翻译偏好的源语言句子到目标语言句子的翻译概率;用户识别模块,用于获取当前用户信息,并根据所述当前用户信息获取所述当前用户和所述用户翻译模型之间的关联关系,并通过所述关联关系选择与所述当前用户匹配的用户翻译模型;第三输入模块,用于从所述系统外部获取所述当前用户输入的待翻译信息;翻译模块,用于使用所述通用翻译模型和所述匹配的用户翻译模型对所述待翻译信息进行翻译,以得到翻译结果。

【技术特征摘要】

【专利技术属性】
技术研发人员:胡晓光吴华
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1