人机交互翻译模型的更新方法及更新系统技术方案

技术编号:16038117 阅读:56 留言:0更新日期:2017-08-19 19:56
本发明专利技术涉及一种人机交互翻译模型的更新方法及更新系统,所述更新方法包括:接收根据源语言句子进行人工翻译得到的目标语言句子;分别对目标语言句子及所述源语言句子进行分词处理,获得目标语言词组及源语言词组;根据所述目标语言词组及源语言词组获得双语词对齐信息;从所述双语词对齐信息中抽取短语翻译知识;根据短语翻译知识,逐对更新源语言短语对应的翻译模型随机森林。本发明专利技术人机交互翻译模型的更新方法可实时将人工翻译句子中的翻译知识更新至人机交互翻译模型中,改善后续机器翻译译文质量。

【技术实现步骤摘要】
人机交互翻译模型的更新方法及更新系统
本专利技术涉及自然语言处理
,更具体地,涉及一种人机交互翻译模型的更新方法及更新系统。
技术介绍
机器翻译是用计算机来实现不同语言之间的转换。被翻译的语言通常称为源语言,翻译成的结果语言称为目标语言。机器翻译就是实现从源语言到目标语言转换的过程。近年来,统计机器翻译的研究发展迅速,翻译性能不断提高,在某些特定领域和环境下已经开始投入实际应用。但是,基于翻译记忆的计算机辅助翻译软件仍然独霸专业翻译市场,最多只是简单地把统计机器翻译结果加到辅助翻译软件界面提供参考。这是因为在特定领域中,如果待翻译文本与记忆库中的文本匹配程度很高时,翻译记忆实时更新且译文质量明显优于统计机器翻译的译文,而统计机器翻译一直重复相同错误。很多时候,专业译员甚至不想花费时间阅读自动译文。在这种情况下,统计机器翻译的作用极其有限。如图1所示,某些短语会被机器翻译错误地翻译,如果不及时纠正,在将来会重复出现相同的错误。如何避免机器翻译重复相同错误是统计机器翻译的一个重要问题,因而实时更新人机交互翻译模型是统计机器翻译的一项核心任务,它从用户反馈的人工翻译句子中发掘新的翻译本文档来自技高网...
人机交互翻译模型的更新方法及更新系统

【技术保护点】
一种人机交互翻译模型的更新方法,其特征在于,所述更新方法包括:接收根据源语言句子进行人工翻译得到的目标语言句子;分别对目标语言句子及所述源语言句子进行分词处理,获得目标语言词组及源语言词组;根据所述目标语言词组及源语言词组获得双语词对齐信息;从所述双语词对齐信息中抽取短语翻译知识;根据短语翻译知识,逐对更新源语言短语对应的翻译模型随机森林。

【技术特征摘要】
1.一种人机交互翻译模型的更新方法,其特征在于,所述更新方法包括:接收根据源语言句子进行人工翻译得到的目标语言句子;分别对目标语言句子及所述源语言句子进行分词处理,获得目标语言词组及源语言词组;根据所述目标语言词组及源语言词组获得双语词对齐信息;从所述双语词对齐信息中抽取短语翻译知识;根据短语翻译知识,逐对更新源语言短语对应的翻译模型随机森林。2.根据权利要求1所述的人机交互翻译模型的更新方法,其特征在于,所述抽取短语翻译知识的方法包括:在所述目标语言词组中,确定所有的对齐点;遍历所述目标语言词组中所有可能的目标语言短语,搜索分别与各所述目标语言短语中相匹配的源语言短语;找出对应的最短的源语言短语。3.根据权利要求1或2所述的人机交互翻译模型的更新方法,其特征在于,所述短语翻译知识包括短语翻译对及对应的上下文特征信息。4.根据权利要求3所述的人机交互翻译模型的更新方法,其特征在于,所述上下文特征信息包括:A、短语翻译对中,源语言短语之前的六个词;B、短语翻译对中,源语言短语之后的六个词;C、短语翻译对中,源语言短语第一个词;D、短语翻译对中,源语言短语最后一个词;E、短语翻译对中,目标语言短语第一个词;F、短语翻译对中,目标语言短语最后一个词;G、短语翻译对中,目标语言短语之前的一个词;H、短语翻译对中,目标语言短语之后的一个词;I、源短语与目标短语的正向和反向词汇化翻译概率;J、该短语翻译对是否被译后编辑采用;K、短语翻译对中,源语言短语和目标语言短语的长度。5.根据权利要求3所述的人机交互翻译模型的更新方法,其特征在于,所述逐对更新源语言短语对应的翻译模型随机森林的方法包括:步骤S51:根据所述短语翻译对中的源语言短语构建所述源语言短语对应的随机森林中的一棵决策树;步骤S52:根据所述决策树独立生成重复采样次数;步骤S53:判断所述重复采样次数是否为零,如果是则执行步骤S58;否则执行步骤S54;步骤S54:根据所述上下文特征信息找到需要更新的所述决策树的叶节点,结合所述重复采样次数,计算所述叶节点累计的样本数量和信息增益;步骤S55:判断所述样本数量是否超过最小样本数阈值,并且所述信息增益是否超过最大信息增益阈值;如果是则执行步骤S56,否则执行步骤S57;步骤S56:计算最佳划分,根据所述最佳划分将所述决策树叶节点扩展为中间节点,同时生成左、右孩子节点,以更新所述决策树的叶节;步骤S57:将所述短语翻译对及对应的上下文特征信息存入对应的所述决策树叶节...

【专利技术属性】
技术研发人员:张家俊黄国平周玉宗成庆
申请(专利权)人:中国科学院自动化研究所
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1