面向计算机辅助翻译的输入方法与装置制造方法及图纸

技术编号:11190636 阅读:64 留言:0更新日期:2015-03-25 19:18
本发明专利技术是一种面向计算机辅助翻译的输入方法,包括步骤S1:对源语言句子进行分词;步骤S2:获得分词后的源语言句子对应的机器翻译译文候选列表和最优机器翻译译义候选;获得多元文法提示短语;步骤S3:响应按键选择多元文法提示短语或者接收输入按键序列,获得输入法短语候选;步骤S4:响应用户按键选择多元文法提示短语或者输入法短语候选后,获得多元文法提示短语,重复步骤S3,直到用户完成录入源语言句子的译文。本发明专利技术还提供面向计算机辅助翻译的输入装置,该装置包括:分词模块、翻译模块、第一生成模块、第二生成模块、输入装置界面。本发明专利技术充分利用机器翻译知识,能使按键节省率至少上升11.04%,大幅提升人工翻译的效率。

【技术实现步骤摘要】
面向计算机辅助翻译的输入方法与装置
本专利技术涉及自然语言处理
,更具体地,涉及一种面向计算机辅助翻译的 输入方法与装置。
技术介绍
机器翻译就是用计算机来实现不同语言之间的转换。被翻译的语言通常称为源语 言,翻译成的结果语言称为目标语言。机器翻译就是实现从源语言到目标语言转换的过程。 计算机辅助翻译就是充分运用大量重复或相似的句子和片断来提高翻译人员的 工作效率。它不同于机器翻译,不依赖于计算机的自动翻译,而是在人的参与下完成整个翻 译过程。计算机辅助翻译使得繁重的手工翻译流程自动化,并大幅度提高了翻译效率和翻 译质量。 近几年来,许多研究者尝试通过机器翻译知识来进一步提高计算机辅助翻译的效 率。目前研究的热点是译后编辑,即对机器翻译系统的译文进行编辑操作以生成高质量的 译文。但由于目前的机器翻译难以产生让人相对满意的译文,直接导致译员没有动力仔细 修改机器翻译的译文,所以译后编辑并未被广泛采用。另外,有学者曾提出基于交互式机器 翻译方法的辅助翻译(例如参见 Sergio Barrachinaetc. ,Statistical Approaches to Computer-Assisted Translation,',Computational Linguistics, 35 (I), p3_28, 2009),以 牺牲全自动的翻译要求而获取较高质量译文的一种翻译方法,基本思想就是在当前翻译系 统翻译结果上,用户指出一些错误并提供正确翻译,然后提交给翻译系统重新解码翻译,迭 代多次后满足用户要求为止。但交互式翻译方法严重干扰了人工翻译流程,并且同样耗时 费力,因此这类系统主要应用在用户对目标语言的知识有限或者对目标语言知之甚少的情 况下。而计算机辅助翻译的主要用户是专业译员,所以交互式翻译方法几乎从未被商业翻 译系统采用。Guy Lapalme和Philippe Langlais于1997-2005年间基于交互式翻译框架 实现了 TransType翻译系统,在用户输入过程中实时给出后续翻译的提示。但这要求译员 必须从左至右开始翻译,机器翻译根据已经输入的部分更新翻译结果以给出尽可能准确的 提示。升级后的TransTypd实现了三种语言对的翻译,即英语一西班牙语、英语一法语、英 语一德语,但因难于结合人工翻译的流程,TransTypd这种交互方式并没有被其他系统采 用。因此,研究如何结合机器翻译知识以进一步提高翻译效率和翻译质量是迫切需要解决 的一个难题。
技术实现思路
针对上述技术问题,本专利技术的主要目的在于提出一种面向计算机辅助翻译的输入 方法与装置,以在输入过程中能够充分利用机器翻译知识来提高翻译效率和翻译质量。 为了实现所述目的,作为本专利技术的一个方面,本专利技术提供了一种面向计算机辅助 翻译的输入方法,包括如下步骤: 步骤Sl :对源语言句子进行分词; 步骤S2 :利用机器翻译引擎,得到分词后的所述源语言句子对应的机器翻译译文 候选列表,并将其中打分最高的机器翻译译文候选作为最优机器翻译译文输出到输入装置 界面;利用所述最优机器翻译译文的前N个词生成N个多元文法提示短语,并输出到输入装 置界面,等待用户按键选择; 步骤S3 :对用户按键选择的多元文法提示短语进行响应,或者接收用户的输入按 键序列;利用对数线性模型,对所述机器翻译译文候选列表和输入按键序列计算,生成M个 输入法短语候选并输出到输入装置界面,等待用户按键选择; 步骤S4 :对用户按键选择的所述输入法短语候选进行响应,或者接收用户的输入 按键序列,判断用户是否已经完成录入源语言句子的译文,如果是则结束,如果否则利用已 录入译文部分和所述机器翻译译文候选列表生成N个多元文法提示短语,输出到输入装置 界面,等待用户按键选择,并跳转到步骤S3 ; 其中,N、M为正整数。 其中,所述多元文法提示短语包括:第一个提示短语为一元文法,只包含一个词; 第二个提示短语为二元文法,包含两个词,所述两个词含有第一个提示短语的词和第二个 提示词,且第一个提示短语的词是第二个提示短语的前缀;以此类推,第N-I个提示短语的 所有词是第N个提示短语的前缀,第N个提示短语为N元文法包含N个词,其中N为预先设 定的大于零的正整数,缺省值为4。 在步骤S3中还包括下列步骤: 步骤S31 :对输入按键序列进行分字,得到分字后的输入按键序列;所述分字后的 输入按键序列由分字符隔开的编码单元组成,每个编码单元是对应字的文字输入法编码的 全部或者文字输入法编码的前缀; 步骤S32 :将输入法短语候选列表初始化为空,对所述分字后的输入按键序列中 每一个编码单元依次进行如下计算: 根据文字输入法编码规则,对所述编码单元计算得到目标字候选集合; 利用解码算法对所述目标字候选集合、输入法短语候选列表和机器翻译译文候选 列表计算,得到新的输入法短语候选列表; 利用对数线性模型对所述新的输入法短语候选列表中的每一个输入法短语候选 进行打分并按降序排列;如果所述新的输入法短语候选列表的长度超过设定的阈值M时, 仅保留前M个打分最高的输入法短语候选;每个输入法短语候选包含的目标字候选的数目 等于已解码的编码单元数目,每个输入法短语候选包含的目标字有效候选的顺序与已解码 的编码单元顺序一致; 用所述新的输入法短语候选列表替代所述输入法短语候选列表。 其中,所述对数线性模型使用的特征包括: (1)打字模型概率; (2)语言模型概率; (3)输入法短语候选中的词的出现概率; (4)输入法短语候选出现概率; (5)输入法短语候选中的词是否在机器翻译译文候选中的二值特征; (6)输入法短语候选是否在机器翻译译文候选中的二值特征; (7)输入法短语候选是否在用户术语库中的二值特征。 步骤S33 :完成所述分字后的输入按键序列中所有编码单元的计算之后,所述输 入法短语候选列表的长度为M,并按打分降序排列,其中M为预先设定的大于零的正整数, 缺省值为5。 在步骤S4中还包括下列步骤: 步骤S41 :响应用户按键选择多元文法提示短语或者输入法短语候选后,对已录 入译文部分进行分词得到分词后的已录入译文部分; 步骤S42 :如果所述最优机器翻译译文包含分词后的已录入译文部分的最后一个 词,则利用最大前缀匹配算法,对最优机器翻译译文候选和分词后的已录入译文部分计算, 生成N个多元文法提示短语; 步骤S43 :如果所述最优机器翻译译文不包含分词后的已录入译文部分的最后一 个词,则在机器翻译译文候选列表中选择所有包含分词后的已录入译文部分的最后一个词 的机器翻译译文候选,得到次优机器翻译译文候选列表,并将其中打分最高的机器翻译译 文候选作为次优机器翻译译文;利用前缀匹配算法,对次优机器翻译译文候选和分词后的 已录入译文部分计算,生成N个多元文法提示短语。 作为本专利技术的另一个方面,本专利技术还提出了一种面向计算机辅助翻译的输入装 置,该装置包括:分词模块、翻译模块、第一生成模块、第二生成模块、输入装置界面,其中: 分词模块,用于将源语言句子和已录入译本文档来自技高网
...
面向计算机辅助翻译的输入方法与装置

【技术保护点】
一种面向计算机辅助翻译的输入方法,包括以下步骤:步骤S1:对源语言句子进行分词;步骤S2:利用机器翻译引擎,得到分词后的所述源语言句子对应的机器翻译译文候选列表,并将其中打分最高的机器翻译译文候选作为最优机器翻译译文输出到输入装置界面;利用所述最优机器翻译译文的前N个词生成N个多元文法提示短语,并输出到输入装置界面,等待用户按键选择;步骤S3:对用户按键选择的多元文法提示短语进行响应,或者接收用户的输入按键序列;利用对数线性模型,对所述机器翻译译文候选列表和输入按键序列计算,生成M个输入法短语候选并输出到输入装置界面,等待用户按键选择;步骤S4:对用户按键选择的所述输入法短语候选进行响应,或者接收用户的输入按键序列,判断用户是否已经完成录入源语言句子的译文,如果是则结束,如果否则利用已录入译文部分和所述机器翻译译文候选列表生成N个多元文法提示短语,输出到输入装置界面,等待用户按键选择,并跳转到步骤S3;其中,N、M为正整数。

【技术特征摘要】
1. 一种面向计算机辅助翻译的输入方法,包括w下步骤: 步骤S1 ;对源语言句子进行分词; 步骤S2 ;利用机器翻译引擎,得到分词后的所述源语言句子对应的机器翻译译文候选 列表,并将其中打分最高的机器翻译译文候选作为最优机器翻译译文输出到输入装置界 面;利用所述最优机器翻译译文的前N个词生成N个多元文法提示短语,并输出到输入装置 界面,等待用户按键选择; 步骤S3 ;对用户按键选择的多元文法提示短语进行响应,或者接收用户的输入按键序 列;利用对数线性模型,对所述机器翻译译文候选列表和输入按键序列计算,生成M个输入 法短语候选并输出到输入装置界面,等待用户按键选择; 步骤S4 ;对用户按键选择的所述输入法短语候选进行响应,或者接收用户的输入按键 序列,判断用户是否已经完成录入源语言句子的译文,如果是则结束,如果否则利用已录入 译文部分和所述机器翻译译文候选列表生成N个多元文法提示短语,输出到输入装置界 面,等待用户按键选择,并跳转到步骤S3 ; 其中,N、M为正整数。2. 根据权利要求1所述的面向计算机辅助翻译的输入方法,其特征在于,所述N个多元 文法提示短语是连续多个词组成的提示短语,所述提示短语包括:第一个提示短语为一元 文法,只包含一个词;第二个提示短语为二元文法,包含两个词,所述两个词含有第一个提 示短语的词和第二个提示词,且第一个提示短语的词是第二个提示短语的前缀;W此类推, 第N-1个提示短语的所有词是第N个提示短语的前缀,第N个提示短语为N元文法包含N 个词,其中N为预先设定的大于零的正整数。3. 根据权利要求1所述的面向计算机辅助翻译的输入方法,其特征在于,所述利用对 数线性模型,对机器翻译译文候选列表和输入按键序列计算,生成M个输入法短语候选,包 括W下步骤: 步骤S31 ;对输入按键序列进行分字,得到分字后的输入按键序列;所述分字后的输入 按键序列由分字符隔开的编码单元组成,每个编码单元是对应字的文字输入法编码的全部 或者文字输入法编码的前缀; 步骤S32 ;将输入法短语候选列表初始化为空,对所述分字后的输入按键序列中每一 个编码单元依次进行如下计算: 根据文字输入法编码规则,对所述编码单元计算得到目标字候选集合; 利用解码算法对所述目标字候选集合、输入法短语候选列表和机器翻译译文候选列表 计算,得到新的输入法短语候选列表; 利用对数线性模型对所述新的输入法短语候选列表中的每一个输入法短语候选进行 打分并按降序排列;如果所述新的输入法短语候选列表的长度超过设定的阔值M时,仅保 留前M个打分最高的输入法短语候选;每个输入法短语候选包含的目标字候选的数目等于 已解码的编码单元数目,每个输入法短语候选包含的目标字有效候选的顺序与已解码的编 码单元顺序一致; 用所述新的输入法短语候选列表替代所述输入法短语候选列表; 步骤S33;完成所述分字后的输入按键序列中所有编码单元的计算之后,所述输入法 短语候选列表的长度为M,并按打分降序排列,其中M为预先设定的大于零的正整数。4. 根据权利要求3所述的面向计算机辅助翻译的输入方法,其特征在于,所述对数线 性模型使用的特征包括: (1) 打字模型概率; ...

【专利技术属性】
技术研发人员:宗成庆黄国平
申请(专利权)人:中国科学院自动化研究所
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1