辅助翻译输入方法和辅助翻译输入设备技术

技术编号:15878431 阅读:50 留言:0更新日期:2017-07-25 16:24
公开了一种辅助翻译输入方法和辅助翻译输入设备。该辅助翻译输入方法包括:输入由第一语言的一个或多个词的拼音表示构成的拼音串;将拼音串转换成以第一语言表示的第一语言文字串;利用从第一语言的拼音表示到第二语言的文字串的统计机器翻译模型,以词为单位对拼音串和第一语言文字串两者进行处理,得到翻译后的以第二语言表示的第二语言文字串,统计机器翻译模型包括从第一语言的拼音表示到第二语言的文字串的多条翻译规则、基于第一语言的第一语言模型以及基于第二语言的第二语言模型,多条翻译规则至少包括从第一语言的拼音表示到第一语言的文字串的转换及其转换概率。根据本公开的实施例,能够进行容错的翻译。

Auxiliary translation input method and auxiliary translation input device

An auxiliary translation input method and an auxiliary translation input device are disclosed. Including the auxiliary translation input method: input is represented by one or more words of the first language pinyin form Pinyin string; will Pinyin string into the first language in the first language string; using statistical model Machine Translation from the first language to the second language phonetic alphabet text string, with the word as the unit of the Pinyin string and first language on both processing, obtained after translation in second languages in second languages on the statistical model, Machine Translation includes a plurality of translation rules, from the first language to the second language phonetic alphabet text string based on the first language model of first language and second language model based on the second language, many the translation rules include at least from the first language to convert Pinyin said first language character string and conversion probability. According to an embodiment of the present disclosure, a fault tolerant translation can be performed.

【技术实现步骤摘要】
辅助翻译输入方法和辅助翻译输入设备
本公开涉及自然语言处理领域,具体地涉及输入法和机器翻译,更具体地,涉及一种能够进行容错的翻译的辅助翻译输入方法和辅助翻译输入设备。
技术介绍
辅助翻译输入法融合了常规输入法及翻译引擎,可以实时地将用户的输入翻译成目标语言,避免了用户离开当前工作环境去查找其他资源的操作,可以提高工作效率和用户体验。图1是示出辅助翻译输入法的示例的图。现有的辅助翻译输入法结构大多如图1所示,以汉语->英语输入法为例,用户首先输入拼音,然后选择汉语文字,选定汉语文字后翻译引擎返回英文译文。这种结构所带来的问题是,如果用户输入的字串比较长,或者输入的是不太常见的词汇,那么用户需要不断调整中文字符,直到所有中文字符正确了才可以得到正确的译文,但是这个调整过程往往很繁琐,需要用户进行很多回退的操作。图2是示出辅助翻译输入法中需要调整的输入示例的图。如图2所示,用户需要将“周莫”修改成“周末”,否则译文将会出错。从图2中我们可以看到,用户需要调整的只是汉字候选,拼音串是没有变化的,如果我们可以直接从拼音串得到译文,那么用户就不需要繁琐的修改了,即使汉字部分是错误的,也可以获得正确的译文。
技术实现思路
在下文中给出了关于本公开的简要概述,以便提供关于本公开的某些方面的基本理解。但是,应当理解,这个概述并不是关于本公开的穷举性概述。它并不是意图用来确定本公开的关键性部分或重要部分,也不是意图用来限定本公开的范围。其目的仅仅是以简化的形式给出关于本公开的某些概念,以此作为稍后给出的更详细描述的前序。鉴于以上问题,本公开的目的是提供一种能够进行容错的翻译的辅助翻译输入方法和辅助翻译输入设备。根据本公开的一方面,提供了一种辅助翻译输入方法,包括:输入步骤,可以输入由第一语言的一个或多个词的拼音表示构成的拼音串;转换步骤,可以将拼音串转换成以第一语言表示的第一语言文字串;以及第一翻译步骤,可以利用从第一语言的拼音表示到第二语言的文字串的统计机器翻译模型,以词为单位对拼音串和第一语言文字串两者进行处理,得到翻译后的以第二语言表示的第二语言文字串,其中,统计机器翻译模型包括从第一语言的拼音表示到第二语言的文字串的多条翻译规则、基于第一语言的第一语言模型以及基于第二语言的第二语言模型,所述多条翻译规则至少包括从第一语言的拼音表示到第一语言的文字串的转换及其转换概率。根据本公开的另一方面,还提供了一种辅助翻译输入设备,包括:输入单元,可以被配置成输入由第一语言的一个或多个词的拼音表示构成的拼音串;转换单元,可以被配置成将拼音串转换成以第一语言表示的第一语言文字串;以及第一翻译单元,可以被配置成利用从第一语言的拼音表示到第二语言的文字串的统计机器翻译模型,以词为单位对拼音串和第一语言文字串两者进行处理,得到翻译后的以第二语言表示的第二语言文字串,其中,统计机器翻译模型包括从第一语言的拼音表示到第二语言的文字串的多条翻译规则、基于第一语言的第一语言模型以及基于第二语言的第二语言模型,所述多条翻译规则至少包括从第一语言的拼音表示到第一语言的文字串的转换及其转换概率。根据本公开的其它方面,还提供了用于实现上述根据本公开的方法的计算机程序代码和计算机程序产品以及其上记录有该用于实现上述根据本公开的方法的计算机程序代码的计算机可读存储介质。在下面的说明书部分中给出本公开实施例的其它方面,其中,详细说明用于充分地公开本公开实施例的优选实施例,而不对其施加限定。附图说明本公开可以通过参考下文中结合附图所给出的详细描述而得到更好的理解,其中在所有附图中使用了相同或相似的附图标记来表示相同或者相似的部件。所述附图连同下面的详细说明一起包含在本说明书中并形成说明书的一部分,用来进一步举例说明本公开的优选实施例和解释本公开的原理和优点。其中:图1是示出辅助翻译输入法的示例的图;图2是示出辅助翻译输入法中需要调整的输入示例的图;图3是示出根据本公开的实施例的辅助翻译输入方法的流程示例的流程图;图4是示出拼音串转换成汉字文字串的过程示例的图;图5是示出现有技术中统计机器翻译模型的训练过程示例的图;图6是示出根据本公开的实施例的统计机器翻译模型的训练过程示例的图;图7是示出根据本公开的实施例的辅助翻译输入设备的功能配置示例的框图;以及图8是示出作为本公开的实施例中可采用的信息处理设备的个人计算机的示例结构的框图。具体实施方式在下文中将结合附图对本公开的示范性实施例进行描述。为了清楚和简明起见,在说明书中并未描述实际实施方式的所有特征。然而,应该了解,在开发任何这种实际实施例的过程中必须做出很多特定于实施方式的决定,以便实现开发人员的具体目标,例如,符合与系统及业务相关的那些限制条件,并且这些限制条件可能会随着实施方式的不同而有所改变。此外,还应该了解,虽然开发工作有可能是非常复杂和费时的,但对得益于本公开内容的本领域技术人员来说,这种开发工作仅仅是例行的任务。在此,还需要说明的一点是,为了避免因不必要的细节而模糊了本公开,在附图中仅仅示出了与根据本公开的方案密切相关的设备结构和/或处理步骤,而省略了与本公开关系不大的其它细节。下面结合附图详细说明根据本公开的实施例。首先,将参照图3描述根据本公开的实施例的辅助翻译输入方法的流程示例。图3是示出根据本公开的实施例的辅助翻译输入方法的流程示例的流程图。如图3所示,根据本公开的实施例的辅助翻译输入方法可包括输入步骤S302、转换步骤S304以及第一翻译步骤S306。以下将分别详细描述各个步骤中的处理。首先,在输入步骤S302中,可以输入由第一语言的一个或多个词的拼音表示构成的拼音串。优选地,第一语言可以是中文。即,在输入步骤S302中,可以输入由汉语的一个或多个词的拼音构成的拼音串。在转换步骤S304中,可以将拼音串转换成以第一语言表示的第一语言文字串。在该步骤中,可以将用户输入的拼音串转换成汉字串。具体地,首先可以使用拼音->汉字的映射表将拼音串中所有的汉字候选找出来,比如:a->啊阿锕腌;不同的候选构成不同的汉字串。图4是示出拼音串转换成汉字文字串的过程示例的图。如图4所示,圆圈代表汉字候选,箭头代表汉字串的上下文关系,这样可以得到很多汉字串候选,然后使用语言模型对每个箭头打分,最后使用维特比算法找到前N条路径作为N个汉字串候选。其中,每个汉字串的分数计算方式如下:在公式(1)中,score(ngrami)是第i个ngram字符串的语言模型得分。然后,可以在N个汉字串候选中选择得分最高的候选作为所转换的汉字串。在第一翻译步骤S306中,可以利用从第一语言的拼音表示到第二语言的文字串的统计机器翻译模型,以词为单位对拼音串和第一语言文字串两者进行处理,得到翻译后的以第二语言表示的第二语言文字串,其中,统计机器翻译模型可以包括从第一语言的拼音表示到第二语言的文字串的多条翻译规则、基于第一语言的第一语言模型以及基于第二语言的第二语言模型,多条翻译规则至少包括从第一语言的拼音表示到第一语言的文字串的转换及其转换概率。优选地,第二语言可以是英语。在现有技术中,翻译服务可以设置为本地的翻译服务,例如本地的翻译词典,也可以是调用在线的翻译服务。统计机器翻译(SMT)模型已经广本文档来自技高网...
辅助翻译输入方法和辅助翻译输入设备

【技术保护点】
一种辅助翻译输入方法,包括:输入步骤,输入由第一语言的一个或多个词的拼音表示构成的拼音串;转换步骤,将所述拼音串转换成以所述第一语言表示的第一语言文字串;以及第一翻译步骤,利用从第一语言的拼音表示到第二语言的文字串的统计机器翻译模型,以词为单位对所述拼音串和所述第一语言文字串两者进行处理,得到翻译后的以所述第二语言表示的第二语言文字串,其中,所述统计机器翻译模型包括从所述第一语言的拼音表示到所述第二语言的文字串的多条翻译规则、基于所述第一语言的第一语言模型以及基于所述第二语言的第二语言模型,所述多条翻译规则至少包括从所述第一语言的拼音表示到所述第一语言的文字串的转换及其转换概率。

【技术特征摘要】
1.一种辅助翻译输入方法,包括:输入步骤,输入由第一语言的一个或多个词的拼音表示构成的拼音串;转换步骤,将所述拼音串转换成以所述第一语言表示的第一语言文字串;以及第一翻译步骤,利用从第一语言的拼音表示到第二语言的文字串的统计机器翻译模型,以词为单位对所述拼音串和所述第一语言文字串两者进行处理,得到翻译后的以所述第二语言表示的第二语言文字串,其中,所述统计机器翻译模型包括从所述第一语言的拼音表示到所述第二语言的文字串的多条翻译规则、基于所述第一语言的第一语言模型以及基于所述第二语言的第二语言模型,所述多条翻译规则至少包括从所述第一语言的拼音表示到所述第一语言的文字串的转换及其转换概率。2.根据权利要求1所述的辅助翻译输入方法,其中,所述第一翻译步骤包括以下子步骤:生成候选翻译路径子步骤,通过与所述统计机器翻译模型中的规则进行匹配,生成所述拼音串的多个候选翻译路径;筛选子步骤,当所述多个候选翻译路径当中的一个候选翻译路径中包括的第一语言文字串的一部分基于所述第一语言模型而算出的组合概率低于预定阈值时,丢弃该候选翻译路径;以及选择子步骤,从经筛选的候选翻译路径当中选择得分最高的翻译路径来进行翻译,从而得到所述第二语言文字串,其中所述翻译路径的得分至少基于从所述第一语言的拼音表示到所述第一语言的文字串的转换概率来计算。3.根据权利要求1所述的辅助翻译输入方法,其中,所述多条翻译规则还包括从所述第一语言的拼音表示到所述第二语言的文字串的翻译、从所述第一语言的拼音表示到所述第二语言的文字串的规则翻译概率和词汇翻译概率、以及从所述第二语言的文字串到所述第一语言的拼音表示的规则翻译概率和词汇翻译概率。4.根据权利要求1所述的辅助翻译输入方法,还包括用于将所述第一语言文字串翻译为另一第二语言文字串的第二翻译步骤,其中所述另一第二语言文字串与所述第二语言文字串相同或不同。5.根据权利要求4所述的辅助翻译输入方法,其中,所述第二翻译步骤包括如下子步骤:生成候选翻译路径子步骤,通过针对所述拼音串而与所述统计机器翻译模型中的规则进行匹配、并且使得所匹配的规则中包括的从所述第一语言的拼音表示到所述第一语言的文字串的转换中的文...

【专利技术属性】
技术研发人员:郑仲光孟遥孙俊
申请(专利权)人:富士通株式会社
类型:发明
国别省市:日本,JP

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1