当前位置: 首页 > 专利查询>清华大学专利>正文

译文检索方法及装置制造方法及图纸

技术编号:8413172 阅读:200 留言:0更新日期:2013-03-14 02:10
一种译文检索方法及装置,属于文本信息处理领域,所述方法包括:构建模型参数可设置的统计机器翻译系统及装置;同时构建参数可设置的文本检索系统与装置;使用最佳的参数组合,结合翻译和检索系统及装置,构建基于机器翻译的译文检索系统与装置;对输入的特定源语言句子,可以检索到其对应的目标语言译文实例,或者最佳的译文片段,为用户提供高质量的翻译实例,帮助用户进行翻译工作。所述装置包括:机器翻译模块、检索模块、查询扩展模块、信息呈现模块。本发明专利技术结合机器翻译技术与信息检索技术,创新性的在非平行语料库上构建翻译检索系统,有效提高了译文检索的准确度,为用户提供良好的使用体验,具有良好的实用性。

【技术实现步骤摘要】

本专利技术涉及文本信息处理
,特别涉及一种译文检索方法及装置
技术介绍
随着国际交流的日益深入,人们的语言翻译需求日益增长。互联网作为当今最为便捷的获取信息平台,用户对在线翻译需求日益迫切。如何为用户提供高质量的翻译服务成为一个难题。互联网中存在的语言种类多,各语言又具有大量的多义性,语言又处于时时刻刻的变化之中,这就对翻译服务提出更高的要求。当前在线翻译服务主要为机器翻译服务,公认的最好的在线翻译系统为Google在线翻译,但即使Google在线翻译,也不能达到较好的使用体验。主要问题是第一、翻译出的文本的自然度无法与人工翻译相比;第二、所翻译的文本不正确,翻译结果为多种可能候选中的一个,从而存在未给出正确结果的问题。而在没有Google的资源和计算能力的情况下,用户翻译体验会更差。 在这样的背景下,本专利技术提出了一种新的解决思路,S卩利用检索技术,在目标语言端,将用户想要翻译的源语言句子所对应的译文实例或者有用的译文片段检索出来,提供给用户,让用户自行选择有用句子或者片段,以帮助用户翻译出满意的句子。与此类似的有些翻译帮助工具构建于平行语料库之上,所谓平行语料库,是指相互翻译的句子对的集合,一般地,这样的句子对包含源语言句子和目标语言句子,如中文和英文句子对。此类工具的实现的方法为在源语言端检索,给出检索到的句子所对应的目标语言句子。举例说明输入清华大学,此种方法会在平行语料库的中文句子中进行检索,找到包含清华大学的中文句子,然后返回这些句子所对应的英文句子。然而平行预料库来源大多数来自政治和法律方面的文件,如加拿大议会文件、香港政府法律文书等,具有领域局限性,应用范围较为有限,要想构建领域平衡,数量大且高质量的双语语料库,还需要人工来构建,成本要高得多。本方法的创新在于,译文检索的检索端构建于非平行语料库之上,在普通的目标语言句子集中检索,具有领域广泛,数量大的特点。而结合机器翻译技术和信息检索技术构建的译文检索系统,具有准确度高,实用性强的特点。
技术实现思路
为了克服上述现有技术的缺点,本专利技术的目的在于提供一种分路段测速装置。为了实现上述目的,本专利技术采用的技术方案是一种译文检索方法,即译文实例的检索方法,所述方法包括使用双语语料库训练机器翻译模型,利用机器翻译技术,构建机器翻译模块;在仅有目标语言句子的非平行语料库上,利用文本检索技术构建文本检索模块;调整多种参数,寻找到最优的机器翻译模型和文本检索方法;使用查询扩展技术,提高检索精度,将检索结果通过信息呈现模块展现给用户。所述调整多种参数,寻找到最优的机器翻译模型,具体包括考察不同短语长度、语言模型和调序模型的机器翻译模型对译文检索的准确度的影响;考察不同短语长度、语言模型和调序模型对机器翻译模型的翻译性能;确定面向译文检索的机器翻译模型参数,包括翻译模型使用的短语长度、语言模型及调序模型。所述确定面向译文检索的机器翻译模型参数的方法包括针对短语长度、语言模型和调序模型逐次进行实验,每次变动单个参数的设置,调整调序模型,以观察调序模型对译文检索准确度的影响;根据单变量实验结果,发现机器翻译系统的翻译性能与译文检索的准确度是正相关的,因此根据翻译系统的准确度,确定准确度最高的情况下翻译模型所使用的短语长度、语言模型和调序模型为最终参数。所述单个参数包括固定短语长度或语言模型。所述寻找到最优的机器翻译模型,具体包括通过多轮改变单一参数或模型进行实验,观察整体系统精度的方法,确定系统表现最优时机器翻译模型和文本检索方法所对应的多种参数及模型,并以此作为整体系统参数。所述使用查询扩展技术,提高检索精度具体包括利用源语言文本所对应的多个可能翻译结果进行检索,融合多个检索结果,给出优化的检索结果。另一方面,提供了一种译文检索装置,所述装置包括机器翻译模块,用于将输入待检索源语言句子翻译为目标语言句子; 文本检索模块,用于在目标语言句子索引中检索与输入的目标语言Query最为接近的句子或者片段,返回检索结果;查询扩展模块,优化检索结果,用于利用用户输入的源语言文本所对应的多个可能翻译结果,融合所对应的检索结果,给出优化的检索结果,提高译文检索的查准率;信息呈现模块,用于对检索系统返回结果进行再次组织和处理,以网页形式呈现给用户。与现有技术相比,本专利技术实施例提供的技术方案的有益效果是通过结合机器翻译系统和文本信息检索系统的方式,可以为用户提供有效的译文实例检索服务,体现在三点一、索引中如包含待检索的源语言句子的正确翻译结果,也即索引中包括源语言句子的译文,本专利技术可以高准确度的检索出正确的译文。二、索引中如不包含待检索的源语言句子的正确翻译结果,本专利技术可以有效的检索出有用的译文片段,并能将多个译文片段呈现给用户,方便用户组织片段成完整翻译。三、利用查询扩展技术,结合待检索源语言句子的多个候选翻译结果进行检索,有效避免了机器翻译系统给出的不可靠翻译导致的检索体验低下的问题,从而进一步提升用户体验。附图说明为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图I是本专利技术实施例I提供的译文检索的方法流程图。图2是本专利技术实施例2提供的译文检索的装置体系结构示意图。图3是本专利技术实施例2提供的译文检索的装置中的查询扩展模块结构示意图。图4是本专利技术实施例2提供的译文检索的装置中的显示模块结构示意图。具体实施例方式下面结合附图和实施例详细说明本专利技术的实施方式。 实施例I参见图1,本实施例提供了一种实现译文检索的方法,方法流程如下所示101 :对输入源语言Query进行翻译,输出K个最佳目标语言翻译结果作为检索端Query ;102 :对输入的目标语言语言Query分别进行检索,对每个检索输出N个最佳目标语言结果;103 :对K个输入目标语言Query分别对应的KN个检索结果综合打分,按照打分分数进行合并排序,去除重复结果后,给出最终检索结果集合;104:对结果中分数低于阈值的结果进行过滤,对剩余部分结果进行组织,着重显示有用的译文信息,呈现给用户。本实施例提供的方法,每个翻译结果有一个翻译打分,每个检索结果也有一个检索打分。通过使用所有Query进行检索,避免了翻译错误带来的检索错误。同时通过融合了翻译打分和检索打分的综合打分与排序,提高了检索效果。实施例2参见图2,本实施例提供了一种实现译文检索的装置,为对图I方法的细化实施例,具体流程如下201 :机器翻译模块;具体地,机器翻译模块,使用了机器翻译技术构建了机器翻译装置。具体的,包括数据集的构建和预处理,使用训练语料进行机器翻译模型训练,并从中提取短语,使用机器翻译技术构建机器翻译系统。数据集构建包括双语句对收集、训练集、试集和开发集的选择;预处理包括但不限于将数据集中源语言文本及目标语言文本中的句子切分成词,并将存在词根的词映射为对应的词根,例如,将英文中代表名词复数的词映射成对应的单数词;将标点符号转换成单字节形式,例如,将中文双引号映射成ASCII码(American StandardCode for Informati本文档来自技高网
...

【技术保护点】
一种译文检索方法,即译文实例的检索方法,其特征在于,所述方法包括:使用双语语料库训练机器翻译模型,利用机器翻译技术,构建机器翻译模块;在仅有目标语言句子的非平行语料库上,利用文本检索技术构建文本检索模块;调整多种参数,寻找到最优的机器翻译模型和文本检索方法;使用查询扩展技术,提高检索精度,将检索结果通过信息呈现模块展现给用户。

【技术特征摘要】

【专利技术属性】
技术研发人员:刘奇刘洋柳春洋孙茂松
申请(专利权)人:清华大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1