一种借助统计机器翻译的答案检索方法及装置制造方法及图纸

技术编号:9007821 阅读:145 留言:0更新日期:2013-08-08 02:48
本发明专利技术公开了一种借助统计机器翻译的答案检索方法及装置。首先利用统计机器翻译工具将候选答案翻译翻译成其它若干种语言,得到候选答案的若干种等价表示。然后利用矩阵分解的方法,对候选答案的若干种等价表示进行降维数,得到低维的隐含表示形式。其次,利用统计机器翻译和矩阵分解方法将查询问题转化成低维的隐含表示形式。最后,在隐含空间上计算查询问题与候选答案之间的相似度,返回相似度最高的若干个候选答案作为该查询问题的答案。本发明专利技术提出的方法,可以有效地解决词汇不匹配和词汇歧义的问题。经过试验证明,在大规模的社区问答数据集中,答案检索的性能提高了29.36%。

【技术实现步骤摘要】
一种借助统计机器翻译的答案检索方法及装置
本专利技术涉及自然语言处理
,是一种借助统计机器翻译的答案检索方法及装置。
技术介绍
随着互联网技术的快速发展,基于用户生成(User-GeneratedContent,UGC)的互联网服务越来越流行。社区问答正是在这一背景下出现的一种新的以“提问-回答”为主的信息交流和知识分享系统,例如Yahoo!Answers、百度知道等。区别于自动问答系统,在社区问答上,用户可以提出任何类型的问题,也可以回答其它用户任何类型的问题。答案检索是社区问答分析的基础,占有很重要的位置。答案检索的任务是指从大规模的候选答案库中检索出与查询问题在语义上相似或相近的答案,用户回答该查询问题。因此,答案检索具有重要的理论意义和实用价值。目前答案检索面临的主要挑战是查询问题与候选答案之间的词汇不匹配以及词汇歧义问题。词汇不匹配通常会引发答案检索模型检索出许多与用户查询意图不匹配的答案,主要原因是社区问答中查询问题和答案都是由用户给出的,而用户的查询意图高度多样化。例如,依据不同的用户,词语“interest”既可以指“curiosity”也可以指“achargeforborrowingmoney”。“词语歧义”是查询问题与候选答案之间的常见现象,具体表现在,很多词语在查询问题和候选答案中出现的次数并不多,甚至都没有在查询问题或候选答案中出现过,无法用传统的基于词条匹配的方法。解决上述“词汇歧义”和“词汇鸿沟”问题的一个方法就是借助统计机器翻译,将原始语言中的歧义词以及字面上表示不一样的词汇用它们对应的翻译来表示。而借助统计机器翻译的方法前提是首先要建立一个合理的目标函数,将原始语言及其对应的翻译集成在一个框架中,其次是如何尽量减少统计机器翻译带来的噪声,最后是如何设计一种快速的求解方法来解决上述目标函数。而直接将得到的翻译词汇添加到原始语言中,答案检索的准确率会大打折扣,主要原因是将翻译词汇直接添加到原始语言中会大大增加计算的复杂度,同时机器翻译的错误也会带来很多噪音。答案检索的任务是指对用户输入的查询问题,从答案文档集合中检索出能够回答该查询的答案。答案检索面临的主要困难是用户查询问题与候选答案在表达相同或相似的意思时使用不同的用词形式,容易导致词汇不匹配和词汇歧义的问题。传统的方法主要依靠挖掘单语之间的词语关联,忽视了多语言信息之间的语义关联。
技术实现思路
为解决上述问题,本专利技术首先需要设计一个合理的目标函数,将原始语言及其对应的翻译有效地集成到一个框架中,同时在该框架下约束机器翻译的噪声对答案检索的影响。然后根据建立的目标函数及其约束,设计了一种快速的求解方法。通过对目标函数的求解,得到原始语言及其对应翻译的隐含表示,最后在隐含空间上计算用户查询和候选答案之间的相似度。根据上述思路,本专利技术主要针对答案检索存在的两大难点问题入手,成功地将统计机器翻译引入到答案检索的过程中,通过实验证明,该方法有效地提高了答案检索的准确率。本专利技术的基本思想是充分借助统计机器翻译,将原始语言中的歧义词和字面上表示不一样的词汇用它们对应的翻译来表示,从而提高答案检索的性能。本专利技术公开了一种借助统计机器翻译的答案检索方法,包括如下步骤:步骤1、借助统计机器翻译工具将原始语言表示的所有候选答案翻译成其它多种语言;步骤2、将包括所述原始语言在内的每种语言表示的候选答案集成到一个基于非负矩阵分解的框架;步骤3、利用最小二乘法快速梯度下降算法对所述基于非负矩阵分解的框架进行求解,得到所有候选答案的所述每种语言表示的低维表达;步骤4、借助统计机器翻译工具将原始语言表示的查询问题翻译成其它多种语言翻译;步骤5、利用步骤3中得到的所有候选答案的所述每种语言表示的低维表达,将查询问题及其它多种语言翻译转化到低维空间上;步骤6、根据所述查询问题及其它多种语言翻译、以及该查询问题及其它多种语言翻译对应的候选答案的低维表达,计算所述查询问题及其它多种语言翻译与它们对应的候选答案之间的相似度,并根据相似度得到最终检索结果。本专利技术还公开了一种借助统计机器翻译的答案检索装置,其包括:候选答案翻译模块,用于将候选答案翻译成其它语言;矩阵分解模块,将包括所述原始语言在内的每种语言表示的候选答案集成到一个基于非负矩阵分解的框架;优化求解模块,利用最小二乘法快速梯度下降算法对所述基于非负矩阵分解的框架进行求解,得到每一个问题的所有候选答案的所述每种语言表示的低维表达;查询问题翻译模块,用于将查询问题翻译成其它语言;基于低维空间的相似度计算模块,其用于将查询问题转化到低维空间上,并计算查询问题与候选答案在低维空间上的相似度;所述结果排序学习模块,其用于根据所述相似度计算模块计算得到的相似度,最终得到检索答案。本专利技术采用借助统计机器翻译的思想来提升答案检索的性能。利用统计机器翻译工具GoogleTranslate,将原始语言中的歧义词和字面上表示不一样的词汇用它们对应的翻译来表示,从而提高答案检索的性能。附图说明图1是本专利技术中借助统计机器翻译的答案检索方法。图2是本专利技术中借助统计机器翻译的答案检索装置结构图。具体实施方式为使本专利技术的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本专利技术作进一步的详细说明。本专利技术公开了一种借助统计机器翻译的答案检索方法及装置。其可以分为离线过程和在线过程两部分。离线过程分由三个模块实现,即候选答案翻译模块、矩阵分解模块,优化求解模块。在线过程也分三个模块进行,即查询问题翻译模块、基于低维空间的相似度计算模块以及结果排序学习模块。图1示出了本专利技术提出的一种借助统计机器翻译的答案检索方法。如图1所示,其包括离线部分和在线部分两个阶段。其中离线过程包括:步骤(1)、利用统计机器翻译工具将用原始语言l1(例如英语)表示的所有候选答案进行翻译,获得L-1种不同语言的等价表示{l1,l2,…,lL-1},其中L表示所有语言的数目,所述统计机器翻译工具可选用GoogleTranslate等。步骤(2)、对每种语言表示的候选答案集合表示成一个Mp×N的词-文档矩阵其中Mp表示第p种语言表示的候选答案集合中的所有词汇,N表示候选答案集合中答案的数目。步骤(3)、设计一个新的目标函数,采用非负矩阵分解的方法将P种不同语言表示的候选答案集成到一个统一的框架中,并且采用正则化的策略来减少统计机器翻译带来的噪声。步骤(4)、设计一个基于最小二乘的快速梯度下降算法,通过对上述目标函数求解得到L种不同语言的低维表示形式,即系数矩阵和重构矩阵所述在线过程包括:步骤(1)、利用统计机器翻译工具将原始语言l1(例如英语)表示的查询问题翻译成L-1种不同语言的等价表示,所述统计机器翻译工具可选用GoogleTranslate等。步骤(2)、利用上述离线过程(4)中求解得到的系数矩阵将查询问题及其对应的L-1种翻译表示转化到低维空间上。;步骤(3)、在低维空间表示上计算查询问题与候选答案的相似度。步骤(4)、采用线性排序学习的策略,将L种不同语言在低维空间表示的相似度进行融合,得分最高的若干个候选答案作为最终的答案返回。图2示出了本专利技术中提出的借助统计机器翻译的答案检索装置。如图2所示,该检索装置包括:候选答案翻译模块本文档来自技高网
...
一种借助统计机器翻译的答案检索方法及装置

【技术保护点】
一种借助统计机器翻译的答案检索方法,包括如下步骤:?步骤1、借助统计机器翻译工具将原始语言表示的所有候选答案翻译成其它多种语言;?步骤2、将包括所述原始语言在内的每种语言表示的候选答案集成到一个基于非负矩阵分解的框架;?步骤3、利用最小二乘法快速梯度下降算法对所述基于非负矩阵分解的框架进行求解,得到所有候选答案的所述每种语言表示的低维表达;?步骤4、借助统计机器翻译工具将原始语言表示的查询问题翻译成其它多种语言翻译;?步骤5、利用步骤3中得到的所有候选答案的所述每种语言表示的低维表达,将查询问题及其它多种语言翻译转化到低维空间上;?步骤6、根据所述查询问题及其它多种语言翻译、以及该查询问题及其它多种语言翻译对应的候选答案的低维表达,计算所述查询问题及其它多种语言翻译与它们对应的候选答案之间的相似度,并根据相似度得到最终检索结果。

【技术特征摘要】
1.一种借助统计机器翻译的答案检索方法,包括如下步骤:步骤1、借助统计机器翻译工具将原始语言表示的所有候选答案翻译成其它多种语言;步骤2、将包括所述原始语言在内的每种语言表示的候选答案集成到一个基于非负矩阵分解的框架;步骤3、利用最小二乘法快速梯度下降算法对所述基于非负矩阵分解的框架进行求解,得到所有候选答案的所述每种语言表示的低维表达;步骤4、借助统计机器翻译工具将原始语言表示的查询问题翻译成其它多种语言翻译;步骤5、利用步骤3中得到的所有候选答案的所述每种语言表示的低维表达,将查询问题及其它多种语言翻译转化到低维空间上;步骤6、根据所述查询问题及其它多种语言翻译、以及该查询问题及其它多种语言翻译对应的候选答案的低维表达,计算所述查询问题及其它多种语言翻译与它们对应的候选答案之间的相似度,并根据相似度得到最终检索结果。2.如权利要求1所述的方法,其特征在于,所述基于非负矩阵分解的框架具体如下表示:其中,表示该框架的目标函数;L表示原始语言在内的所有语言的数目;表示对应于第p种语言的一个Mp×N维的词-文档矩阵,Mp表示所有候选答案集合中不重复单词的数目,N表示所有候选答案的数目,向量中的每个元素对应第i个候选答案中的一个词,其元素值表示该词在第i个候选答案中的重要程度;表示分解后得到的系数矩阵,表示分解后得到的重构矩阵;||·||F表示矩阵的范数,参数λp用来调整两部分的相对权重,表示原始语言对应的重构矩阵。3.如权利要求2所述的方法,其特征在于,利用所述基于最小二乘法的快速梯度下降算法对所述基于非负矩阵分解的框架进行求解,具体为找到和的局部最优解;其中,当优化第p个系数矩阵时,保持和不变,对系数矩阵进行迭代更新,上述目标函数转成为如下的优化问题:4.如权利要求3所述的方法,其特征在于,当优化第p个重构矩阵时,保持系数矩阵和重构矩阵不变,对重构矩阵进行迭代更新,上述目标函数转成为如下两类的优化问题:第一类优化问题:当p∈[2,L],转化为下面的目标函数:第二类优化问题:当p=1时,转化为下面的目标函数:5.如权利要求3所述的方法,其特征在于,对系数矩阵进行迭代更新时,所述目标函数的优化问题分解成Mp个相互独立的子优化问题,每一个子优化问题对应系数矩阵的一行:其中,表示一个列向量,代表的是矩阵的第i行所有元素;表示一个列向量,代表的是系数矩阵第i行的所有元素。6.如权利要求4所述的方法,其特征在于,对重构矩阵进行迭代更新时,所述第一类优化问题分解成N个相互独立的子优化问题,每一个子优化问题对应重构矩阵的一列:

【专利技术属性】
技术研发人员:周光有赵军
申请(专利权)人:中国科学院自动化研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1