一种借助统计机器翻译的答案检索方法及装置制造方法及图纸

技术编号：9007821 阅读：145 留言：0更新日期：2013-08-08 02:48

本发明专利技术公开了一种借助统计机器翻译的答案检索方法及装置。首先利用统计机器翻译工具将候选答案翻译翻译成其它若干种语言，得到候选答案的若干种等价表示。然后利用矩阵分解的方法，对候选答案的若干种等价表示进行降维数，得到低维的隐含表示形式。其次，利用统计机器翻译和矩阵分解方法将查询问题转化成低维的隐含表示形式。最后，在隐含空间上计算查询问题与候选答案之间的相似度，返回相似度最高的若干个候选答案作为该查询问题的答案。本发明专利技术提出的方法，可以有效地解决词汇不匹配和词汇歧义的问题。经过试验证明，在大规模的社区问答数据集中，答案检索的性能提高了29.36％。

全部详细技术资料下载

【技术实现步骤摘要】
一种借助统计机器翻译的答案检索方法及装置
本专利技术涉及自然语言处理
，是一种借助统计机器翻译的答案检索方法及装置。
技术介绍
随着互联网技术的快速发展，基于用户生成(User-GeneratedContent，UGC)的互联网服务越来越流行。社区问答正是在这一背景下出现的一种新的以“提问-回答”为主的信息交流和知识分享系统，例如Yahoo！Answers、百度知道等。区别于自动问答系统，在社区问答上，用户可以提出任何类型的问题，也可以回答其它用户任何类型的问题。答案检索是社区问答分析的基础，占有很重要的位置。答案检索的任务是指从大规模的候选答案库中检索出与查询问题在语义上相似或相近的答案，用户回答该查询问题。因此，答案检索具有重要的理论意义和实用价值。目前答案检索面临的主要挑战是查询问题与候选答案之间的词汇不匹配以及词汇歧义问题。词汇不匹配通常会引发答案检索模型检索出许多与用户查询意图不匹配的答案，主要原因是社区问答中查询问题和答案都是由用户给出的，而用户的查询意图高度多样化。例如，依据不同的用户，词语“interest”既可以指“curiosity”也可以指“achargeforborrowingmoney”。“词语歧义”是查询问题与候选答案之间的常见现象，具体表现在，很多词语在查询问题和候选答案中出现的次数并不多，甚至都没有在查询问题或候选答案中出现过，无法用传统的基于词条匹配的方法。解决上述“词汇歧义”和“词汇鸿沟”问题的一个方法就是借助统计机器翻译，将原始语言中的歧义词以及字面上表示不一样的词汇用它们对应的翻译来表示。而借助统计机器翻译的方...
一种借助统计机器翻译的答案检索方法及装置

【技术保护点】
一种借助统计机器翻译的答案检索方法，包括如下步骤：?步骤1、借助统计机器翻译工具将原始语言表示的所有候选答案翻译成其它多种语言；?步骤2、将包括所述原始语言在内的每种语言表示的候选答案集成到一个基于非负矩阵分解的框架；?步骤3、利用最小二乘法快速梯度下降算法对所述基于非负矩阵分解的框架进行求解，得到所有候选答案的所述每种语言表示的低维表达；?步骤4、借助统计机器翻译工具将原始语言表示的查询问题翻译成其它多种语言翻译；?步骤5、利用步骤3中得到的所有候选答案的所述每种语言表示的低维表达，将查询问题及其它多种语言翻译转化到低维空间上；?步骤6、根据所述查询问题及其它多种语言翻译、以及该查询问题及其它多种语言翻译对应的候选答案的低维表达，计算所述查询问题及其它多种语言翻译与它们对应的候选答案之间的相似度，并根据相似度得到最终检索结果。

【技术特征摘要】
1.一种借助统计机器翻译的答案检索方法，包括如下步骤：步骤1、借助统计机器翻译工具将原始语言表示的所有候选答案翻译成其它多种语言；步骤2、将包括所述原始语言在内的每种语言表示的候选答案集成到一个基于非负矩阵分解的框架；步骤3、利用最小二乘法快速梯度下降算法对所述基于非负矩阵分解的框架进行求解，得到所有候选答案的所述每种语言表示的低维表达；步骤4、借助统计机器翻译工具将原始语言表示的查询问题翻译成其它多种语言翻译；步骤5、利用步骤3中得到的所有候选答案的所述每种语言表示的低维表达，将查询问题及其它多种语言翻译转化到低维空间上；步骤6、根据所述查询问题及其它多种语言翻译、以及该查询问题及其它多种语言翻译对应的候选答案的低维表达，计算所述查询问题及其它多种语言翻译与它们对应的候选答案之间的相似度，并根据相似度得到最终检索结果。2.如权利要求1所述的方法，其特征在于，所述基于非负矩阵分解的框架具体如下表示：其中，表示该框架的目标函数；L表示原始语言在内的所有语言的数目；表示对应于第p种语言的一个Mp×N维的词-文档矩阵，Mp表示所有候选答案集合中不重复单词的数目，N表示所有候选答案的数目，向量中的每个元素对应第i个候选答案中的一个词，其元素值表示该词在第i个候选答案中的重要程度；表示分解后得到的系数矩阵，表示分解后得到的重构矩阵；||·||F表示矩阵的范数，参数λp用来调整两部分的相对权重，表示原始语言对应的重构矩阵。3.如权利要求2所述的方法，其特征在于，利用所述基于最小二乘法的快速梯度下降算法对所述基于非负矩阵分解的框架进行求解，具体为找到和的局部最优解；其中，当优化第p个系数矩阵时，保持和不变，对系数矩阵进行迭代更新，上述目标函数转成为如下的优化问题：4.如权利要求3所述的方法，其特征在于，当优化第p个重构矩阵时，保持系数矩阵和重构矩阵不变，对重构矩阵进行迭代更新，上述目标函数转成为如下两类的优化问题：第一类优化问题：当p∈[2，L]，转化为下面的目标函数：第二类优化问题：当p＝1时，转化为下面的目标函数：5.如权利要求3所述的方法，其特征在于，对系数矩阵进行迭代更新时，所述目标函数的优化问题分解成Mp个相互独立的子优化问题，每一个子优化问题对应系数矩阵的一行：其中，表示一个列向量，代表的是矩阵的第i行所有元素；表示一个列向量，代表的是系数矩阵第i行的所有元素。6.如权利要求4所述的方法，其特征在于，对重构矩阵进行迭代更新时，所述第一类优化问题分解成N个相互独立的子优化问题，每一个子优化问题对应重构矩阵的一列：

【专利技术属性】
技术研发人员：周光有，赵军，
申请(专利权)人：中国科学院自动化研究所，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人