【技术实现步骤摘要】
一种借助统计机器翻译的答案检索方法及装置
本专利技术涉及自然语言处理
,是一种借助统计机器翻译的答案检索方法及装置。
技术介绍
随着互联网技术的快速发展,基于用户生成(User-GeneratedContent,UGC)的互联网服务越来越流行。社区问答正是在这一背景下出现的一种新的以“提问-回答”为主的信息交流和知识分享系统,例如Yahoo!Answers、百度知道等。区别于自动问答系统,在社区问答上,用户可以提出任何类型的问题,也可以回答其它用户任何类型的问题。答案检索是社区问答分析的基础,占有很重要的位置。答案检索的任务是指从大规模的候选答案库中检索出与查询问题在语义上相似或相近的答案,用户回答该查询问题。因此,答案检索具有重要的理论意义和实用价值。目前答案检索面临的主要挑战是查询问题与候选答案之间的词汇不匹配以及词汇歧义问题。词汇不匹配通常会引发答案检索模型检索出许多与用户查询意图不匹配的答案,主要原因是社区问答中查询问题和答案都是由用户给出的,而用户的查询意图高度多样化。例如,依据不同的用户,词语“interest”既可以指“curiosity”也可以指“achargeforborrowingmoney”。“词语歧义”是查询问题与候选答案之间的常见现象,具体表现在,很多词语在查询问题和候选答案中出现的次数并不多,甚至都没有在查询问题或候选答案中出现过,无法用传统的基于词条匹配的方法。解决上述“词汇歧义”和“词汇鸿沟”问题的一个方法就是借助统计机器翻译,将原始语言中的歧义词以及字面上表示不一样的词汇用它们对应的翻译来表示。而借助统计机器翻译的方 ...
【技术保护点】
一种借助统计机器翻译的答案检索方法,包括如下步骤:?步骤1、借助统计机器翻译工具将原始语言表示的所有候选答案翻译成其它多种语言;?步骤2、将包括所述原始语言在内的每种语言表示的候选答案集成到一个基于非负矩阵分解的框架;?步骤3、利用最小二乘法快速梯度下降算法对所述基于非负矩阵分解的框架进行求解,得到所有候选答案的所述每种语言表示的低维表达;?步骤4、借助统计机器翻译工具将原始语言表示的查询问题翻译成其它多种语言翻译;?步骤5、利用步骤3中得到的所有候选答案的所述每种语言表示的低维表达,将查询问题及其它多种语言翻译转化到低维空间上;?步骤6、根据所述查询问题及其它多种语言翻译、以及该查询问题及其它多种语言翻译对应的候选答案的低维表达,计算所述查询问题及其它多种语言翻译与它们对应的候选答案之间的相似度,并根据相似度得到最终检索结果。
【技术特征摘要】
1.一种借助统计机器翻译的答案检索方法,包括如下步骤:步骤1、借助统计机器翻译工具将原始语言表示的所有候选答案翻译成其它多种语言;步骤2、将包括所述原始语言在内的每种语言表示的候选答案集成到一个基于非负矩阵分解的框架;步骤3、利用最小二乘法快速梯度下降算法对所述基于非负矩阵分解的框架进行求解,得到所有候选答案的所述每种语言表示的低维表达;步骤4、借助统计机器翻译工具将原始语言表示的查询问题翻译成其它多种语言翻译;步骤5、利用步骤3中得到的所有候选答案的所述每种语言表示的低维表达,将查询问题及其它多种语言翻译转化到低维空间上;步骤6、根据所述查询问题及其它多种语言翻译、以及该查询问题及其它多种语言翻译对应的候选答案的低维表达,计算所述查询问题及其它多种语言翻译与它们对应的候选答案之间的相似度,并根据相似度得到最终检索结果。2.如权利要求1所述的方法,其特征在于,所述基于非负矩阵分解的框架具体如下表示:其中,表示该框架的目标函数;L表示原始语言在内的所有语言的数目;表示对应于第p种语言的一个Mp×N维的词-文档矩阵,Mp表示所有候选答案集合中不重复单词的数目,N表示所有候选答案的数目,向量中的每个元素对应第i个候选答案中的一个词,其元素值表示该词在第i个候选答案中的重要程度;表示分解后得到的系数矩阵,表示分解后得到的重构矩阵;||·||F表示矩阵的范数,参数λp用来调整两部分的相对权重,表示原始语言对应的重构矩阵。3.如权利要求2所述的方法,其特征在于,利用所述基于最小二乘法的快速梯度下降算法对所述基于非负矩阵分解的框架进行求解,具体为找到和的局部最优解;其中,当优化第p个系数矩阵时,保持和不变,对系数矩阵进行迭代更新,上述目标函数转成为如下的优化问题:4.如权利要求3所述的方法,其特征在于,当优化第p个重构矩阵时,保持系数矩阵和重构矩阵不变,对重构矩阵进行迭代更新,上述目标函数转成为如下两类的优化问题:第一类优化问题:当p∈[2,L],转化为下面的目标函数:第二类优化问题:当p=1时,转化为下面的目标函数:5.如权利要求3所述的方法,其特征在于,对系数矩阵进行迭代更新时,所述目标函数的优化问题分解成Mp个相互独立的子优化问题,每一个子优化问题对应系数矩阵的一行:其中,表示一个列向量,代表的是矩阵的第i行所有元素;表示一个列向量,代表的是系数矩阵第i行的所有元素。6.如权利要求4所述的方法,其特征在于,对重构矩阵进行迭代更新时,所述第一类优化问题分解成N个相互独立的子优化问题,每一个子优化问题对应重构矩阵的一列:
【专利技术属性】
技术研发人员:周光有,赵军,
申请(专利权)人:中国科学院自动化研究所,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。