一种融合用户类别标签的相似问题检索方法及装置制造方法及图纸

技术编号:8959488 阅读:110 留言:0更新日期:2013-07-25 19:02
本发明专利技术公开了一种融合用户类别标签的相似问题检索方法及其装置,所述包括:步骤1、计算每个用户类别标签之间的相似度;步骤2、根据用户输入的查询问题,建立融合用户类别标签的检索模型;步骤3、根据所述融合用户类别标签的检索模型,在所述查询问题对应的查询问题类别标签和相似类别标签下的历史问题中进行检索,获得所述查询问题的相似问题。因此,最终的相似问题检索仅仅考虑与查询问题在类别标签上相似或相近的历史问题,大大减少了搜索的空间以及主题不相关历史问题的干扰,有效地提高了检索的效率和性能。经过实验证明,在大规模的社区问答数据集中,相似问题检索的效率提高了81.77倍,检索的性能提升了11.25%。

【技术实现步骤摘要】

本专利技术涉及自然语言处理
,是一种融合用户类别标签的相似问题检索方法及装置
技术介绍
问答系统是自然语言处理领域的重要研究课题。然而,受限于自然语言处理和人工智能的技术水平,自动问答系统只能较好地回答一些相对简单的事实性、列表性和定义性提问,因而离用户更广泛的真实信息需求仍有很大差距,这极大地限制了自动问答系统的实用性。随着Web2.0的兴起,基于用户生成(User-Generated Content, UGC)的互联网服务越来越流行,社区问答应运而生,例如Yahoo ! Answers、百度知道等。区别于自动问答系统,在社区问答上,用户可以提出任何类型的问题,也可以回答其它用户任何类型的问题。相似问题检索是社区问答分析的基础,占有很重要的位置。相似问题检索是指从大规模的问题库中检索出与查询问题在语义上相似或相近的历史问题,并将这些问题对应的答案返回给用户,用户回答该查询问题。因此,社区问答相似问题检索具有重要的理论意义和实用价值。目前社区问答相似问题检索存在的一个本质缺陷是:对于用户给定的查询问题,社区问答中所有的历史问题都需要参与相似度计算,尽管有大量的历史问题与查询问题存在一定数量的重叠词条,但它们的类别标签是完全不同的,这些类别标签下的历史问题也是不相关的。因此,这些大量的无关历史问题将会增加检索系统搜索的空间以及不相关历史问题的干扰,影响相似问题检索的效率和性能。在社区问答中,所有的问题(查询问题和历史问题)都按照一定的类别标签结构组织。当用户提出一个查询问题后,系统需要用户从预先定义的类别标签结构中选择一个合适的类别作为该问题的类别标签。解决上述问题的一个方法就是融合用户类别标签,在检索的过程中根据查 询问题与历史问题之间的类别标签来判断查询问题与历史问题是否是相关的。而融合用户类别标签的方法的前提是首先要构造一个有效的类别标签相似度计算方法,其次是这个相似度阈值的设置要合理,不能损失太多的准确率。而直接使用查询问题和历史问题的类别标签进行匹配,相似问题检索的准确率会大打折扣,主要原因是在社区问答中,并不是所有相似或相关的历史问题都来自于与查询问题完全匹配的类别标签下,其中有大量的相关历史问题来自于与查询问题在类别上相似的类别标签下。因此,本专利技术首先需要计算类别标签之间的相似度,如果查询问题与历史问题之间的类别标签相似度很高,则查询问题与历史问题具有较高的主题相似度。然后根据预先设定的阈值,如果查询问题与历史问题之间的类别标签相似度低于这个阈值,将该类别下的所有历史问题过滤掉,不参与最后的检索结果排序。根据上述思路,本专利技术主要针对社区问答相似问题检索的效率和性能入手,成功地将用户类别标签引入相似问题检索的过程中,通过实验证明,该方法有效地提高了相似问题检索的效率和性能。
技术实现思路
有鉴于此,本专利技术通过充分利用社区问答中的用户类别标签,将与查询问题在类别上无关的历史问题过滤掉,在最终的检索排序结果中仅仅考虑与查询问题在类似上相似或相似的类别下的历史问题,从而减少相似问题搜索的空间以及主题不相关历史问题的干扰,提高相似问题检索的效率和性能。本专利技术公开了一种融合用户类别标签的相似问题检索方法,包括如下步骤:步骤1、计算每个用户类别标签之间的相似度;步骤2、根据用户输入的查询问题,建立融合用户类别标签的检索模型;步骤3、根据所述融合用户类别标签的检索模型,在所述查询问题对应的查询问题类别标签和相似类别标签下的历史问题中进行检索,获得所述查询问题的相似问题。本专利技术还公开了一种融合用户类别标签的相似问题检索装置,其包括:相似度计算模块,其用于计算每个用户类别标签之间的相似度;融合用户类别标签的检索模块,其用于根据用户输入的查询问题,建立融合用户类别标签的检索模型,并根据所述融合用户类别标签的检索模型,在所述查询问题对应的查询问题类别标签和相似类别标签下的历史问题中进行检索,获得所述查询问题的相似问题。本专利技术采用融合用户类别标签的思想来提升相似问题检索的效率和性能。通过计算用户类别标签之间的相似度,根据预先设定的阈值,将与查询问题在类别标签上不相关的历史问题过滤掉,然后在与查询问题在类别标签上相似或相近的历史问题库中进行检索,从而提闻了相似问题检索的效率和性能。附图说明图1是本专利技术中融合用户类别标签的相似问题检索方法流程图。图2是本专利技术中融合用户类别标签的问答相似问题检索装置结构图。图3是一种社区问答类别标签示例的结构示意图。具体实施例方式为使本专利技术的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本专利技术作进一步的详细说明。本专利技术公开了一种融合用户类别标签的相似问题检索方法及装置。其可以分为离线过程和在线过程两部分。离线过程即从大规模的历史问题库中获得类别标签之间的相似度。在线过程则通过建立融合用户类别标签的检索模型,检索与所述查询问题相似度最高的几个历史问题并返回给用户。图1示出了本专利技术提出的一种融合用户类别标签的相似问题检索方法。如图1所示,其包括离线部分和在线部分两个阶段。其中离线过程包括:步骤(I)、将历史问题库中每个用户类别下的所有历史问题合并成一个大的文档,每个文档实质上对应一个用户类别标签C。 步骤(2)、利用LDAGibbs++工具,对上述文档集合进行主题分析后,每个用户类别C都可以表不成一个Z维的主题分布向量P (Z I C)。步骤(3)、利用Jensen香农距离计算每个用户类别标签之间的相似度。所述在线过程包括:步骤(I)、建立融合用户类别标签的检索模型;步骤(2)、根据建立的检索模型,设置类别标签相似度的阈值;步骤(3)、根据阈值,将与查询问题在类别标签上不相关的历史问题过滤掉。然后在与查询问题在类别标签上相同或相似的历史问题构成的集合中进行检索。按照查询问题与历史问题之间的相似度进行排序,将排序最高的N个历史问题作为最终的结果输出,同时将这些相似问题对应的答案返回给用户。图2示出了本专利技术中提出的融合用户类别标签的相似问题检索装置。如图2所示,该检索装置包括:用户类别标签相似度计算模块、融合用户类别标签的检索模块、类别标签相似度的阈值设定模块以及查询问题类别下相似度计算模块。所述用户类别标签相似度计算模块,用于计算两个用户类别标签之间的相似度。类别标签相似度的常用计算方法是基于该类别下文本内容分析的方法。然而,由于用户类别标签下包含的问题数目往往很少,如果直接采用上述方法,因数据稀疏的问题,导致相似度计算的准确性会下降。因此,本专利技术中利用主题模型来计算两个类别标签之间的相似度。所述两个类别标签之间的相似度的主题模型,其基本假设是如果两个类别标签越相似,则它们对应同一个主题的概率也较大。图3示出了一种社区问答类别标签示例的结构示意图。如图3所示,类别标签“Monitors”、“Scanners”和“Printers”都是相似的类别,因为它们均属于同一个主题“Computer Hardware,,。所述用户类别标签相似度计算模块首先将同一个用户类别下的所有历史问题合并成一个大的文档,合并后的每个文档实质上对应一个类别标签C。然后,所述用户类别标签相似度计算模块利用GibbsLDA++工具识别每个类别标签c的主题信息,并将每个类别标签c表示成一个本文档来自技高网
...

【技术保护点】
一种融合用户类别标签的相似问题检索方法,包括如下步骤:步骤1、计算每个用户类别标签之间的相似度;步骤2、根据用户输入的查询问题,建立融合用户类别标签的检索模型;步骤3、根据所述融合用户类别标签的检索模型,在所述查询问题对应的查询问题类别标签和相似类别标签下的历史问题中进行检索,获得所述查询问题的相似问题。

【技术特征摘要】
1.一种融合用户类别标签的相似问题检索方法,包括如下步骤: 步骤1、计算每个用户类别标签之间的相似度; 步骤2、根据用户输入的查询问题,建立融合用户类别标签的检索模型; 步骤3、根据所述融合用户类别标签的检索模型,在所述查询问题对应的查询问题类别标签和相似类别标签下的历史问题中进行检索,获得所述查询问题的相似问题。2.如权利要求1所述的方法,其特征在于,所述融合用户类别标签的检索模型基于以下几个条件之一或它们的组合,计算查询问题与查询问题类别标签和相似类别标签下的历史问题之间的关联概率: 1)查询问题与所述查询问题类别标签下的历史问题之间的似然概率; 2)查询问题类别标签与相似类别标签之间的相似度; 3)查询问题与所述相似类别标签下的历史问题之间的似然概率。3.如权利要求2所述的方法,其特征在于,所述融合用户类别标签的检索模型具体如下表示:4.如权利要求1所述的方法,其特征在于,所述步骤2还包括:设置类别标签相似度的阈值,所述相似类别标签为与所述查询问题类别标签的相似度高于所述阈值的类别标签。5.如权利要求1-4任一项所述的方法,其特征在于,所述类...

【专利技术属性】
技术研发人员:周光有赵军
申请(专利权)人:中国科学院自动化研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1