一种社区问答搜索中的查询补全方法技术

技术编号:13082525 阅读:40 留言:0更新日期:2016-03-30 14:42
本发明专利技术涉及一种社区问答搜索中的查询补全方法,属于信息检索技术领域;包括以下步骤:一、构建cQA数据库;二、构建实体词典和词组词典;三、对于用户输入的查询语句,判断最后一个单词是否完整,若不完整,进行末尾单词补全;四、对查询语句通过采用排序函数对数据库中的问题进行排序得到初始候选问题列表;五、对列表根据发散性、大小适度、局部保序性和保真性要求进行筛选;六、按照候选问题的重要性和质量进行再排序;七、输出再排序后的前N条候选问题供用户选择。与现有技术相比,本发明专利技术可以在缺少用户搜索日志时进行查询补全,克服了现有方法中推荐相似问题、尺寸不符、相对顺序不变、失真的问题,用户体验上优于现有搜索引擎的使用效果。

【技术实现步骤摘要】

本专利技术涉及一种查询补全方法,尤其涉及一种能够在社区问答搜索中的查询补全方法,能够对社区问答搜索中的用户查询进行自动补全,有效提升用户体验,属于信息检索

技术介绍
随着互联网的发展,人类社会的信息化、网络化进程大大加快,信息检索早已取代手工检索步入网络化时代。在信息检索领域,查询补全技术对于用户搜索和表达信息需求有很大的帮助。用户在检索时常常输入一个简短的查询语句而不是一个完整的问题,而对于检索模型,一个完整的问题所提供的信息要远远优于一个简短的查询语句。因此,当用户输入查询语句时,如何帮助用户提供完整的问题形式的查询语句具有重要的意义。目前,查询补全技术已经取得了一定的进展。他们主要是挖掘用户搜索日志和网页内容信息,一些主流的搜索引擎还提供了相关词组的推荐。对于基于社区的问答搜索(cQA),在缺少用户搜索日志的情况下进行查询补全是一个很有挑战性的工作。目前,社区问答搜索中的查询补全技术仍处于起步阶段。
技术实现思路
本专利技术的目的是针对如何在缺少用户搜索日志时在社区问答搜索中进行查询补全的问题,提出了一种基于排序的查询补全方法。这种方法能够为用户提供数条完整的候选问题供选择,有效的帮助用户进行查询补全,大大提升了用户体验。为实现上述目的,本专利技术所采用的技术方案如下:首先利用抓取的社区问答对构建cQA数据库,利用维基百科上的网页标题和常用词组词典构建实体和词组库;然后判断用户输入的查询语句的最后一个单词是否完整,若末尾单词不完整,利用关联规则补全末尾单词;最后,对于完整的查询语句,对候选问题进行初始排序、筛选和再排序。本专利技术的具体技术方案如下:一种社区问答搜索中的查询补全方法,该方法包括以下步骤:步骤一、基于问答语料构建由问答对组成的cQA数据库;步骤二、基于现有百科知识资源和词典资源构建实体词典和词组词典;步骤三、对于用户输入的查询语句,判断查询语句的最后一个单词是否完整,若末尾单词不完整,转步骤四;否则,转步骤五;步骤四、对输入的查询语句进行末尾单词补全得到完整的查询语句;步骤五、对查询语句通过采用排序函数对数据库中的问题进行排序得到初始的供用户选择的候选问题列表;作为优选,为了提高检索效果,排序函数中采用了线性插值平滑的方法和统计翻译的模型,具体如下:P(q|(q,a))=Πw∈qp(w|(q,a))---(1)]]>p(w|(q,a))=(1-λ)pmx(w|(q,a))+λpml(w|C)(2)pmx(w|(q,a))=αpml(w|q)+βΣt∈qp(w|t)pml(t|q)+γpml(w|a)---(3)]]>其中,q是用户的查询语句,w是查询语句中的每一个单词,C={(q,a)1,(q,a)2,...,(q,a)L本文档来自技高网...

【技术保护点】
一种社区问答搜索中的查询补全方法,其特征在于:步骤一、基于问答语料构建由问答对组成的cQA数据库;步骤二、基于现有百科知识资源和词典资源构建实体词典和词组词典;步骤三、对于用户输入的查询语句,判断查询语句的最后一个单词是否完整,若末尾单词不完整,转步骤四;否则,转步骤五;步骤四、对输入的查询语句进行末尾单词补全得到完整的查询语句;步骤五、对查询语句通过采用排序函数对数据库中的问题进行排序得到初始的供用户选择的候选问题列表;步骤六、对步骤四得到的初始候选问题列表根据发散性、大小适度、局部保序性和保真性的要求进行筛选;步骤七、对筛选后的候选问题列表按照候选问题的重要性和质量从高到低的顺序进行再排序;步骤八、输出再排序后的前N条候选问题供用户选择。

【技术特征摘要】
1.一种社区问答搜索中的查询补全方法,其特征在于:
步骤一、基于问答语料构建由问答对组成的cQA数据库;
步骤二、基于现有百科知识资源和词典资源构建实体词典和词组词典;
步骤三、对于用户输入的查询语句,判断查询语句的最后一个单词是否完
整,若末尾单词不完整,转步骤四;否则,转步骤五;
步骤四、对输入的查询语句进行末尾单词补全得到完整的查询语句;
步骤五、对查询语句通过采用排序函数对数据库中的问题进行排序得到初
始的供用户选择的候选问题列表;
步骤六、对步骤四得到的初始候选问题列表根据发散性、大小适度、局部
保序性和保真性的要求进行筛选;
步骤七、对筛选后的候选问题列表按照候选问题的重要性和质量从高到低
的顺序进行再排序;
步骤八、...

【专利技术属性】
技术研发人员:黄河燕毛先领梅莉莉黄静
申请(专利权)人:华建宇通科技北京有限责任公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1