一种基于问答系统的信息匹配方法及系统技术方案

技术编号:6845475 阅读:266 留言:0更新日期:2012-04-11 18:40
本发明专利技术公开了一种基于问答系统的信息匹配方法及系统,所述方法包括:为问答系统知识库中的问答对配置用户交互行为表征参数,并根据用户交互行为反馈信息对所述用户交互行为表征参数进行动态更新,所述用户交互行为反馈信息为对问答系统的提问信息响应的反馈;根据用户输入的提问信息在问答系统知识库中获取问题候选集,以所述问题候选集中的各条问题信息的用户交互行为表征参数为索引,对所述问题候选集中的各条问题信息进行排序,向用户返回排序在前的预定数量的问题信息。本发明专利技术能够提高问答系统的信息匹配速度和精度。

【技术实现步骤摘要】

本专利技术涉及搜索引擎技术,具体的说,涉及一种基于问答系统的信息匹配方法及系统
技术介绍
有研究表明,面对互联网的海量用户信息,大多数用户都将搜索引擎作为访问互联网以获取信息的起点。传统搜索引擎以网页搜索为主,大多采用关键字匹配的方式返回包含所搜索关键词的网页列表,由用户点击网页后查看。随着科技的不断发展,手机、 PDA(个人数据助理)等手持设备逐渐普及,越来越多的用户通过手持设备访问互联网,传统搜索引擎的弊端也开始显现。手持设备的屏幕大小和通信效率对信息容量的限制,使得传统搜索引擎所返回的网页列表不适用于展示给用户。问答系统是解决这一矛盾的方案之ο问答系统和传统网页搜索的区别在于,用户可以以自然语言形式的句子向系统提问,系统分析用户问题后,精确的返回用户问题的答案。例如,用户希望搜索问题“中国最长的河是哪条?”传统网页搜索返回的可能是包含“中国”、“最长”、“河”、“哪里”等关键字的网页地址,用户需要点击网页后自己查找答案。而利用问答系统,将直接返回用户答案“长江”。避免了二次浏览,提高了用户体验。目前的问答系统不管采用何种方法进行答案检索,大都会配备问答知识库,该知识库往往存储一些常用问题,问题的答案采用自动爬取或专家维护的方式得到。在用户提问的时候,如果问题和知识库中的问题匹配成功,则直接返回知识库中的答案。知识库的结构多为一对一的问答对形式,即例如问题是“中国最长的河是哪条”,答案是“长江”,这样的一组问答作为知识库中的一组问答对,知识库中存储有多组这样的常问问题的问答对。 问答系统根据用户的提问在知识库中搜索与用户提问最匹配的知识库中的问题形式,进而给出该问题的答案。在基于知识库的问句匹配方法里,从排序上来说,已有的方法集中在语义、语法及传统信息论排序方法等三个方面。传统的信息论排序方法,如在网页搜索中常用的TF-IDF 值排序方法在问句匹配中作用有限。由于问答系统的问句往往比较短,词频信息在问句中比较集中也比较少,多是1-2次,因此很难体现出TF-IDF在词频信息上所包含的意义。利用语义匹配度的排序方法(包括利用语义信息计算距离的向量空间方法)一般需要遍历候选集,存在时间复杂度高的问题。且语义距离信息目前为止质量并不高,可靠性和覆盖性限制了适用范围。基于语法信息匹配度的排序方法,由于汉语的灵活性和语法不严格性,往往是对前两种方法的补充,提取1-2个明显的语法特征用于计算排序,并不能单独用于排序方法, 且同样存在计算复杂和精度不高的问题,会直接影响排序结果。综上,现有技术中,问答系统中的信息匹配,具体说,问句信息的匹配方法仍然存在不少的缺陷,匹配精度和匹配效率都有待提高。
技术实现思路
本专利技术所要解决的技术问题是,提供一种基于问答系统的信息匹配方法及系统, 能够高效准确的实现基于问答系统的信息匹配。为解决上述技术问题,本专利技术采用了以下技术方案一种基于问答系统的信息匹配方法,包括为问答系统知识库中的问答对配置用户交互行为表征参数,并根据用户交互行为反馈信息对所述用户交互行为表征参数进行动态更新,所述用户交互行为反馈信息为对问答系统的提问信息响应的反馈;根据用户输入的提问信息在问答系统知识库中获取问题候选集,以所述问题候选集中的各条问题信息的用户交互行为表征参数为索引,对所述问题候选集中的各条问题信息进行排序,向用户返回排序在前的预定数量的问题信息。在本专利技术的一种实施例中,按照如下方式更新所述用户交互行为表征参数如果用户交互行为反馈信息为正反馈,提高用户交互行为表征参数;如果用户交互行为反馈信息为负反馈,降低用户交互行为表征参数。在本专利技术的一种实施例中,还包括设置惩罚因子,以加权用户交互行为反馈信息对用户交互行为表征参数的降低程度。在本专利技术的一种实施例中,根据用户输入的提问信息在问答系统知识库中获取问题候选集通过如下方式进行利用自然语言技术对用户提问信息进行语法分析,按照语法分析从用户提问信息中提取出关键词;在问答系统知识库中检索包含所述关键词的问题信息,按照预设的关键词覆盖率阈值,将达到或超过所述关键词覆盖率阈值的问题信息选出形成所述问题候选集。在本专利技术的一种实施例中,所述用户交互行为表征参数为全局频率与关键词覆盖率的乘积。在本专利技术的一种实施例中,所述用户交互行为表征参数通过网页、WAP网页、或手机短信传递。本专利技术还提供了一种基于问答系统的信息匹配系统,包括表征参数设置模块,用于为问答系统知识库中的问答对配置用户交互行为表征参数,并根据用户交互行为反馈信息对所述用户交互行为表征参数进行动态更新,所述用户交互行为反馈信息为对问答系统的提问信息响应的反馈;信息匹配模块,用于根据用户输入的提问信息在问答系统知识库中获取问题候选集,以所述问题候选集中的各条问题信息的用户交互行为表征参数为索引,对所述问题候选集中的各条问题信息进行排序,向用户返回排序在前的预定数量的问题信息。本专利技术的有益效果在于通过为问答系统知识库中的问答对配置用户交互行为表征参数,根据用户输入的提问信息在问答系统知识库中获取问题候选集,并以用户交互行为表征参数为索引,对所述问题候选集中的各条问题信息进行排序,向用户返回排序在前的预定数量的问题信息, 由于用户交互行为表征参数根据用户交互行为反馈信息进行动态更新,可不断实时修正匹配信息,保证向用户返回的匹配信息的准确性,且仅返回问题候选集中的排序在前的预定5数量的信息,从而能够高效地实现基于问答系统的信息匹配。 附图说明图1为本专利技术一种实施例的方法流程图;图2为本专利技术一种实施例的系统工作原理图。具体实施例方式下面通过具体实施方式结合附图对本专利技术作进一步详细说明。如图1所示,本专利技术的基于问答系统的信息匹配方法,主要包括为问答系统知识库中的问答对配置用户交互行为表征参数,并根据用户交互行为反馈信息对所述用户交互行为表征参数进行动态更新,所述用户交互行为反馈信息为对问答系统的提问信息响应的反馈;根据用户输入的提问信息在问答系统知识库中获取问题候选集,以所述问题候选集中的各条问题信息的用户交互行为表征参数为索引,对所述问题候选集中的各条问题信息进行排序,向用户返回排序在前的预定数量的问题信息。为了提高信息搜索及匹配的精确性,一般的,可以根据用户输入的提问信息在问答系统知识库中获取问题候选集。问题候选集,即系统针对用户的提问行为而从知识库中搜索到的多个相似问题。将“所检索的问题和问答系统知识库中的问题是同一问题的概率”定义为匹配度,从而问题候选中的多个相似问题都有其各自匹配度,匹配度判断方法例如可以采用 TF-IDF (term frequency-inverse documentfrequency,用于资讯检索与资讯探勘的力口权技术)方法,或者通过计算关键词覆盖率进行判断。对于问题的关键词覆盖率,通常是对用户提问行为的问句进行语法分析,例如对于“中国最长的河流是哪条? ”的问句,通过语法分析,提取出关键词例如包括中国、最长、 河,再寻找知识库中包含有这些关键词的问题。知识库中的问题,覆盖的关键词越多,则表明匹配度越高。由于用户提问行为的问句不一定与知识库中存储的问题形式完全一致,通过获取问题候选集的方式,可以避免漏检,即保证了知识库中有相关答案却因为问题形式与用户提问句不同而在匹配过程本文档来自技高网
...

【技术保护点】
1.一种基于问答系统的信息匹配方法,其特征在于,包括:为问答系统知识库中的问答对配置用户交互行为表征参数,并根据用户交互行为反馈信息对所述用户交互行为表征参数进行动态更新,所述用户交互行为反馈信息为对问答系统的提问信息响应的反馈;根据用户输入的提问信息在问答系统知识库中获取问题候选集,以所述问题候选集中的各条问题信息的用户交互行为表征参数为索引,对所述问题候选集中的各条问题信息进行排序,向用户返回排序在前的预定数量的问题信息。

【技术特征摘要】

【专利技术属性】
技术研发人员:徐伯星卢佳杭诚方于雅洁丛鹏飞
申请(专利权)人:北京大学深圳研究生院
类型:发明
国别省市:94

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1