当前位置: 首页 > 专利查询>刘文印专利>正文

一种问题答案的阅读浏览显示方法及其系统技术方案

技术编号:2852274 阅读:227 留言:0更新日期:2012-04-11 18:40
本发明专利技术涉及一种问题答案的阅读浏览显示方法,用于提高用户阅读浏览某一问题的众多答案的效率,其特征在于,包括:步骤1,对答案进行聚类,根据答案内容之间的相似度把所述众多答案归成多个分类;步骤2,将所述多个分类中的其中一个分类或每一个分类内部的多个答案按照预先确定的融合规则进行融合。利用本发明专利技术的方法及系统,用户可以方便快速地浏览和/或查找问题的答案,并且可以对同一类的答案进行统一的操作,免去了用户浪费时间用于浏览重复内容的烦恼,提高了用户阅读浏览答案或其他信息的效率。

【技术实现步骤摘要】

本专利技术涉及模式识别领域、自然语言处理领域及计算机领域,特别是一种在互联网上帮助用户从众多答案(如从用户交互式问答系统即QA系统中得到的众多答案)中方便快速地浏览和/或查找问题答案的计算机技术及系统。
技术介绍
当今的互联网包含了数量越来越大的信息,而且被越来越多的用户所连接,这使得它正成为各种领域无关问题的答案的理想来源。虚拟社区就是一个可供人们围绕某种问题集中进行交流的地方;它通过网络,把在真实世界中相互之间无任何联系的人们聚集在一起。传统地虚拟社区有很多形式,比如讨论组,电子公告板系统(Bulletin Board System,BBS),聊天室,新闻组等,它们通常用于人们分享他们共同的兴趣,想法和感受。最近,一些新型的虚拟社区如雨后春笋般冒出来,比如Google Answers,新浪iAsk,百度知道。这些新型的社区致力于为用户提供一个崭新的交互式问答平台。虽然这些系统的服务目标定位在新的用户需求,但是它们的人机界面依旧是传统形式,用户无法通过这样的界面方便地浏览大量的不同形式的答案。在这些系统中,往往存在一些问题拥有数量众多的相似或冗余的答案,导致用户不得不浪费相当多的时间去浏览重复的内容,尤其当答案内容不一致的时候,用户更难以从中寻找一个令人满意的、完整、正确的答案。为了解决这个问题,我们提出了专利技术的方法和系统。为了解决这个问题,我们提出了一种新的对众多的答案进行聚类和融合的方法及界面。通过这种全新的人机界面,用户可以方便快速地浏览和查找问题的答案,并且可以对同一类的答案进行统一的操作,免去了用户浪费时间用于浏览重复内容的烦恼。专利技术内容本专利技术所要解决的技术问题在于提供一种问题答案的阅读浏览显示方法及其系统,使得用户可从提供的众多答案中方便快速地阅读浏览答案和/或查找答案。为了实现上述目的,本专利技术提供了一种问题答案的阅读浏览显示方法,用于提高用户阅读浏览某一问题的众多答案的效率,其中,包括步骤1,对答案进行聚类,根据答案内容之间的相似度把所述众多答案归成多个分类;和/或,步骤2,将所述多个分类中的其中一个分类或每一个分类内部的多个答案按照预先确定的融合规则进行融合。所述的问题答案阅读浏览显示方法,其中,所述步骤2进一步包括步骤201,根据问题类型和先验知识库或模板信息库中存储的问题类型和答案类型的一一对应关系确定所述答案的类型;步骤202,根据确定的答案类型预先确定答案融合的规则。所述的问题答案阅读浏览显示方法,其中,所述步骤1进一步包括步骤101,抽取答案的特征向量,将答案内容表示成机器可计算的特征向量形式;步骤102,计算所述答案特征向量之间的相似度;步骤103,识别无效答案,不对其进行聚类;步骤104,计算答案与类别之间的相似度,对答案进行聚类。所述的问题答案阅读浏览显示方法,其中,所述步骤101进一步包括步骤401,将答案内容进行切分,以将其表达成单词集合的形式;步骤402,计算所述单词集合中任两个单词T1和T2之间语义上的相似度sim(T1,T2);步骤403,计算所述单词集合中任一单词Ti的权重wi;步骤404,生成由一组单词及其相应权重组成的答案特征向量。所述的问题答案阅读浏览显示方法,其中,所述步骤401进一步包括步骤501,利用WordNet抽取出T1和T2相应的同义词表syno1,syno2和上位词表hyper1和hyper2,其中,syno1、hyper1分别为T1的同义词表和上位词表,syno2、hyper2分别为T2的同义词表和上位词表;步骤502,根据公式synoSim=|syno1∩syno2|/|syno1∪syno2|,hyperSim=|hyper1∩hyper2|/|hyper1∪hyper2计算同义词表间的相似度synoSim和上位词表间的相似度hyperSim;步骤503,根据公式sim(T1,T2)=(synoSim+hyperSim)/2计算T1和T2之间的相似度sim(T1,T2)。所述的问题答案阅读浏览显示方法,其中,所述单词的权重wi根据公式wi=log2{N/[∑jsim(Ti,Tj)*df(Tj)]}计算得出,其中,df(Tj)为包含Tj的答案的频率,N是问题的答案总数。所述的问题答案阅读浏览显示方法,其中,所述步骤102根据如下公式计算所述答案特征向量之间的相似度其中,a1、a2为问题的两个答案向量,a1={T11,T12,...,T1n},a2={T21,T22,...,T2m},其中,T11,...T1n,T21,...T2m表示答案向量中包含的词,sim(T1i,T2j)为词T1i与T2j之间的相似度,sim(T2j,T1i)为T2j与T1i之间的相似度,w1i,w2j为词T1i与T2j的权重。所述的问题答案阅读浏览显示方法,其中,所述步骤104采用增量聚类的算法对答案进行聚类,根据如下公式计算新提交的答案aj与已有分类的相似度,判断所述已有分类与答案aj的相似度中的最高的相似度值是否高于一预先设定的第一阈值;如是,则将答案aj归入此类;如否,则生成一个包含答案aj的新类;其中,计算答案与类之间相似度的公式如下其中,aj为新提交的答案,ci为包含答案ai1,ai2,...,aib的一个类,ci={ai1,ai2,...,aib},sim(aik,aj)为答案aik,aj之间的相似度,sim(ci,aj)为答案aj与类ci之间的相似度。所述的问题答案阅读浏览显示方法,其中,所述融合规则是基于答案内容和/或数据质量的;其中,采用基于数据质量的融合规则进行融合的步骤具体包括根据公式计算答案的权威性DQa,其中ability是预先确定的给出答案的用户的能力值,adjust是调整参数;根据公式计算答案的时效性DQt,tq是用户提问时间,tc是答案发布时间;根据公式计算答案的可靠性DQr,其中,reputation是预先确定的给出答案的用户的信誉值,adjust是调整参数;以及根据公式dq=∑wiDQi计算答案的综合质量值dq,并选择dq值最大的答案作为融合结果,其中i=a,t,r,wi是对应数据质量属性元素DQi的相应的权值,∑iwi=1。所述的问题答案阅读浏览显示方法,其中,所述步骤2进一步包括步骤1001,利用基于数据质量的融合规则过滤部分答案;步骤1002,利用基于答案内容的融合规则融合经过过滤后剩余的答案以获得最后的融合结果。本专利技术还提供了一种问题回答系统,用于供用户利用其工作站通过网络系统进行交互式提问和回答,包括一提问模块,用于供用户利用其工作站通过网络系统进行提问;及一回答模块,用于供用户利用其工作站通过网络系统对问题进行回答;其中,还包括一问题答案聚类模块,用于根据答案内容之间的相似度把用户提供的针对某一问题的众多答案归成多个分类,以对答案进行聚类;一问题答案融合模块,用于将所述多个分类中的其中一个分类或每一个分类内部的多个答案按照预先确定的融合规则进行融合。所述的系统,其中,进一步包括一人机界面,用于供用户输入提问、输入回答和/或显示问题答案的融合结果。所述的问题答案阅读浏览显示方法,其中,所述问题答案融合模块进一步包括答案类型确定模块,用于根据问题类型和先验知识库或模板信息库中存储的问题类型和答案类型本文档来自技高网...

【技术保护点】
一种问题答案的阅读浏览显示方法,用于提高用户阅读浏览某一问题的众多答案的效率,其特征在于,包括:步骤1,对答案进行聚类,根据答案内容之间的相似度把所述众多答案归成多个分类;和/或,步骤2,将所述多个分类中的其中一个分类或每一个分类内部的多个答案按照预先确定的融合规则进行融合。

【技术特征摘要】
1、一种问题答案的阅读浏览显示方法,用于提高用户阅读浏览某一问题的众多答案的效率,其特征在于,包括步骤1,对答案进行聚类,根据答案内容之间的相似度把所述众多答案归成多个分类;和/或,步骤2,将所述多个分类中的其中一个分类或每一个分类内部的多个答案按照预先确定的融合规则进行融合。2、根据权利要求1所述的问题答案阅读浏览显示方法,其特征在于,所述步骤2进一步包括步骤201,根据问题类型和先验知识库或模板信息库中存储的问题类型和答案类型的一一对应关系确定所述答案的类型;步骤202,根据确定的答案类型预先确定答案融合的规则。3、根据权利要求1或2所述的问题答案阅读浏览显示方法,其特征在于,所述步骤1进一步包括步骤101,抽取答案的特征向量,将答案内容表示成机器可计算的特征向量形式;步骤102,计算所述答案特征向量之间的相似度;步骤103,识别无效答案,不对其进行聚类;步骤104,计算答案与类别之间的相似度,对答案进行聚类。4、根据权利要求3所述的问题答案阅读浏览显示方法,其特征在于,所述步骤101进一步包括步骤401,将答案内容进行切分,以将其表达成单词集合的形式;步骤402,计算所述单词集合中任两个单词T1和T2之间语义上的相似度sim(T1,T2);步骤403,计算所述单词集合中任一单词Ti的权重wi;步骤404,生成由一组单词及其相应权重组成的答案特征向量。5、根据权利要求4所述的问题答案阅读浏览显示方法,其特征在于,所述步骤401进一步包括步骤501,利用WordNet抽取出T1和T2相应的同义词表syno1,syno2和上位词表hyper1和hyper2,其中,syno1、hyper1分别为T1的同义词表和上位词表,syno2、hyper2分别为T2的同义词表和上位词表;步骤502,根据公式synoSim=|syno1∩syno2|/|syno1∪syno2|,hyperSim=|hyper1∩hyper2|/|hyper1∪hyper2计算同义词表间的相似度synoSim和上位词表间的相似度hyperSim;步骤503,根据公式sim(T1,T2)=(synoSim+hyperSim)/2计算T1和T2之间的相似度sim(T1,T2)。6、根据权利要求5所述的问题答案阅读浏览显示方法,其特征在于,所述单词的权重wi根据公式wi=log2{N/[∑jsim(Ti,Tj)*df(Tj)]}计算得出,其中,df(Tj)为包含Tj的答案的频率,N是问题的答案总数。7、根据权利要求6所述的问题答案阅读浏览显示方法,其特征在于,所述步骤102根据如下公式计算所述答案特征向量之间的相似度其中,a1、a2为问题的两个答案向量,a1={T11,T12,...,T1n},a2={T21,T22,...,T2m},其中,T11,...T1n,T21,...T2m表示答案向量中包含的词,sim(T1i,T2j)为词T1i与T2j之间的相似度,sim(T2j,T1i)为T2j与T1i之间的相似度,w1i,w2j为词T1i与T2j的权重。8、根据权利要求3所述的问题答案阅读浏览显示方法,其特征在于,所述步骤104采用增量聚类的算法对答案进行聚类,根据如下公式计算新提交的答案aj与已有分类的相似度,判断所述已有分类与答案aj的相似度中的最高的相似...

【专利技术属性】
技术研发人员:刘文印
申请(专利权)人:刘文印
类型:发明
国别省市:11[中国|北京]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1