【技术实现步骤摘要】
一种优化问答对的搜索排名的装置和方法
本专利技术涉及网络数据通信领域,具体涉及一种优化问答对的搜索排名的装置和方法。
技术介绍
问答社区是一种用户产生内容的网络应用,基本形式是由用户根据自己的需求提出问题,并由其他的用户来给出回答。这种形式为用户在网络上获取信息提供了新的渠道。然而由于任何用户都可以随意地创建内容,导致了问答社区中的信息质量差异非常大,以至于问答社区中出现了大量的低质量问答对。这不但降低了问答社区的质量,更给用户查找信息带来了诸多不便,例如,使用现有的搜索技术进行问答搜索时,获取的搜索结果中存在部分低质量的问答对而现有技术的对搜索结果进行排序的方法,更多地依赖于问答对所属的网站和问答对的非文本特征来对问答对进行排序,会影响精确性和通用性。
技术实现思路
鉴于上述问题,提出了本专利技术以便提供一种克服上述问题或者至少部分地解决上述问题的一种优化问答对的搜索排名的装置和相应的优化问答对的搜索排名的方法。依据本专利技术的一个方面,提供了一种优化问答对的搜索排名的装置,该装置包括:问答知识库,适于存储多条问答知识记录;搜索单元,适于接收使用者的搜索请求,根据使 ...
【技术保护点】
一种优化问答对的搜索排名的装置,该装置包括:问答知识库,适于存储多条问答知识记录;搜索单元,适于接收使用者的搜索请求,根据使用者的搜索请求,获取与搜索请求匹配的多个待分析问答对;相关联程度计算单元,适于根据问答知识库获取每个待分析问答对的相关联程度;搜索排名单元,适于根据所述待分析问答对的相关联程度优化所述待分析问答对的搜索排名。
【技术特征摘要】
1.一种优化问答对的搜索排名的装置,该装置包括:问答知识库,适于存储多条问答知识记录;搜索单元,适于接收使用者的搜索请求,根据使用者的搜索请求,获取与搜索请求匹配的多个待分析问答对;相关联程度计算单元,适于根据问答知识库获取每个待分析问答对的相关联程度;搜索排名单元,适于根据所述待分析问答对的相关联程度优化所述待分析问答对的搜索排名;该装置还包括,问答知识库构建单元,所述问答知识库构建单元,适于预先从含有问答对的网页提取出多个问答对,根据提取的问答对构建包括多条问答知识记录的问答知识库;所述问答知识库构建单元,进一步适于在从含有问答对的网页提取出多个问答对时,抓取与所述问答对对应的类别;所述问答知识库构建单元,进一步适于在根据提取的问答对构建问答知识库时,根据问答对和与所述问答对对应的类别构建问答知识记录;每个问答知识记录对应于一个类别,分别包括一个问题词语、一个答案词语,以及所述问题词语和所述答案词语之间的语义相关度。2.根据权利要求1所述的装置,其中,所述相关联程度计算单元包括:词语提取子单元,适于对待分析的问答对的问题内容和答案内容进行词语提取操作,得到至少一个待分析问题词语和至少一个待分析答案词语;计算子单元,适于根据待分析问题词语和待分析答案词语,从问答知识库选择至少一条问答知识记录,根据所选择的问答知识记录计算待分析的问答对的相关联程度。3.根据权利要求1所述的装置,其中,所述搜索排名单元,适于以所述待分析问答对的相关联程度的次序作为所述待分析问答对的搜索排名。4.根据权利要求2所述的装置,其中,所述计算子单元,适于选取其包括的问题词语与待分析问题词语匹配且包括的答案词语与待分析答案词语匹配的问答知识记录;根据选取的问答知识记录中对应于相同类别的问答知识记录,得到该待分析的问答对针对各个类别的相关联程度;选取上述该待分析的问答对针对各个类别的相关联程度的最大值,以该最大值作为待分析的问答对的相关联程度。5.根据权利要求2所述的装置,其中,所述计算子单元,适于将选取的问答知识记录中对应于相同类别的问答知识记录的语义相关度加权相加,得到该待分析的问答对分别针对各个类别的相关联程度。6.根据权利要求2所述的装置,其中,所述词语提取子单元,适于对待分析的问答对的问题内容和答案内容进行分词、去除停用词、词合并,和提取实体词的操作。7.根据权利要求1至3任一项所述的装置,其中,所述问答知识库构建单元,适于对每个问答对执行以下操作:对该问答对的问题内容和答案内容进行词语提取操作,得到问题词语集合和答案词语集合;令问题词语集合中的每个问题词语与答案词语集合中的每个答案词语分别在与该问答对对应的每个类别上形成一条信息记录;所述问答知识库构建单元,适于对每一条信息记录,执行以下操作:计算该答案词语属于该问答对对应的类别的概率,计算在该问答对对应的类别上该答案词语对该问题词语的解释的专一程度,计算在该问答对对应的类别上该问题词语用该答案词语进行解释的强度;将上述概率、专一程度和强度相乘,所得到的乘积是该答案词语和该问题词语的语义相关度;令该问题词语、该答案词语和其语义相关度形成一条对应于该问答对对应的类别的问答知识记录。8.根据权利要求1至3任一项所述的装置,其中,所述问答知识库构建单元,适于按照如下的方法计算该答案词语属于该问答对对应的类别的概率:所述问答知识库构建单元,适于按照如下的方法计算在该问答对对应的类别上各个答案词语对该问题词语的解释的专一程度:所述问答知识库构建单元,适于按照如下的方法计算在该问答对对应的类别上该问题词语用各个答案词语进行解释的强度:所述问答知识库构建单元,适于按照如下的方法将上述概率、专一程度和强度相乘:weight(QWi,AWj|C=Ck)=P(Ck|AWj)*specific(QWi,AWj|C=Ck)*interpret(QWi,AWj|C=Ck);其中,P(Ck)表示类别Ck出现的概率;P(AWj)表示答案为AWj的概率;P(AWj│Ck)表示Ck类别属于AWj的概率;#(QWi,AWj)表示问题词语为QWi且答案词语为AWj的次数;#(AWj)表示答案词语为AWj的次数。9.一种优化问答对的搜索排名的方法,该方法包括如...
【专利技术属性】
技术研发人员:孙林,陈培军,秦吉胜,
申请(专利权)人:北京奇虎科技有限公司,奇智软件北京有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。