一种获取问答对的相关联程度的装置和方法制造方法及图纸

技术编号:9668047 阅读:99 留言:0更新日期:2014-02-14 06:37
本发明专利技术公开了一种获取问答对的相关联程度的装置和方法,用于获取问答对的相关联程度,该方法包括如下步骤:对待分析的问答对的问题内容和答案内容进行词语提取操作,得到至少一个待分析问题词语和至少一个待分析答案词语;根据待分析问题词语和待分析答案词语,从包括多条问答知识记录的问答知识库选择至少一条问答知识记录,根据所选择的问答知识记录计算待分析的问答对的相关联程度。使用本发明专利技术的装置和方法,可以从语义方面评价问答对的质量,评价效果更好,而且容易实现、通用性强。

【技术实现步骤摘要】
一种获取问答对的相关联程度的装置和方法
本专利技术涉及网络数据通信领域,具体涉及一种获取问答对的相关联程度的装置和方法。
技术介绍
问答社区是一种用户产生内容的网络应用,基本形式是由用户根据自己的需求提出问题,并由其他的用户来给出回答。这种形式为用户在网络上获取信息提供了新的渠道。然而由于任何用户都可以随意地创建内容,导致了问答社区中的信息质量差异非常大,以至于问答社区中出现了大量的低质量问答对。这不但给用户查找信息带来了诸多不便,同时也降低了问答社区的质量。同时,现有技术的方法,更多地依赖于问答对的非文本特征来评价问答对质量,会影响其通用性。
技术实现思路
鉴于上述问题,提出了本专利技术以便提供一种克服上述问题或者至少部分地解决上述问题的一种获取问答对的相关联程度的装置和相应的获取问答对的相关联程度的方法。依据本专利技术的一个方面,提供了一种获取问答对的相关联程度的装置,该装置包括:问答知识库,适于存储多条问答知识记录;词语提取单元,适于对待分析的问答对的问题内容和答案内容进行词语提取操作,得到至少一个待分析问题词语和至少一个待分析答案词语;相关联程度计算单元,适于根据待分析问题词语和待分析答案词语,从问答知识库选择至少一条问答知识记录,根据所选择的问答知识记录计算待分析的问答对的相关联程度。可选地,该装置进一步包括问答知识库构建单元,所述问答知识库构建单元,适于预先从含有问答对的网页提取出多个问答对,根据提取的问答对构建包括多条问答知识记录的问答知识库;所述问答知识库构建单元,进一步适于在从含有问答对的网页提取出多个问答对时,抓取与所述问答对对应的类别;所述问答知识库构建单元,进一步适于在根据提取的问答对构建问答知识库时,根据问答对和与所述问答对对应的类别构建问答知识记录;每个问答知识记录对应于一个类别,分别包括一个问题词语、一个答案词语,以及所述问题词语和所述答案词语之间的语义相关度。可选地,所述相关联程度计算单元,适于选取其包括的问题词语与待分析问题词语匹配且包括的答案词语与待分析答案词语匹配的问答知识记录;根据所述选取的问答知识记录中对应于相同类别的问答知识记录,得到该待分析的问答对针对各个类别的相关联程度;选取上述该待分析的问答对针对各个类别的相关联程度的最大值,以该最大值作为待分析的问答对的相关联程度。可选地,所述相关联程度计算单元,适于将选取的问答知识记录中对应于相同类别的问答知识记录的语义相关度加权相加,得到该待分析的问答对分别针对各个类别的相关联程度。可选地,所述词语提取单元,适于对待分析的问答对的问题内容和答案内容进行分词、去除停用词、词合并,和提取实体词的操作。可选地,所述问答知识库构建单元,适于对每个问答对执行以下操作:对该问答对的问题内容和答案内容进行词语提取操作,得到问题词语集合和答案词语集合;令问题词语集合中的每个问题词语与答案词语集合中的每个答案词语分别在与该问答对对应的每个类别上形成一条信息记录;所述问答知识库构建单元,适于对每一条信息记录,执行以下操作:计算该答案词语属于该类别的概率,计算在该类别上该答案词语对该问题词语的解释的专一程度,计算在该类别上该问题词语用该答案词语进行解释的强度;将上述概率、专一程度和强度相乘,所得到的乘积是该答案词语和该问题词语的语义相关度;令该问题词语、该答案词语和其语义相关度形成一条对应于该类别的问答知识记录。可选地,所述问答知识库构建单元,适于按照如下的方法计算该答案词语属于该类别的概率:所述问答知识库构建单元,适于按照如下的方法计算在该类别上各个答案词语对该问题词语的解释的专一程度:所述问答知识库构建单元,适于按照如下的方法计算在该类别上该问题词语用各个答案词语进行解释的强度:所述问答知识库构建单元,适于按照如下的方法将上述概率、专一程度和强度相乘:weight(QWi,AWj|C=Ck)=P(Ck|AWj)*specific(QWi,AWj|C=Ck)*interpret(QWi,AWj|C=Ck);其中,P(Ck)表示类别Ck出现的概率;P(AWj)表示答案为AWj的概率;P(AWj│Ck)表示Ck类别属于AWj的概率;#(QWi,AWj)表示问题词语为QWi且答案词语为AWj的次数;#(AWj)表示答案词语为AWj的次数。根据本专利技术的另一方面,提供了一种获取问答对的相关联程度的方法,该方法包括如下步骤:对待分析的问答对的问题内容和答案内容进行词语提取操作,得到至少一个待分析问题词语和至少一个待分析答案词语;根据待分析问题词语和待分析答案词语,从包括多条问答知识记录的问答知识库选择至少一条问答知识记录,根据所选择的问答知识记录计算待分析的问答对的相关联程度。可选地,该方法进一步包括:预先从含有问答对的网页提取出多个问答对,根据提取的问答对构建包括多条问答知识记录的问答知识库;在从含有问答对的网页提取出多个问答对时,抓取与所述问答对对应的类别;在根据提取的问答对构建问答知识库时,根据问答对和与所述问答对对应的类别构建问答知识记录;每个问答知识记录对应于一个类别,分别包括一个问题词语、一个答案词语,以及所述问题词语和所述答案词语之间的语义相关度。可选地,所述根据待分析问题词语和待分析答案词语,从问答知识库选择至少一条问答知识记录,根据所选择的问答知识记录计算待分析的问答对的相关联程度,具体包括:选取其包括的问题词语与待分析问题词语匹配且包括的答案词语与待分析答案词语匹配的问答知识记录;根据所述选取的问答知识记录中对应于相同类别的问答知识记录,得到该待分析的问答对针对各个类别的相关联程度;选取上述该待分析的问答对针对各个类别的相关联程度的最大值,以该最大值作为待分析的问答对的相关联程度。可选地,根据所述选取的问答知识记录中对应于相同类别的问答知识记录,得到该待分析的问答对分别针对各个类别的相关联程度,具体包括:将选取的问答知识记录中对应于相同类别的问答知识记录的语义相关度加权相加,得到该待分析的问答对分别针对各个类别的相关联程度。可选地,所述对所述待分析的问答对的问题内容和答案内容进行词语提取操作,具体包括:对待分析的问答对的问题内容和答案内容进行分词、去除停用词、词合并,和提取实体词的操作。可选地,所述根据问答对和与所述问答对对应的类别构建问答知识库,具体包括:对每个问答对,对该问答对的问题内容和答案内容进行词语提取操作,得到问题词语集合和答案词语集合;令问题词语集合中的每个问题词语与答案词语集合中的每个答案词语分别在与该问答对对应的每个类别上形成一条信息记录;对每一条信息记录,执行以下操作:计算该答案词语属于该类别的概率,计算在该类别上该答案词语对该问题词语的解释的专一程度,计算在该类别上该问题词语用该答案词语进行解释的强度本文档来自技高网...
一种获取问答对的相关联程度的装置和方法

【技术保护点】
一种获取问答对的相关联程度的装置,该装置包括:问答知识库,适于存储多条问答知识记录;词语提取单元,适于对待分析的问答对的问题内容和答案内容进行词语提取操作,得到至少一个待分析问题词语和至少一个待分析答案词语;相关联程度计算单元,适于根据待分析问题词语和待分析答案词语,从问答知识库选择至少一条问答知识记录,根据所选择的问答知识记录计算待分析的问答对的相关联程度。

【技术特征摘要】
1.一种获取问答对的相关联程度的装置,该装置包括:问答知识库,适于存储多条问答知识记录;词语提取单元,适于对待分析的问答对的问题内容和答案内容进行词语提取操作,得到至少一个待分析问题词语和至少一个待分析答案词语;相关联程度计算单元,适于根据待分析问题词语和待分析答案词语,从问答知识库选择至少一条问答知识记录,根据所选择的问答知识记录计算待分析的问答对的相关联程度;所述相关联程度计算单元,具体适于选取其包括的问题词语与待分析问题词语匹配且包括的答案词语与待分析答案词语匹配的问答知识记录;根据所述选取的问答知识记录中对应于相同类别的问答知识记录,得到该待分析的问答对针对各个类别的相关联程度;选取该待分析的问答对针对各个类别的相关联程度的最大值,以该最大值作为待分析的问答对的相关联程度。2.根据权利要求1所述的装置,其中,该装置进一步包括问答知识库构建单元,所述问答知识库构建单元,适于预先从含有问答对的网页提取出多个问答对,根据提取的问答对构建包括多条问答知识记录的问答知识库;所述问答知识库构建单元,进一步适于在从含有问答对的网页提取出多个问答对时,抓取与所述问答对对应的类别;所述问答知识库构建单元,进一步适于在根据提取的问答对构建问答知识库时,根据问答对和与所述问答对对应的类别构建问答知识记录;每个问答知识记录对应于一个类别,分别包括一个问题词语、一个答案词语,以及所述问题词语和所述答案词语之间的语义相关度。3.根据权利要求2所述的装置,其中,所述问答知识库构建单元,适于对每个问答对执行以下操作:对该问答对的问题内容和答案内容进行词语提取操作,得到问题词语集合和答案词语集合;令问题词语集合中的每个问题词语与答案词语集合中的每个答案词语分别在与该问答对对应的每个类别上形成一条信息记录;所述问答知识库构建单元,适于对每一条信息记录,执行以下操作:计算该答案词语属于该类别的概率,计算在该类别上该答案词语对该问题词语的解释的专一程度,计算在该类别上该问题词语用该答案词语进行解释的强度;将上述概率、专一程度和强度相乘,所得到的乘积是该答案词语和该问题词语的语义相关度;令该问题词语、该答案词语和其语义相关度形成一条对应于该类别的问答知识记录。4.根据权利要求1至3任一权利要求所述的装置,其中,所述相关联程度计算单元,适于将选取的问答知识记录中对应于相同类别的问答知识记录的语义相关度加权相加,得到该待分析的问答对分别针对各个类别的相关联程度。5.根据权利要求1至3任一权利要求所述的装置,其中,所述词语提取单元,适于对待分析的问答对的问题内容和答案内容进行分词、去除停用词、词合并,和提取实体词的操作。6.根据权利要求3所述的装置,其中,所述问答知识库构建单元,适于按照如下的方法计算该答案词语属于该类别的概率:所述问答知识库构建单元,适于按照如下的方法计算在该类别上各个答案词语对该问题词语的解释的专一程度:所述问答知识库构建单元,适于按照如下的方法计算在该类别上该问题词语用各个答案词语进行解释的强度:所述问答知识库构建单元,适于按照如下的方法将上述概率、专一程度和强度相乘:weight(QWi,AWj|C=Ck)=P(Ck|AWj)*specific(QWi,AWj|C=Ck)*interpret(QWi,AWj|C=Ck);其中,P(Ck)表示类别Ck出现的概率;P(AWj)表示答案为AWj的概率;P(AWj│Ck)表示Ck类别属于AWj的概率;#(QWi,AWj)表示问题词语为QWi且答案词语为AWj的次数;#(AWj)表示答案词语为AW...

【专利技术属性】
技术研发人员:孙林陈培军秦吉胜
申请(专利权)人:北京奇虎科技有限公司奇智软件北京有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1