一种评价问答对质量的方法和装置制造方法及图纸

技术编号:15746669 阅读:352 留言:0更新日期:2017-07-03 02:29
本申请公开了一种评价问答对质量的方法,用于提高评价问答对质量的准确性,该方法包括:获取待评价问答对的问题内容中的词语和答案内容中的词语;从问答知识库中选取与获取到的问题内容中的词语和答案内容中的词语均相匹配的问答记录;根据相匹配的问答记录中的问题词语和答案词语之间的语义相关度,对问答对的质量进行评价,相应地,本申请还公开了一种评价问答对质量的装置。

Method and apparatus for evaluating qa quality

The invention discloses a method of quality evaluation questions, for improving accuracy of the quality evaluation question, the method includes: obtaining the evaluation problem of answering to content words and content words in the record; from the knowledge base in the quiz quiz selection and access to the problems in words and answer content words are matched; according to the matching quiz record problems in words and answer the semantic relatedness between words, evaluation of the quality of answers accordingly, the invention also discloses a device for the quality evaluation of qa.

【技术实现步骤摘要】
一种评价问答对质量的方法和装置
本申请涉及计算机
,尤其涉及一种评价问答对质量的方法和装置。
技术介绍
随着互联网技术的蓬勃发展,用户在生活或工作遇到各种各样的问题时越来越倾向于在问答等社区或者是其他网页中搜索答案。问答社区的基本形式通常为用户根据自己的需求提出问题,并由其他的用户来给出答案。这种形式为用户在网络上获取答案信息提供了新的渠道。然而由于任何用户都可以随意地创建内容,即创建问题和创建答案,导致了问答社区中的信息质量差异非常大,致使问答社区中出现了大量的低质量问答对,降低了问答社区的质量。为了解决上述问题,问答对质量评价方法的研究工作逐渐开展起来,目前主要是将问答对质量评价问题看作是高质量问答对和低质量问答对的二分类问题,使用文本特征对问题和答案分别建立分类模型,最终将两个分类模型的预测结果融合起来进而对问答对质量进行评价,这里的文本特征主要指文本视觉特征(例如标点符号密度,平均词长,文本熵等)和文本内容特征(例如文本内容词比例,疑问词密度,相关词覆盖等)。使用文本特征来描述问题和答案时,对问题和答案分别提取出特征后,在训练集上分别学习出一个问题质量预测模型和答案质量预测模型,并使用两个模型的输出结果来评价问答对质量。该技术对问答对质量评价时,仅仅使用了相关词覆盖特征来描述问题和答案间的语义匹配度,这不但仅仅是停留在词法层面上的,而且很多问题和答案间并不存在相关词的覆盖,从而导致问题和答案间的语义匹配度为0,然而问题和答案间的语义匹配度恰恰是问答对质量的核心,例如问答社区中某一问题为“山东的省会是哪个城市”,相应的答案有以下两个“济南”,“山东的省会是北京”。现有技术利用相关词覆盖特征来评价问答对质量时,根据问题和答案间的语义匹配度则会将“山东的省会是哪个城市”和“山东的省会是北京”认为是一个高质量的问答对,这明显与实际不符,由此可以看出,现有技术在问答对进行质量评价时,评价的准确性较低。
技术实现思路
为解决上述技术问题,本申请实施例提供一种评价问答对质量的方法和装置,用于提高评价问答对质量的准确性。本申请实施例采用下述技术方案:一种评价问答对质量的方法,包括:获取待评价问答对的问题内容中的词语和答案内容中的词语;从问答知识库中选取与获取到的问题内容中的词语和答案内容中的词语均相匹配的问答记录,其中,一条问答记录包括一个问题词语、与所述问题词语相关联的多个答案词语,以及每个答案词语分别和所述问题词语之间的语义相关度;根据相匹配的问答记录中的问题词语和答案词语之间的语义相关度,对问答对的质量进行评价。优选地,从问答知识库中选取与获取到的问题内容中的词语和答案内容中的词语均相匹配的问答记录,具体包括:将获取到的问题内容中的词语与问答记录中的问题词语相匹配,如果匹配成功,则标记该问答记录;然后将将获取到的答案内容中的词语与标记的问答记录中的答案词语相匹配,如果匹配成功,则选取该问答记录。优选地,获取待评价问答对的问题内容中的词语和答案内容中的词语之前,所述方法还包括:预先提取出多个问答对,并获取每个问答对对应的类别,构建包含有多条问答记录的问答知识库。优选地,构建包含有多条问答记录的问答知识库,具体包括:对提取的每一个问答对,提取该问答对的问题内容和答案内容中的词语,得到问题词语集合和答案词语集合;令问题词语集合中的每个问题词语和答案词语集合中的每个答案词语分别在与该问答对对应的每个类别上形成一条信息记录;对每一条信息记录,执行以下操作:计算该答案词语属于该类别的概率,计算在该类别上该答案词语对该问题词语的解释的专一程度,计算在该类别上该问题词语用该答案词语进行解释的强度;将上述概率、专一程度和强度相乘,所得到的乘积是该答案词语和该问题词语的语义相关度;令该问题词语,多个答案词语,和,多个答案词语中的每个答案词语和所述问题词语之间的语义相关度形成一条对应于所述类别的问答记录。优选地,计算该答案词语属于该类别的概率,具体包括:计算在该类别上该答案词语对该问题词语的解释的专一程度,具体包括:计算在该类别上该问题词语用该答案词语进行解释的强度,具体包括:将概率、专一程度和强度相乘,具体包括:weight(QWi,AWj|C=Ck)=P(Ck|AWj)*specific(QWi,AWj|C=Ck)*interpret(QWi,AWj|C=Ck)其中:P(Ck|AWj)为答案词语AWj属于类别Ck的概率;specific(QWi,AWj|C=Ck)为在类别Ck上答案词语AWj对问题词语QWi的解释的专一程度;interpret(QWi,AWj|C=Ck)为在类别Ck上问题词语QWi用答案词语AWj进行解释的强度;P(CK)表示类别Ck出现的概率;P(AWj)表示答案为AWj的概率;P(AWj|Ck)表示Ck类别属于AWj的概率;#(QWi,AWj)表示问题词语为QWi且答案词语为AWj的次数;#(AWj)表示答案词语为AWj的次数。优选地,根据相匹配的问答记录中的问题词语和答案词语之间的语义相关度,对问答对的质量进行评价,具体包括:根据相匹配的问答记录中对应于相同类别下的问答记录,并根据相匹配的问答记录中的问题词语和答案词语之间的语义相关度,得到待分析的问答对针对各个类别的相关联程度;选取上述该待分析的问答对针对各个类别的相关联程度的最大值,根据该最大值的大小对待分析的问答对进行评价。本申请实施例还提供一种评价问答对质量的装置,包括:获取模块,选取模块和评价模块,其中:所述获取模块,用于获取待评价问答对的问题内容中的词语和答案内容中的词语;所述选取模块,从问答知识库中选取与获取到的问题内容中的词语和答案内容中的词语均相匹配的问答记录;所述评价模块,用于根据相匹配的问答记录中的问题词语和答案词语之间的语义相关度,对问答对的质量进行评价。优选地,所述选取模块具体包括有匹配单元,其中:所述匹配单元,用于将获取到的问题内容中的词语与问答记录中的问题词语相匹配,如果匹配成功,则标记该问答记录;然后将将获取到的答案内容中的词语与标记的问答记录中的答案词语相匹配,如果匹配成功,则选取该问答记录。优选地,所述装置还包括问答知识库创建模块,其中:所述问答知识库创建模块,用于预先提取出多个问答对,并获取每个问答对对应的类别,构建包含有多条问答记录的问答知识库。优选地,所述评价模块具体包括有评价单元,其中:所述评价单元,用于根据相匹配的问答记录中对应于相同类别下的问答记录,并根据相匹配的问答记录中的问题词语和答案词语之间的语义相关度,得到待分析的问答对针对各个类别的相关联程度;选取上述该待分析的问答对针对各个类别的相关联程度的最大值,根据该最大值的大小对待分析的问答对进行评价。本申请实施例采用的上述至少一个技术方案能够达到以下有益效果:根据获取到的待评价问答对的问题内容中的词语和答案内容中的词语,从问答知识库中选取与获取到的问题内容中的词语和答案内容中的词语均相匹配的问答记录,根据相匹配的问答记录中的问题词语和答案词语之间的语义相关度,对问答对的质量进行评价,相对于现有技术中仅仅根据待评价的问题和答案的相关词覆盖特征来评价问答对质量,提高评价的准确性。附图说明此处所说明的附图用来提供对本申请的进一步理解,构成本本文档来自技高网
...
一种评价问答对质量的方法和装置

【技术保护点】
一种评价问答对质量的方法,其特征在于,包括:获取待评价问答对的问题内容中的词语和答案内容中的词语;从问答知识库中选取与获取到的问题内容中的词语和答案内容中的词语均相匹配的问答记录,其中,一条问答记录包括一个问题词语、与所述问题词语相关联的多个答案词语,以及每个答案词语分别和所述问题词语之间的语义相关度;根据相匹配的问答记录中的问题词语和答案词语之间的语义相关度,对问答对的质量进行评价。

【技术特征摘要】
1.一种评价问答对质量的方法,其特征在于,包括:获取待评价问答对的问题内容中的词语和答案内容中的词语;从问答知识库中选取与获取到的问题内容中的词语和答案内容中的词语均相匹配的问答记录,其中,一条问答记录包括一个问题词语、与所述问题词语相关联的多个答案词语,以及每个答案词语分别和所述问题词语之间的语义相关度;根据相匹配的问答记录中的问题词语和答案词语之间的语义相关度,对问答对的质量进行评价。2.根据权利要求1所述的方法,其特征在于,从问答知识库中选取与获取到的问题内容中的词语和答案内容中的词语均相匹配的问答记录,具体包括:将获取到的问题内容中的词语与问答记录中的问题词语相匹配,如果匹配成功,则标记该问答记录;然后将将获取到的答案内容中的词语与标记的问答记录中的答案词语相匹配,如果匹配成功,则选取该问答记录。3.根据权利要求1所述的方法,其特征在于,获取待评价问答对的问题内容中的词语和答案内容中的词语之前,所述方法还包括:预先提取出多个问答对,并获取每个问答对对应的类别,构建包含有多条问答记录的问答知识库。4.根据权利要求3所述的方法,其特征在于,构建包含有多条问答记录的问答知识库,具体包括:对提取的每一个问答对,提取该问答对的问题内容和答案内容中的词语,得到问题词语集合和答案词语集合;令问题词语集合中的每个问题词语和答案词语集合中的每个答案词语分别在与该问答对对应的每个类别上形成一条信息记录;对每一条信息记录,执行以下操作:计算该答案词语属于该类别的概率,计算在该类别上该答案词语对该问题词语的解释的专一程度,计算在该类别上该问题词语用该答案词语进行解释的强度;将上述概率、专一程度和强度相乘,所得到的乘积是该答案词语和该问题词语的语义相关度;令该问题词语,多个答案词语和多个答案词语中的每个答案词语和所述问题词语之间的语义相关度形成一条对应于所述类别的问答记录。5.根据权利要求4所述的方法,其特征在于,计算该答案词语属于该类别的概率,具体包括:计算在该类别上该答案词语对该问题词语的解释的专一程度,具体包括:计算在该类别上该问题词语用该答案词语进行解释的强度,具体包括:将概率、专一程度和强度相乘,具体包括:...

【专利技术属性】
技术研发人员:孙林陈培军秦吉胜
申请(专利权)人:北京奇虎科技有限公司奇智软件北京有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1