The invention discloses a method of quality evaluation questions, for improving accuracy of the quality evaluation question, the method includes: obtaining the evaluation problem of answering to content words and content words in the record; from the knowledge base in the quiz quiz selection and access to the problems in words and answer content words are matched; according to the matching quiz record problems in words and answer the semantic relatedness between words, evaluation of the quality of answers accordingly, the invention also discloses a device for the quality evaluation of qa.
【技术实现步骤摘要】
一种评价问答对质量的方法和装置
本申请涉及计算机
,尤其涉及一种评价问答对质量的方法和装置。
技术介绍
随着互联网技术的蓬勃发展,用户在生活或工作遇到各种各样的问题时越来越倾向于在问答等社区或者是其他网页中搜索答案。问答社区的基本形式通常为用户根据自己的需求提出问题,并由其他的用户来给出答案。这种形式为用户在网络上获取答案信息提供了新的渠道。然而由于任何用户都可以随意地创建内容,即创建问题和创建答案,导致了问答社区中的信息质量差异非常大,致使问答社区中出现了大量的低质量问答对,降低了问答社区的质量。为了解决上述问题,问答对质量评价方法的研究工作逐渐开展起来,目前主要是将问答对质量评价问题看作是高质量问答对和低质量问答对的二分类问题,使用文本特征对问题和答案分别建立分类模型,最终将两个分类模型的预测结果融合起来进而对问答对质量进行评价,这里的文本特征主要指文本视觉特征(例如标点符号密度,平均词长,文本熵等)和文本内容特征(例如文本内容词比例,疑问词密度,相关词覆盖等)。使用文本特征来描述问题和答案时,对问题和答案分别提取出特征后,在训练集上分别学习出一个问题质量预测模型和答案质量预测模型,并使用两个模型的输出结果来评价问答对质量。该技术对问答对质量评价时,仅仅使用了相关词覆盖特征来描述问题和答案间的语义匹配度,这不但仅仅是停留在词法层面上的,而且很多问题和答案间并不存在相关词的覆盖,从而导致问题和答案间的语义匹配度为0,然而问题和答案间的语义匹配度恰恰是问答对质量的核心,例如问答社区中某一问题为“山东的省会是哪个城市”,相应的答案有以下两个“济南”,“ ...
【技术保护点】
一种评价问答对质量的方法,其特征在于,包括:获取待评价问答对的问题内容中的词语和答案内容中的词语;从问答知识库中选取与获取到的问题内容中的词语和答案内容中的词语均相匹配的问答记录,其中,一条问答记录包括一个问题词语、与所述问题词语相关联的多个答案词语,以及每个答案词语分别和所述问题词语之间的语义相关度;根据相匹配的问答记录中的问题词语和答案词语之间的语义相关度,对问答对的质量进行评价。
【技术特征摘要】
1.一种评价问答对质量的方法,其特征在于,包括:获取待评价问答对的问题内容中的词语和答案内容中的词语;从问答知识库中选取与获取到的问题内容中的词语和答案内容中的词语均相匹配的问答记录,其中,一条问答记录包括一个问题词语、与所述问题词语相关联的多个答案词语,以及每个答案词语分别和所述问题词语之间的语义相关度;根据相匹配的问答记录中的问题词语和答案词语之间的语义相关度,对问答对的质量进行评价。2.根据权利要求1所述的方法,其特征在于,从问答知识库中选取与获取到的问题内容中的词语和答案内容中的词语均相匹配的问答记录,具体包括:将获取到的问题内容中的词语与问答记录中的问题词语相匹配,如果匹配成功,则标记该问答记录;然后将将获取到的答案内容中的词语与标记的问答记录中的答案词语相匹配,如果匹配成功,则选取该问答记录。3.根据权利要求1所述的方法,其特征在于,获取待评价问答对的问题内容中的词语和答案内容中的词语之前,所述方法还包括:预先提取出多个问答对,并获取每个问答对对应的类别,构建包含有多条问答记录的问答知识库。4.根据权利要求3所述的方法,其特征在于,构建包含有多条问答记录的问答知识库,具体包括:对提取的每一个问答对,提取该问答对的问题内容和答案内容中的词语,得到问题词语集合和答案词语集合;令问题词语集合中的每个问题词语和答案词语集合中的每个答案词语分别在与该问答对对应的每个类别上形成一条信息记录;对每一条信息记录,执行以下操作:计算该答案词语属于该类别的概率,计算在该类别上该答案词语对该问题词语的解释的专一程度,计算在该类别上该问题词语用该答案词语进行解释的强度;将上述概率、专一程度和强度相乘,所得到的乘积是该答案词语和该问题词语的语义相关度;令该问题词语,多个答案词语和多个答案词语中的每个答案词语和所述问题词语之间的语义相关度形成一条对应于所述类别的问答记录。5.根据权利要求4所述的方法,其特征在于,计算该答案词语属于该类别的概率,具体包括:计算在该类别上该答案词语对该问题词语的解释的专一程度,具体包括:计算在该类别上该问题词语用该答案词语进行解释的强度,具体包括:将概率、专一程度和强度相乘,具体包括:...
【专利技术属性】
技术研发人员:孙林,陈培军,秦吉胜,
申请(专利权)人:北京奇虎科技有限公司,奇智软件北京有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。