The invention discloses a method and a device for constructing a question and answer knowledge base, and then uses the completed question and answer knowledge base to evaluate the question and answer pairs, thereby improving the accuracy of the question and answer evaluation. The Q & a knowledge base consists of a plurality of answers are recorded, the method comprises: acquiring FAQ content and the answers to the category of the content extraction; quiz in words and content words in the question and answer sets of words are sets of words; each answer words make the problem of each word the problems in the collection of words and words in the set of answers to form an information recording, and for each piece of information recorded, calculated the answer words words and the FAQ category under the semantic relatedness in the will; a problem between words, words words words for each answer answer multiple answers the words in the collection and a number of words in the answer and the problem of semantic correlation to form a Q & a record.
【技术实现步骤摘要】
一种问答知识库的构建方法和装置
本申请涉及计算机
,尤其涉及一种问答知识库的构建方法和装置。
技术介绍
随着互联网技术的蓬勃发展,用户在生活或工作遇到各种各样的问题时越来越倾向于在问答等社区或者是其他网页中搜索答案。问答社区的基本形式通常为用户根据自己的需求提出问题,并由其他的用户来给出答案。这种形式为用户在网络上获取答案信息提供了新的渠道。然而由于任何用户都可以随意地创建内容,即创建问题和创建答案,导致了问答社区中的信息质量差异非常大,因此需要对问答对的质量进行评价,进而根据评价结果将质量较好的问答对排名靠前,又或者是删除质量较差的问答对等。目前,对问答对的质量评价时,仅仅使用了相关词覆盖特征来描述问题和答案间的语义匹配度,这不但仅仅是停留在词法层面上的,而且很多问题和答案间并不存在相关词的覆盖,从而导致问题和答案间的语义匹配度为0,然而问题和答案间的语义匹配度恰恰是问答对质量的核心,例如问答社区中某一问题为“山东的省会是哪个城市”,相应的答案有以下两个“济南”,“山东的省会是北京”。现有技术利用相关词覆盖特征来评价问答对质量时,根据问题和答案间的语义匹配度则会将“山东的省会是哪个城市”和“山东的省会是北京”认为是一个高质量的问答对,而“山东的省会是哪个城市”和“济南”,之间的语义匹配度为0,因此被认为是一个低质量问答对,这明显与实际不符,因此有必要预先构建出问答知识库,进而利用问答知识库对常用的问答对进行评价。
技术实现思路
为解决上述技术问题,本申请实施例提供一种问答知识库的构建方法和装置,用于利用构建完成的问答知识库对问答对进行评价,进而提高对问 ...
【技术保护点】
一种问答知识库的构建方法,其特征在于,所述问答知识库由多条问答记录构成,所述方法包括:获取问答对的内容以及所述问答对所属的类别;提取问答对的问题内容中的词语和答案内容中的词语,得到问题词语集合和答案词语集合;令问题词语集合中的每个问题词语和答案词语集合中的每个答案词语分形成一条信息记录,并且对每一条信息记录,计算该答案词语和该问题词语在所述问答对所属类别下的语义相关度;将一个问题词语,答案词语集合中的多个答案词语和多个答案词语中的每个答案词语和所述问题词语之间的语义相关度形成一条问答记录。
【技术特征摘要】
1.一种问答知识库的构建方法,其特征在于,所述问答知识库由多条问答记录构成,所述方法包括:获取问答对的内容以及所述问答对所属的类别;提取问答对的问题内容中的词语和答案内容中的词语,得到问题词语集合和答案词语集合;令问题词语集合中的每个问题词语和答案词语集合中的每个答案词语分形成一条信息记录,并且对每一条信息记录,计算该答案词语和该问题词语在所述问答对所属类别下的语义相关度;将一个问题词语,答案词语集合中的多个答案词语和多个答案词语中的每个答案词语和所述问题词语之间的语义相关度形成一条问答记录。2.根据权利要求1所述的方法,其特征在于,计算该答案词语和该问题词语在所述问答对所属类别下的语义相关度,具体包括:计算该答案词语属于该类别的概率,计算在该类别上该答案词语对该问题词语的解释的专一程度,计算在该类别上该问题词语用该答案词语进行解释的强度;将上述概率、专一程度和强度相乘,所得到的乘积为该答案词语和该问题词语在所述问答对所属类别下的语义相关度。3.根据权利要求2所述的方法,其特征在于,计算该答案词语属于该类别的概率,具体包括:计算在该类别上该答案词语对该问题词语的解释的专一程度,具体包括:计算在该类别上该问题词语用该答案词语进行解释的强度,具体包括:将概率、专一程度和强度相乘,具体包括:weight(QWi,AWj|C=Ck)=P(Ck|AWj)*specific(QWi,AWj|C=Ck)*interpret(QWi,AWj|C=Ck)其中:P(Ck|AWj)为答案词语AWj属于类别Ck的概率;specific(QWi,AWj|C=Ck)为在类别Ck上答案词语AWj对问题词语QWi的解释的专一程度;interpret(QWi,AWj|C=Ck)为在类别Ck上问题词语QWi用答案词语AWj进行解释的强度;P(CK)表示类别Ck出现的概率;P(AWj)表示答案为AWj的概率;P(AWj|Ck)表示Ck类别属于AWj的概率;#(QWi,AWj)表示问题词语为QWi且答案词语为AWj的次数;#(AWj)表示答案词语为AWj的次数。4.根据权利要求1所述的方法,其特征在于,所述问答对为高质量问答对,其中问答对分为高质量问答对和低质量问答对。5.根据权利要求1至4任一项所述的方法,其特征在于,提取问答对的问题内容中的词语和答案内容中的词语,得到问题词语集合和答案词语集合,具体包括:分别对问题内容和答案内容经过分词、去除停用词、wordjoin,提取实体词,得到问题词语集合和答案词语集合如下:(<QW1,QW2,…,QWi,…,QWm>,<AW1,AW2,…,AWi,…,AWn>)其中,QWi表示一个问题词语;AWi表示一个答案词语。6.一种问答知识库的构建装置,其特征在于,所述问答知识库由多条问...
【专利技术属性】
技术研发人员:孙林,陈培军,秦吉胜,
申请(专利权)人:北京奇虎科技有限公司,奇智软件北京有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。