The embodiment of the present invention discloses a method, device, computer equipment and storage medium for verifying community question and answer data. The method includes: acquiring the community question-and-answer data set and generating multiple question-and-answer pairs according to the community question-and-answer data set. The question-and-answer pairs include: questions and the corresponding answers to the questions to be verified; generating the authoritative data set according to the data stored in at least one confidence source site; and generating the authoritative data set according to the answers to be verified and the authoritative data in the authoritative data set at least. The similarity score under one dimension is used to verify the authority of the answers to be verified. The embodiment of the invention can quickly verify the authority of a large number of question and answer data and effectively guarantee the authority, objectivity and accuracy of the answers.
【技术实现步骤摘要】
社区问答数据的校验方法、装置、计算机设备和存储介质
本专利技术实施例涉及数据处理技术,尤其涉及一种社区问答数据的校验方法、装置、计算机设备和存储介质。
技术介绍
随着科技的发展和互联网技术的不断进步,基于搜索的互动式社区问答平台已经成为人们生活中和工作中获取和分享知识的一种重要渠道。社区问答(CommunityQuestionAnswering,CQA)是结合开放知识共享性网站(例如:百度知道、Yahoo!Answers、腾讯搜搜问问、新浪爱问等),通过用户参与,利用网络用户的集体智慧,提供问题的直接答案。同时,这些问题的答案又可以作为搜索结果提供给其他有相同或相似问题的用户,达到共享知识的效果,以及在一定程度上解决了用户精确查询的需求。但在CQA数据中,答案质量差异较大,在提供有用答案的同时可能包含各种无关、低质量、甚至恶意的信息。对此类答案进行判别和过滤,并选取高质量的问题与答案对,有助于在基于社区的自动问答系统中重用相关问题的答案以提高问答系统的服务质量。现阶段高质量、高准确率的CQA数据筛选主要通过人工审核、多维显式特征筛选及语义检索模型过滤。随着互联网数据指数级升级,人工审核尤为显得杯水车薪。多维显示特征目前比较依赖用户行为(如点赞或点踩等),这些信息对判定答案是否有意义虽然具有一定的指向性帮助,但用户点赞、点踩的行为受一定主观情绪影响,且容易出现低质量甚至恶意的答案;此外这些信息不够全面,针对暴露程度不高的问答数据,没有足够的用户信息。目前的语义检索模型,通常都是从语义层面计算CQA中问题和答案的相关性,但是也无法保证答案是否客观和权威。例如: ...
【技术保护点】
1.一种社区问答数据的校验方法,其特征在于,包括:获取社区问答数据集,并根据所述社区问答数据集,生成多个问答对,所述问答对包括:问题,以及与问题对应的待验证答案;根据至少一个置信源站点中存储的数据,生成权威数据集;根据各所述待验证答案与所述权威数据集中的权威数据在至少一个维度下的相似性得分,对各所述待验证答案进行权威度校验。
【技术特征摘要】
1.一种社区问答数据的校验方法,其特征在于,包括:获取社区问答数据集,并根据所述社区问答数据集,生成多个问答对,所述问答对包括:问题,以及与问题对应的待验证答案;根据至少一个置信源站点中存储的数据,生成权威数据集;根据各所述待验证答案与所述权威数据集中的权威数据在至少一个维度下的相似性得分,对各所述待验证答案进行权威度校验。2.根据权利要求1所述的方法,其特征在于,所述根据各所述待验证答案与所述权威数据集中的权威数据在至少一个维度下的相似性得分,对各所述待验证答案进行权威度校验,包括:将所述待验证答案在所述权威数据集中进行检索,筛选出设定数量的满足相关性条件的目标权威数据;在至少一个目标维度下,分别计算所述待验证答案与各所述目标权威数据的相似性得分;根据所述相似性得分,对所述待验证答案进行权威度校验。3.根据权利要求2所述的方法,其特征在于,所述目标维度包括:关键词维度、句子维度或语义维度。4.根据权利要求3所述的方法,其特征在于,在关键词维度下,分别计算所述待验证答案与各所述目标权威数据的相似性得分,包括:分别获取所述待验证答案中包括的第一关键词集合,以及各所述目标权威数据中包括的第二关键词集合;获取所述第一关键词集合命中各所述第二关键词集合的关键词数量;根据所述关键词数量以及各所述第二关键词集合中包括的关键词总数量,计算在所述关键词维度下,所述待验证答案与各所述目标权威数据的相似性得分。5.根据权利要求3所述的方法,其特征在于,在句子维度下,分别计算所述待验证答案与各所述目标权威数据的相似性得分,包括:分别验证所述待验证答案是否命中各所述目标权威数据中包括的句子;根据命中结果,计算在所述句子维度下,所述待验证答案与各所述目标权威数据的相似性得分。6.根据权利要求3所述的方法,其特征在于,在语义维度下,分别计算所述待验证答案与各所述目标权威数据的相似性得分,包括:分别将所述待验证答案以及各所述目标权威数据组合成为输入数据;将每个所述输入数据分别输入至预...
【专利技术属性】
技术研发人员:余淼,冯欣伟,周环宇,宋勋超,戴松泰,
申请(专利权)人:北京百度网讯科技有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。