社区问答数据的校验方法、装置、计算机设备和存储介质制造方法及图纸

技术编号:21184657 阅读:28 留言:0更新日期:2019-05-22 15:15
本发明专利技术实施例公开了一种社区问答数据的校验方法、装置、计算机设备和存储介质。所述方法包括:获取社区问答数据集,并根据所述社区问答数据集,生成多个问答对,所述问答对包括:问题,以及与问题对应的待验证答案;根据至少一个置信源站点中存储的数据,生成权威数据集;根据各所述待验证答案与所述权威数据集中的权威数据在至少一个维度下的相似性得分,对各所述待验证答案进行权威度校验。本发明专利技术实施例可以快速对大量问答数据进行权威度校验,有效保障答案的权威、客观和准确性。

Verification methods, devices, computer equipment and storage media for community Q&A data

The embodiment of the present invention discloses a method, device, computer equipment and storage medium for verifying community question and answer data. The method includes: acquiring the community question-and-answer data set and generating multiple question-and-answer pairs according to the community question-and-answer data set. The question-and-answer pairs include: questions and the corresponding answers to the questions to be verified; generating the authoritative data set according to the data stored in at least one confidence source site; and generating the authoritative data set according to the answers to be verified and the authoritative data in the authoritative data set at least. The similarity score under one dimension is used to verify the authority of the answers to be verified. The embodiment of the invention can quickly verify the authority of a large number of question and answer data and effectively guarantee the authority, objectivity and accuracy of the answers.

【技术实现步骤摘要】
社区问答数据的校验方法、装置、计算机设备和存储介质
本专利技术实施例涉及数据处理技术,尤其涉及一种社区问答数据的校验方法、装置、计算机设备和存储介质。
技术介绍
随着科技的发展和互联网技术的不断进步,基于搜索的互动式社区问答平台已经成为人们生活中和工作中获取和分享知识的一种重要渠道。社区问答(CommunityQuestionAnswering,CQA)是结合开放知识共享性网站(例如:百度知道、Yahoo!Answers、腾讯搜搜问问、新浪爱问等),通过用户参与,利用网络用户的集体智慧,提供问题的直接答案。同时,这些问题的答案又可以作为搜索结果提供给其他有相同或相似问题的用户,达到共享知识的效果,以及在一定程度上解决了用户精确查询的需求。但在CQA数据中,答案质量差异较大,在提供有用答案的同时可能包含各种无关、低质量、甚至恶意的信息。对此类答案进行判别和过滤,并选取高质量的问题与答案对,有助于在基于社区的自动问答系统中重用相关问题的答案以提高问答系统的服务质量。现阶段高质量、高准确率的CQA数据筛选主要通过人工审核、多维显式特征筛选及语义检索模型过滤。随着互联网数据指数级升级,人工审核尤为显得杯水车薪。多维显示特征目前比较依赖用户行为(如点赞或点踩等),这些信息对判定答案是否有意义虽然具有一定的指向性帮助,但用户点赞、点踩的行为受一定主观情绪影响,且容易出现低质量甚至恶意的答案;此外这些信息不够全面,针对暴露程度不高的问答数据,没有足够的用户信息。目前的语义检索模型,通常都是从语义层面计算CQA中问题和答案的相关性,但是也无法保证答案是否客观和权威。例如:针对问题“用户A的老婆是谁”,用户回答:“用户A的老婆不是用户B”,但实际上用户A的老婆是用户B时,如果无外界辅助信息的支撑,则该语义检索模型会误认为该答案是正确的。
技术实现思路
本专利技术实施例提供一种社区问答数据的校验方法、装置、计算机设备和存储介质,可以快速对大量问答数据进行权威度校验,有效保障答案的权威、客观和准确性。第一方面,本专利技术实施例提供了一种社区问答数据的校验方法,包括:获取社区问答数据集,并根据所述社区问答数据集,生成多个问答对,所述问答对包括:问题,以及与问题对应的待验证答案;根据至少一个置信源站点中存储的数据,生成权威数据集;根据各所述待验证答案与所述权威数据集中的权威数据在至少一个维度下的相似性得分,对各所述待验证答案进行权威度校验。第二方面,本专利技术实施例还提供了一种社区问答数据的校验装置,包括:问答对生成模块,用于获取社区问答数据集,并根据所述社区问答数据集,生成多个问答对,所述问答对包括:问题,以及与问题对应的待验证答案;权威数据集生成模块,用于根据至少一个置信源站点中存储的数据,生成权威数据集;权威度校验模块,用于根据各所述待验证答案与所述权威数据集中的权威数据在至少一个维度下的相似性得分,对各所述待验证答案进行权威度校验。第三方面,本专利技术实施例还提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序所述处理器执行所述程序时实现如本专利技术实施例中任一所述的社区问答数据的校验方法。第四方面,本专利技术实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本专利技术实施例中任一所述的社区问答数据的校验方法。本专利技术实施例通过从社区问答数据集中筛选数据生成问答对,同时从置信源站点中获取权威数据集,计算每个问答对中的待验证答案与权威数据集中的权威数据的相似性得分,并根据相似性得分确定各问答对中待验证答案的权威度的技术手段,巧妙的采用检验用户提供的答案与权威数据的相似度的方式,对该答案的权威度进行简单、快速的验证,解决了现有技术中人工筛选社区问答数据的效率低,同时依赖用户行为评价答案导致评价结果主观性强的问题,可以快速对大量的社区问答数据进行权威度校验,提高校验效率,而且通过计算待验证答案与权威数据的相似性得分确定待验证答案的权威度,可以避免使用用户显示特征筛选的情况,从而有效保证问答数据中答案的权威、客观和准确性。附图说明图1是本专利技术实施例一提供的一种社区问答数据的校验方法的流程图;图2a是本专利技术实施例二提供的一种社区问答数据的校验方法的流程图;图2b是本专利技术实施例二提供的一种社区问答数据的校验方法的具体应用场景的示意图;图3是本专利技术实施例三提供的一种社区问答数据的校验装置的结构示意图;图4是本专利技术实施例四提供的一种计算机设备的结构示意图。具体实施方式下面结合附图和实施例对本专利技术作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本专利技术,而非对本专利技术的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本专利技术相关的部分而非全部结构。实施例一图1为本专利技术实施例一提供的一种社区问答数据的校验方法的流程图,本实施例可适用于校验社区问答平台的问答数据中的答案的权威程度的情况。该方法可以由本专利技术实施例提供的社区问答数据的校验装置来执行,该装置可采用软件和/或硬件的方式实现,并一般可集成在用于提供社区问答数据的校验服务的计算机设备中,例如客户端或服务器。如图1所示,本实施例的方法具体包括:S110,获取社区问答数据集,并根据所述社区问答数据集,生成多个问答对,所述问答对包括:问题,以及与问题对应的待验证答案。具体的,社区问答数据集可以是指从网络中各社区问答平台中收集的问答数据的集合。问答对可以是指一个问题和该问题的一个待验证答案形成的组合,其中,社区问答数据集中一个问题存在多个待验证答案,可以针对每个待验证答案分别生成问答对。示例性的,社区问答平台可以是指百度知道、新浪爱问、腾讯搜搜等开放性社区问答平台。其中,社区问答平台中的问答数据可以是中文的,也可以是其他外国文字的,如英文。S120,根据至少一个置信源站点中存储的数据,生成权威数据集。具体的,置信源站点可以是指预设的权威数据的网站,例如,百度百科、维基百科、豆丁网或百度文库等权威数源。其中,置信源站点可以由用户选定。权威数据集可以是指置信源站点中存储的有效数据,例如具有实体语义的数据。示例性的,在句子“哈哈,A是B的子集”中,前半句是语气词,后半句是具有实体语义的数据,可以将语气词剔除,仅根据后半句生成权威数据集。可选的,所述根据至少一个置信源站点中存储的数据,生成权威数据集,可以包括:选取至少一个置信源站点,获取各所述置信源站点的站点数据进行数据清洗,并进行结构化解析后,生成所述权威数据集。其中,数据清洗可以是指对站点数据进行去重、去无效、去错误和去冲突等至少一种的数据操作,结构化解析可以是指分析站点数据中的数据结构,例如,获取站点数据中句子中包括的各实体,以及句子的语法结构。将站点数据进行数据清洗,并进行结构化解析,基于解析结果,可以将站点数据配置成统一格式(如通过二维逻辑表表现)的数据,根据配置后的数据形成的集合作为权威数据集。通过对置信源站点的站点数据进行数据预处理,生成权威数据集,可以快速对权威数据进行结构化处理,便于快速查看和理解以及进行精确的语义检索,从而提高后续计算待验证答案与权威数据的相似性得分的效率。S130,根据各所述待验证答案与所述权威数据集中的权威数据在至少一个维度下的相似性得分,对各本文档来自技高网
...

【技术保护点】
1.一种社区问答数据的校验方法,其特征在于,包括:获取社区问答数据集,并根据所述社区问答数据集,生成多个问答对,所述问答对包括:问题,以及与问题对应的待验证答案;根据至少一个置信源站点中存储的数据,生成权威数据集;根据各所述待验证答案与所述权威数据集中的权威数据在至少一个维度下的相似性得分,对各所述待验证答案进行权威度校验。

【技术特征摘要】
1.一种社区问答数据的校验方法,其特征在于,包括:获取社区问答数据集,并根据所述社区问答数据集,生成多个问答对,所述问答对包括:问题,以及与问题对应的待验证答案;根据至少一个置信源站点中存储的数据,生成权威数据集;根据各所述待验证答案与所述权威数据集中的权威数据在至少一个维度下的相似性得分,对各所述待验证答案进行权威度校验。2.根据权利要求1所述的方法,其特征在于,所述根据各所述待验证答案与所述权威数据集中的权威数据在至少一个维度下的相似性得分,对各所述待验证答案进行权威度校验,包括:将所述待验证答案在所述权威数据集中进行检索,筛选出设定数量的满足相关性条件的目标权威数据;在至少一个目标维度下,分别计算所述待验证答案与各所述目标权威数据的相似性得分;根据所述相似性得分,对所述待验证答案进行权威度校验。3.根据权利要求2所述的方法,其特征在于,所述目标维度包括:关键词维度、句子维度或语义维度。4.根据权利要求3所述的方法,其特征在于,在关键词维度下,分别计算所述待验证答案与各所述目标权威数据的相似性得分,包括:分别获取所述待验证答案中包括的第一关键词集合,以及各所述目标权威数据中包括的第二关键词集合;获取所述第一关键词集合命中各所述第二关键词集合的关键词数量;根据所述关键词数量以及各所述第二关键词集合中包括的关键词总数量,计算在所述关键词维度下,所述待验证答案与各所述目标权威数据的相似性得分。5.根据权利要求3所述的方法,其特征在于,在句子维度下,分别计算所述待验证答案与各所述目标权威数据的相似性得分,包括:分别验证所述待验证答案是否命中各所述目标权威数据中包括的句子;根据命中结果,计算在所述句子维度下,所述待验证答案与各所述目标权威数据的相似性得分。6.根据权利要求3所述的方法,其特征在于,在语义维度下,分别计算所述待验证答案与各所述目标权威数据的相似性得分,包括:分别将所述待验证答案以及各所述目标权威数据组合成为输入数据;将每个所述输入数据分别输入至预...

【专利技术属性】
技术研发人员:余淼冯欣伟周环宇宋勋超戴松泰
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1