一种问答资源的挖掘方法、装置、服务器及存储介质制造方法及图纸

技术编号:19857634 阅读:24 留言:0更新日期:2018-12-22 11:43
本发明专利技术实施例公开了一种问答资源的挖掘方法、装置、服务器及存储介质。所述方法包括:在社区问答资源中的各个问答对中提取出各个初始问题对应的初始答案;根据各个初始问题对应的初始答案以及垂类资源中的各个UGC内容确定各个初始问题对应的目标答案;根据各个初始问题以及各个初始问题对应的目标答案挖掘出目标问答资源。不仅可以节省挖掘成本,还可以提高挖掘效率和挖掘准确性。

【技术实现步骤摘要】
一种问答资源的挖掘方法、装置、服务器及存储介质
本专利技术实施例涉及互联网
,尤其涉及一种问答资源的挖掘方法、装置、服务器及存储介质。
技术介绍
随着互联网的快速发展,搜索引擎的功能日趋强大,用户对搜索引擎的期望也越来越高,开始由基本的相关网页召回向智能问答转变。当用户通过搜索引擎输入所要查询的问题时,希望获得的搜索结果不再是相关的网页,而希望能够直接得到问题的答案。深度问答是指理解人类的语言,智能识别问题的含义,并从海量的互联网数据中提取问题的答案。深度问答系统的重要任务之一,就是构建优质的问答资源。在互联网上,社区问答资源可以为用户提供问答资源,但是社区问答资源中问答对的质量难以保证;而UGC(UserGeneratedContent)能为离线问答系统提供答案的来源,但UGC中普遍存在问题质量较差,甚至错误的情形。通过人工审查和人工修正的方式,虽然能够从海量的、繁杂的UGC内容中挖掘出一批高质量的问答资源。但是,这种方法的人力成本太大,效率太低,难以应用到实际产品中。
技术实现思路
有鉴于此,本专利技术实施例提供一种问答资源的挖掘方法、装置、服务器及存储介质,不仅可以节省挖掘成本,还可以提高挖掘效率和挖掘准确性。第一方面,本专利技术实施例提供了一种问答资源的挖掘方法,所述方法包括:在社区问答资源中的各个问答对中提取出各个初始问题对应的初始答案;根据各个初始问题对应的初始答案以及垂类资源中的各个UGC内容确定各个初始问题对应的目标答案;根据各个初始问题以及各个初始问题对应的目标答案挖掘出目标问答资源。在上述实施例中,所述根据各个初始问题对应的初始答案以及垂类资源中的各个UGC内容确定各个初始问题对应的目标答案,包括:根据各个初始问题对应的初始答案以及垂类资源中的各个UGC内容确定各个初始问题对应的备选答案;根据各个初始问题对应的初始答案以及各个初始问题对应的备选答案确定各个初始问题对应的目标答案。在上述实施例中,所述根据各个初始问题对应的初始答案以及垂类资源中的各个UGC内容确定各个初始问题对应的备选答案,包括:计算各个初始答案对应的句子向量和各个UGC内容对应的句子向量;根据各个初始答案对应的句子向量和各个UGC内容对应的句子向量确定各个初始问题对应的备选答案。在上述实施例中,所述计算各个初始答案对应的句子向量和各个UGC内容对应的句子向量,包括:按照基本语句为单元将各个初始答案和各个UGC内容分别划分为第一句子词典和第二句子词典;根据所述第一句子词典和所述第二句子词典计算各个初始答案对应的句子向量和各个UGC内容对应的句子向量。在上述实施例中,所述根据各个初始问题对应的初始答案以及各个初始问题对应的备选答案确定各个初始问题对应的目标答案,包括:计算各个初始答案对应的词语向量和各个备选答案对应的词语向量;根据各个初始答案对应的词语向量和各个备选答案对应的词语向量确定各个初始问题对应的目标答案。第二方面,本专利技术实施例提供了一种问答资源的挖掘方法,所述装置包括:提取模块、确定模块和挖掘模块;其中,所述提取模块,用于在社区问答资源中的各个问答对中提取出各个初始问题对应的初始答案;所述确定模块,用于根据各个初始问题对应的初始答案以及垂类资源中的各个UGC内容确定各个初始问题对应的目标答案;所述挖掘模块,用于根据各个初始问题以及各个初始问题对应的目标答案挖掘出目标问答资源。在上述实施例中,所述确定模块,具体用于根据各个初始问题对应的初始答案以及垂类资源中的各个UGC内容确定各个初始问题对应的备选答案;根据各个初始问题对应的初始答案以及各个初始问题对应的备选答案确定各个初始问题对应的目标答案。在上述实施例中,所述确定模块包括:计算子模块和确定子模块;其中,所述计算子模块,用于计算各个初始答案对应的句子向量和各个UGC内容对应的句子向量;所述确定子模块,用于根据各个初始答案对应的句子向量和各个UGC内容对应的句子向量确定各个初始问题对应的备选答案。在上述实施例中,所述计算子模块,具体用于按照基本语句为单元将各个初始答案和各个UGC内容分别划分为第一句子词典和第二句子词典;根据所述第一句子词典和所述第二句子词典计算各个初始答案对应的句子向量和各个UGC内容对应的句子向量。在上述实施例中,所述计算子模块,还用于计算各个初始答案对应的词语向量和各个备选答案对应的词语向量;所述确定子模块,还用于根据各个初始答案对应的词语向量和各个备选答案对应的词语向量确定各个初始问题对应的目标答案。第三方面,本专利技术实施例提供了一种服务器,包括:一个或多个处理器;存储器,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现本专利技术任意实施例所述的问答资源的挖掘方法。第四方面,本专利技术实施例提供了一种存储介质,其上存储有计算机程序,该程序被处理器执行时实现本专利技术任意实施例所述的问答资源的挖掘方法。本专利技术实施例提出了一种问答资源的挖掘方法、装置、服务器及存储介质,先在社区问答资源中的各个问答对中提取出各个初始问题对应的初始答案;然后根据各个初始问题对应的初始答案以及垂类资源中的各个UGC内容确定各个初始问题对应的目标答案;最后根据各个初始问题以及各个初始问题对应的目标答案挖掘出目标问答资源。也就是说,在本专利技术的技术方案中,可以根据各个初始问题对应的初始答案以及垂类资源中的各个UGC内容确定各个初始问题对应的目标答案;然后根据各个初始问题以及各个初始问题对应的目标答案挖掘出目标问答资源。在现有的问答资源的挖掘方法中,通过人工审查和人工修正的方式,从海量的、繁杂的UGC内容中挖掘出一批高质量的问答资源。采用现有的问答资源的挖掘方法,人力成本太大,效率太低,难以应用到实际产品中。因此,和现有技术相比,本专利技术实施例提出的问答资源的挖掘方法、装置、服务器及存储介质,不仅可以节省挖掘成本,还可以提高挖掘效率和挖掘准确性;并且,本专利技术实施例的技术方案实现简单方便、便于普及,适用范围更广。附图说明图1为本专利技术实施例一提供的问答资源的挖掘方法的实现流程图;图2为本专利技术实施例二提供的问答资源的挖掘方法的实现流程图;图3为本专利技术实施例三提供的问答资源的挖掘方法的实现流程图;图4为本专利技术实施例四提供的问答资源的挖掘装置的第一结构示意图;图5为本专利技术实施例四提供的问答资源的挖掘装置的第二结构示意图;图6为本专利技术实施例五提供的服务器的结构示意图。具体实施方式下面结合附图和实施例对本专利技术作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本专利技术,而非对本专利技术的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本专利技术相关的部分而非全部内容。实施例一图1是本专利技术实施例一提供的问答资源的挖掘方法的实现流程图。如图1所示,问答资源的挖掘方法可以包括以下步骤:S101、在社区问答资源中的各个问答对中提取出各个初始问题对应的初始答案。在现有技术中,垂类资源包含优质且权威的UGC内容,但缺乏与之相匹配的问题;社区问答资源由问答对组成,但问答对的质量却无法保证。如果垂类资源和社区问答资源存在大量重叠部分,那么两者相互校验,便能从中自动挖掘出一批优质的问答资源。在本专利技术的具体实施例中,服务器可以在社区问答资源中的各个问本文档来自技高网...

【技术保护点】
1.一种问答资源的挖掘方法,其特征在于,所述方法包括:在社区问答资源中的各个问答对中提取出各个初始问题对应的初始答案;根据各个初始问题对应的初始答案以及垂类资源中的各个UGC内容确定各个初始问题对应的目标答案;根据各个初始问题以及各个初始问题对应的目标答案挖掘出目标问答资源。

【技术特征摘要】
1.一种问答资源的挖掘方法,其特征在于,所述方法包括:在社区问答资源中的各个问答对中提取出各个初始问题对应的初始答案;根据各个初始问题对应的初始答案以及垂类资源中的各个UGC内容确定各个初始问题对应的目标答案;根据各个初始问题以及各个初始问题对应的目标答案挖掘出目标问答资源。2.根据权利要求1所述的方法,其特征在于,所述根据各个初始问题对应的初始答案以及垂类资源中的各个UGC内容确定各个初始问题对应的目标答案,包括:根据各个初始问题对应的初始答案以及垂类资源中的各个UGC内容确定各个初始问题对应的备选答案;根据各个初始问题对应的初始答案以及各个初始问题对应的备选答案确定各个初始问题对应的目标答案。3.根据权利要求2所述的方法,其特征在于,所述根据各个初始问题对应的初始答案以及垂类资源中的各个UGC内容确定各个初始问题对应的备选答案,包括:计算各个初始答案对应的句子向量和各个UGC内容对应的句子向量;根据各个初始答案对应的句子向量和各个UGC内容对应的句子向量确定各个初始问题对应的备选答案。4.根据权利要求3所述的方法,其特征在于,所述计算各个初始答案对应的句子向量和各个UGC内容对应的句子向量,包括:按照基本语句为单元将各个初始答案和各个UGC内容分别划分为第一句子词典和第二句子词典;根据所述第一句子词典和所述第二句子词典计算各个初始答案对应的句子向量和各个UGC内容对应的句子向量。5.根据权利要求2所述的方法,其特征在于,所述根据各个初始问题对应的初始答案以及各个初始问题对应的备选答案确定各个初始问题对应的目标答案,包括:计算各个初始答案对应的词语向量和各个备选答案对应的词语向量;根据各个初始答案对应的词语向量和各个备选答案对应的词语向量确定各个初始问题对应的目标答案。6.一种问答资源的挖掘装置,其特征在于,所述装置包括:提取模块、确定模块和挖掘模块;其中,所述提取模块,用于在社区问...

【专利技术属性】
技术研发人员:程耀
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1