问答的质量确定方法、装置、服务器和存储介质制造方法及图纸

技术编号:19694399 阅读:16 留言:0更新日期:2018-12-08 11:49
本发明专利技术实施例公开了一种问答的质量确定方法、装置、服务器和存储介质。其中,该方法包括:确定问答数据中问题内容的向量表示以及回答内容的向量表示;向预先构建的问答质量分析模型输入所述问题内容的向量表示和所述回答内容的向量表示,得到所述问答数据的质量数据。本发明专利技术实施例可以实现更有效的问答质量评分,解决了现有技术中因大量低质回答被展现而用户体验效果差的问题,提高了问答的质量评分的准确率。

【技术实现步骤摘要】
问答的质量确定方法、装置、服务器和存储介质
本专利技术实施例涉及计算机
,尤其涉及一种问答的质量确定方法、装置、服务器和存储介质。
技术介绍
随着科技的发展和互联网技术的不断进步,基于搜索的互动式知识问答分享平台已经成为人们生活中和工作中获取和分享知识的一种重要渠道。用户自己有针对性地提出问题,其他用户解决问题。同时,这些问题的答案又会进一步作为搜索结果,提供给其他有类似疑问的用户,达到分享知识的效果。为了提供知识问答分享平台的分享效果,需要对知识问答进行质量分析,剔除低质的回答数据,提升优质回答的展现比率。目前,知识问答分享平台的问答生产大多以采纳(包括提问者采纳、机器采纳和管理员采纳等)作为最终推送展现依据且状态永久不变。由于提问者自身弊端、用户作弊、机器准确率和时效等原因,导致大量低质回答被展现,严重影响用户的搜索体验。
技术实现思路
本专利技术实施例提供了一种问答的质量确定方法、装置、服务器和存储介质,可以实现更有效的问答质量评分。第一方面,本专利技术实施例提供了一种问答的质量确定方法,包括:确定问答数据中问题内容的向量表示以及回答内容的向量表示;向预先构建的问答质量分析模型输入所述问题内容的向量表示和所述回答内容的向量表示,得到所述问答数据的质量数据。第二方面,本专利技术实施例还提供了一种问答的质量确定装置,该装置包括:向量模块,用于确定问答数据中问题内容的向量表示以及回答内容的向量表示;质量模块,用于向预先构建的问答质量分析模型输入所述问题内容的向量表示和所述回答内容的向量表示,得到所述问答数据的质量数据。第三方面,本专利技术实施例还提供了一种服务器,所述服务器包括:一个或多个处理器;存储装置,用于存储一个或多个程序;当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如上所述的问答的质量确定方法。第四方面,本专利技术实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上所述的问答的质量确定方法。本专利技术实施例向预先构建的问答质量分析模型输入问答数据中问题内容的向量表示和回答内容的向量表示,得到问答数据的质量数据。由于问答质量分析模型是预先训练好的,可以实现更有效的问答质量评分,解决了现有技术中因大量低质回答被展现而用户体验效果差的问题,提高了问答的质量评分的准确率。附图说明图1为本专利技术实施例一中的问答的质量确定方法的流程图;图2为本专利技术实施例一中的对级排序学习模型的示意图;图3为本专利技术实施例二中的问答的质量确定方法的流程图;图4为本专利技术实施例二中的相关性分析的示意图;图5为本专利技术实施例二中的聚类簇的获取流程图;图6为本专利技术实施例二中的聚合相似度的确定流程图;图7为本专利技术实施例二中的行为反馈模型的示意图;图8为本专利技术实施例三中的问答的质量确定的整体流程示意图;图9为本专利技术实施例四中的问答的质量确定装置的结构示意图;图10为本专利技术实施例五中的服务器的结构示意图。具体实施方式下面结合附图和实施例对本专利技术作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本专利技术,而非对本专利技术的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本专利技术相关的部分而非全部结构。实施例一图1为本专利技术实施例一中的问答的质量确定方法的流程图,本实施例可适用于实现问答的质量确定的情况,该方法可以由问答的质量确定装置执行,该装置可以采用软件和/或硬件的方式实现,例如,该装置可配置于服务器中。如图1所示,该方法具体可以包括:S110、确定问答数据中问题内容的向量表示以及回答内容的向量表示。获取知识问答分享平台中的问答数据,目前大多知识问答分享平台都具备海量的知识储备和强大的用户原创内容(UserGeneratedContent,UGC)生产能力,可以使其快速覆盖每个领域的知识需求。可选地,确定问答数据中问题内容的向量表示,包括:向预先训练的循环神经网络模型输入问题内容中各词语的向量表示,得到问题内容的向量表示。由于问答数据中的问题内容一般较短,本实施例中的循环神经网络模型优选为广义回归神经网络(GeneralRegressionNeuralNetwork,GRNN),通过GRNN可以提取问题内容的序列结构、核心知识点和词之间的位置关系,丰富了问题特征。可选地,确定回答内容的向量表示,包括:向预先训练的卷积神经网络模型输入回答内容中各词语的向量表示,得到回答内容的向量表示。对于问答数据中的回答内容,由于回答内容一般比较长,包含较多知识点,本实施例中可以采用卷积神经网络(ConvolutionalNeuralNetwork,CNN)提取回答内容中的关键知识点,压缩回答向量。S120、向预先构建的问答质量分析模型输入所述问题内容的向量表示和所述回答内容的向量表示,得到所述问答数据的质量数据。当问答数据中问题内容的向量表示以及回答内容的向量表示确定之后,可以将问题内容的向量表示和回答内容的向量表示输入预先构建的问答质量分析模型中,得到问答数据的质量数据。可选地,所述问答质量分析模型的构建,包括:确定样本问题内容的向量表示;确定所述样本问题内容的第一回答内容的向量表示以及所述样本问题内容的第二回答内容的向量表示;将所述样本问题内容的向量表示,第一回答内容的向量表示,以及第二回答内容的向量表示作为对级排序学习模型的输入,所述第一回答内容与所述第二回答内容的排序结果作为所述对级排序学习模型的输出进行训练,得到问答质量分析模型。本实施例中问答质量分析模型可以基于对级排序学习模型(即Pairwise模型)构建,图2为本专利技术实施例一中的对级排序学习模型的示意图。如图2所示,将训练语料库中的样本问答数据中样本问题内容输入到图中的嵌入层(Embedding)中,通过预先训练好的GNN模型和平均池化表示,得到样本问题内容的向量表示;将该样本问题内容对应的第一回答内容和第二回答内容分别输入到图中的嵌入层,通过滤波器、CNN模型和最大池化表示,分别得到第一回答内容和第二回答内容的向量表示;将样本问题内容的向量表示,第一回答内容的向量表示,以及第二回答内容的向量表示作为对级排序学习模型的输入,通过拼接层(ConcatLayer)、全连接层(FullCollectLayer)和激活函数(TanhLayer)得到排序结果,并与人工标注的排序结果对比,从而实现对级排序学习模型的训练。示例性的,可以将一个问题和该问题对应的两个回答输入训练好的级排序学习模型中,输出的结果为两个回答中的其中一个回答质量大于另一个回答。问答质量分析模型基于对级排序学习模型的排序结果可以得到不同的回答内容的质量评分,即为质量数据。可选地,回答内容的质量评分等级从需求满足角度进行划分,可以划分为精选回答、高质量回答、普通回答、低质量回答和作弊五大等级,其满足程度依次递减。例如,排序结果最前的回答内容即为精选回答,该精选回答可以完整满足用户需求,具备知识延伸和权威性,且具备良好的阅读体验。上述训练语料库可以由知识问答分享平台中的问答数据得到,由于绝对的高质量的语料比较难构建,本实施例中可以采用Pairwise方法获取样本问答及其回答内容的排序结果构成语料。即在回答内容对比角度进行选择,例如A回答比B回答好,则质量排序为A大于B本文档来自技高网...

【技术保护点】
1.一种问答的质量确定方法,其特征在于,包括:确定问答数据中问题内容的向量表示以及回答内容的向量表示;向预先构建的问答质量分析模型输入所述问题内容的向量表示和所述回答内容的向量表示,得到所述问答数据的质量数据。

【技术特征摘要】
1.一种问答的质量确定方法,其特征在于,包括:确定问答数据中问题内容的向量表示以及回答内容的向量表示;向预先构建的问答质量分析模型输入所述问题内容的向量表示和所述回答内容的向量表示,得到所述问答数据的质量数据。2.根据权利要求1所述的方法,其特征在于,所述问答质量分析模型的构建,包括:确定样本问题内容的向量表示;确定所述样本问题内容的第一回答内容的向量表示以及所述样本问题内容的第二回答内容的向量表示;将所述样本问题内容的向量表示,第一回答内容的向量表示,以及第二回答内容的向量表示作为对级排序学习模型的输入,所述第一回答内容与所述第二回答内容的排序结果作为所述对级排序学习模型的输出进行训练,得到问答质量分析模型。3.根据权利要求1所述的方法,其特征在于,确定问答数据中问题内容的向量表示,包括:向预先训练的循环神经网络模型输入问题内容中各词语的向量表示,得到问题内容的向量表示。4.根据权利要求1所述的方法,其特征在于,确定回答内容的向量表示,包括:向预先训练的卷积神经网络模型输入回答内容中各词语的向量表示,得到回答内容的向量表示。5.根据权利要求1所述的方法,其特征在于,还包括:确定所述问答数据中问题内容与回答内容的相关度;依据所述问答数据的质量数据以及所述相关度,对所述问答数据的质量数据进行修正。6.根据权利要求5所述的方法,其特征在于,确定所述问答数据中问题内容与回答内容的相关度,包括:依据问题内容中包含的关键词与回答内容中包含的关键词之间的关键词相似度,问题内容所属类别与回答内容所属类别之间的聚合相似度,问题内容的标签与回答内容的标签之间的标签相似度,以及问题内容的主题与回答内容的主题之间的主题相似度中的至少一项,确定问题内容与回答内容的相关度。7.根据权利要求6所述的方法,其特征在于,问题内容所属类别与回答内容所属类别之间的聚合相似度的确定,包括:确定语料库中包括的各词语的词向量;对各词语的词向量作聚类处理得到各词语所属的聚类簇;依据问题内容中词语所属的聚类簇与回答内容中词语所属的聚类簇得到问题内容所属类别与回答内容所属类别之间的聚合相似度。8.根据权利要求1所述的方法,其特征在于,还包括:获取回答内容的用户反馈行为数据,以及反馈行为数据所属用户的授信级别;依据所述反馈行为数据以及所述授信级别对回答内容的质量数据进行修正。9.一种问答的质量确定装置,其特征在于,包括:向量模块,用于确定问答数据中问题内容的向量表示以及回答内容的向量表示;质量模块,用于向预先构建的问答质量分析模型输入所述问题内容的向量表示和所述回答内容的向量表示,得到所述问答数...

【专利技术属性】
技术研发人员:姚后清孟子扬吴广发田彤施鹏
申请(专利权)人:百度在线网络技术北京有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1