内容真实性检测模型的训练方法、装置和计算设备制造方法及图纸

技术编号:24456185 阅读:8 留言:0更新日期:2020-06-10 15:37
本发明专利技术公开了一种内容真实性检测模型的训练方法,适于在计算设备中执行,该计算设备中存储有包括多个知识条目的知识库,该模型适于输出答案的真实性概率,该方法包括步骤:获取多条具有标签数据的训练样本,所述训练样本包括问题、答案、与该问题和答案相关的属性特征、以及与该问题和属性特征相关的知识点特征,其中,标签数据为答案是否真实,知识点特征为基于属性特征和问题的关键词在知识库中查找到的n个知识条目;以及将训练样本输入待训练的内容真实性检测模型中进行处理,得到训练样本的预测概率,并基于其标签数据进行模型训练,得到训练后的内容真实性检测模型。本发明专利技术还一并公开了对应的内容真实性检测模型的训练装置和计算设备。

Training methods, devices and computing equipment of content authenticity detection model

【技术实现步骤摘要】
内容真实性检测模型的训练方法、装置和计算设备
本专利技术涉及计算机
,尤其涉及一种内容真实性检测模型的训练方法、装置和计算设备。
技术介绍
网络知识问答,逐渐成为人与人之间互助的平台。网民之间利用自己的信息、资源和经历,通过网络提问回答的方式并借助各种网络互动问答平台,对网友提问、对问题进行解答。由于回答人员数量较多,答案的质量参差不齐,给提问者和浏览者带来了很多困惑,甚至是误导。因此面对迅速增长的网络问答需求,需要相应的检测技术来辨别真伪,提升网络问答平台(论坛、贴吧等)的数据质量。
技术实现思路
鉴于上述问题,本专利技术提出了一种内容真实性检测模型的训练方法、装置和计算设备,以力图解决或者至少解决上面存在的问题。根据本专利技术的一个方面,提供了一种内容真实性检测模型的训练方法,适于在计算设备中执行,该计算设备中存储有包括多个知识条目的知识库,该模型适于输出答案的真实性概率,该方法包括步骤:获取多条具有标签数据的训练样本,训练样本包括问题、答案、与该问题和答案相关的属性特征、以及与该问题和属性特征相关的知识点特征,其中,标签数据为答案是否真实,知识点特征为基于所述属性特征和问题的关键词在知识库中查找到的n个知识条目;以及将训练样本输入待训练的内容真实性检测模型中进行处理,得到训练样本的预测概率,并基于其标签数据进行模型训练,得到训练后的内容真实性检测模型。可选地,在根据本专利技术的训练方法中,查找知识点特征的步骤包括:在知识库中查找与所述属性特征相关的多个知识条目;基于问题的关键词对多个知识条目进行排序,得到前n个知识条目作为知识点特征。可选地,在根据本专利技术的训练方法中,属性特征包括问题版块、问题类型、提问者和回答者的用户信息中的至少一种;用户信息包括会员级别、发帖数目、回帖数目、回帖长度、回帖真实性中的至少一种。可选地,在根据本专利技术的训练方法中,计算设备中还存储有问答库,训练样本中的问题和答案从问答库中获取。可选地,在根据本专利技术的训练方法中,内容真实性检测模型包括:编码器,适于生成训练样本中每项内容的词向量;语义提取模块,适于基于每项内容的词向量生成对应的语义向量;融合模块,适于将所有语义向量进行拼接融合;以及预测模块,适于从拼接融合后的语义向量中预测答案的真实性概率。可选地,在根据本专利技术的训练方法中,编码器包括:第一编码器,适于分别生成问题、答案和知识点特征对应的第一至第三词向量;以及第二编码器,适于生成属性特征对应的第四词向量。可选地,在根据本专利技术的训练方法中,语义提取模块包括:第一语义提取模块,适于分别基于第一和第二词向量,生成问题和答案对应的第一和第二语义向量;第二语义提取模块,适于基于第三词向量,生成知识点特征对应的第三语义向量;以及第一线性转换模块,适于基于第四词向量,生成属性特征对应的第四语义向量。可选地,在根据本专利技术的训练方法中,第一语义提取模块包括:第一循环网络,适于分别提取问题和答案的语义信息;以及注意力网络,与第一循环网络相耦接,适于提取问题和答案之间的关联权重,并基于该关联权重生成第一和第二语义向量。可选地,在根据本专利技术的训练方法中,第二语义提取模块为第二循环网络;预测模块包括相互耦接的第二线性转换模块和Sigmoid函数。可选地,在根据本专利技术的训练方法中,第一编码器为词向量编码,第二编码器为独热编码;第一和第二循环网络为双向-长短时记忆网络,注意力网络为双向注意力网络;第一和第二线性转换模块为神经网络全连接层。根据本专利技术的另一个方面,提供了一种内容真实性检测方法,适于在计算设备中执行,该方法包括步骤:采集待测问题和待测答案、并获取与该待测问题和待测答案相关的待测属性特征;基于待测属性特征和待测答案,查找对应的待测知识点特征;将待测问题、待测答案、待测属性特征和待测知识点特征作为待测样本,分别输入到多个训练后的内容真实性检测模型中,得到多个真实性概率值;以及通过对该多个真实性概率值进行比较,确定待测答案的真实性;其中,内容真实性检测模型采用如上所述的内容真实性检测模型的训练方法训练生成。根据本专利技术的另一个方面,提供了一种内容真实性检测模型的训练装置,适于驻留在计算设备中,该计算设备中存储有包括多个知识条目的知识库,该模型适于输出答案的真实性概率,该装置包括:训练集生成模块,适于获取多条具有标签数据的训练样本,该训练样本包括问题、答案、与该问题和答案相关的属性特征、以及与该问题和属性特征相关的知识点特征,其中,标签数据为答案是否真实,知识点特征为基于属性特征和问题的关键词在所述知识库中查找到的n个知识条目;以及模型训练模块,适于将训练样本输入待训练的内容真实性检测模型中进行处理,得到训练样本的预测概率,并基于标签数据进行模型训练,得到训练后的内容真实性检测模型。根据本专利技术的另一个方面,提供了一种内容真实性检测装置,适于驻留在计算设备中,该装置包括:待测集生成模块,适于获取待测问题、待测答案、以及与该待测问题和待测答案相关的待测属性特征,并基于待测属性特征和待测答案,从知识库中查找对应的待测知识点特征;真实性预测模块,适于将待测问题、待测答案、待测属性特征和待测知识点特征作为待测样本,分别输入到多个训练后的内容真实性检测模型中,得到多个真实性概率值;以及真实性确定模块,适于通过对该多个真实性概率值进行比较,确定待测答案的真实性;其中,内容真实性检测模型采用如上所述的内容真实性检测模型的训练方法训练生成。根据本专利技术的又一方面,提供一种计算设备,包括:一个或多个处理器;存储器;以及一个或多个程序,其中一个或多个程序存储在存储器中并被配置为由一个或多个处理器执行,该一个或多个程序被处理器执行时实现如上所述的方法的步骤。根据本专利技术的又一方面,提供一种存储一个或多个程序的可读存储介质,该一个或多个程序包括指令,所述指令当由计算设备执行时实现如上所述的方法的步骤。根据本专利技术的技术方案,生成了一种基于知识图谱检测论坛回复内容真实性的问答系统。首先整理提取与问题和答案相关的属性特征,例如包含问题板块、问题类型、提问者和回答者的用户信息等。之后利用属性特征和问题在知识图谱中检索相关的知识条目,例如选择前n个知识点作为知识点特征,该知识点特征可以为模型鉴别答案的真伪提供数据支持。最后将知识点特征、属性特征、问题和答案输入到检测模型中,将多源信息进行语义融合和推理,最后做真实性判断。另外,本专利技术还可以训练多个模型,进行模型的融合,将融合后模型的输出结果,作为最终的判断结果,从而提高判断的准确性。上述说明仅是本专利技术技术方案的概述,为了能够更清楚了解本专利技术的技术手段,而可依照说明书的内容予以实施,并且为了让本专利技术的上述和其它目的、特征和优点能够更明显易懂,以下特举本专利技术的具体实施方式。附图说明为了实现上述以及相关目的,本文结合下面的描述和附图来描述某些说明性方面,这些方面指示了可以实践本文所公开的原理的各种方式,并且所有方面及其等效方面旨在落入所要求保护的主题的范围内。通过结合附图阅本文档来自技高网...

【技术保护点】
1.一种内容真实性检测模型的训练方法,适于在计算设备中执行,所述计算设备中存储有包括多个知识条目的知识库,所述模型适于输出答案的真实性概率,所述方法包括步骤:/n获取多条具有标签数据的训练样本,所述训练样本包括问题、答案、与该问题和答案相关的属性特征、以及与该问题和属性特征相关的知识点特征,其中,所述标签数据为答案是否真实,所述知识点特征为基于所述属性特征和问题的关键词在所述知识库中查找到的n个知识条目;以及/n将所述训练样本输入待训练的内容真实性检测模型中进行处理,得到训练样本的预测概率,并基于所述标签数据进行模型训练,得到训练后的内容真实性检测模型。/n

【技术特征摘要】
1.一种内容真实性检测模型的训练方法,适于在计算设备中执行,所述计算设备中存储有包括多个知识条目的知识库,所述模型适于输出答案的真实性概率,所述方法包括步骤:
获取多条具有标签数据的训练样本,所述训练样本包括问题、答案、与该问题和答案相关的属性特征、以及与该问题和属性特征相关的知识点特征,其中,所述标签数据为答案是否真实,所述知识点特征为基于所述属性特征和问题的关键词在所述知识库中查找到的n个知识条目;以及
将所述训练样本输入待训练的内容真实性检测模型中进行处理,得到训练样本的预测概率,并基于所述标签数据进行模型训练,得到训练后的内容真实性检测模型。


2.如权利要求1所述的方法,其中,查找所述知识点特征的步骤包括:
在所述知识库中查找与所述属性特征相关的多个知识条目;
基于所述问题的关键词对所述多个知识条目进行排序,得到前n个知识条目作为所述知识点特征。


3.如权利要求1所述的方法,其中,
所述属性特征包括问题版块、问题类型、提问者和回答者的用户信息中的至少一种;
所述用户信息包括会员级别、发帖数目、回帖数目、回帖长度、回帖真实性中的至少一种。


4.如权利要求1所述的方法,其中,所述计算设备中还存储有问答库,所述训练样本中的问题和答案从所述问答库中获取。


5.一种内容真实性检测方法,适于在计算设备中执行,所述方法包括步骤:
获取待测问题、待测答案、以及与该待测问题和待测答案相关的待测属性特征;
基于所述待测属性特征和待测答案,查找对应的待测知识点特征;
将所述待测问题、待测答案、待测属性特征和待测知识点特征作为待测样本,分别输入到多个训练后的内容真实性检测模型中,得到多个真实性概率值;以及
通过对该多个真实性概率值进行比较,确定所述待测答案的真实性;
其中,所述内容真实性检测模型采用如权利要求1-10中任一项所述的方法训练生成。


6.如权利要求5所述的方法,其中,所述对该多个真实性概率值进行比较,确定所述待测...

【专利技术属性】
技术研发人员:杨雷雷涛
申请(专利权)人:车智互联北京科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1