一种基于多任务学习的差异化特征挖掘的可信度评估方法技术

技术编号:21571634 阅读:86 留言:0更新日期:2019-07-10 15:26
本发明专利技术公开的一种基于多任务学习的差异化特征挖掘的可信度评估方法,基于共享私有特征空间,利用强化学习指导对抗网络捕获更加纯净的公共特征,解决公共特征挖掘精确度不高与效能低下的问题;采纳两种有效策略——用于迫使私有特征与公共特征相互独立的正交约束策略以及用于强化私有特征与公共特征差异性的差分策略,改善了私有特征与公共特征混杂严重的现状,融合并权衡以上两个过程产生的损失用于参数训练。该方法不仅能够提高了可信度评估精确度,还减少了计算的时间复杂度。

A Reliability Assessment Method Based on Diversified Feature Mining of Multitask Learning

【技术实现步骤摘要】
一种基于多任务学习的差异化特征挖掘的可信度评估方法
本专利技术涉及到网络信息的可信度评估方法,具体为一种基于多任务学习的差异化特征挖掘的可信度评估方法。
技术介绍
随着互联网的迅速发展,使人们获取、浏览、共享和发布信息变得越来越快捷与便利,改变了人们获取信息的传统方式。然而,人们在享受健康、积极且真实信息的同时,还遭受着各种偏激、谣言、虚假等不真实信息带来的困扰。Gupta的研究结果表明:在Twitter中,有将近52%的内容是确定可信的、35%的内容是大致可信的以及13%的内容是确定不可信的。大量的不可信信息极大地渲染消极和负面的社会情绪,不仅影响着社会和谐,同时也影响到国家的安全与政治生态。如何在网络环境下快速识别出信息的真伪,以确保网络中传播信息的真实性与可信性,并对传播信息内容的可信度进行度量,已成为亟需解决的重要问题。大多数学者将信息可信度评估视为文本分类问题。现有方法利用机器学习、深度学习等技术来评估可信度已经获得了一定的成功。这些方法概括起来,大致可分为:基于深度语义分析方法、基于文本特征与社会环境特征结合的分析方法等。第一类方法主要是深入捕获与文本相关的语言、句法、语法、语义特征、情感特征乃至风格特征。这类方法虽然能够全面挖掘出语义信息特征,但仍然局限在文本特征上,缺乏了特征的广度;第二类方法则在深入挖掘文本特征的基础上,结合待评估信息所处的社会环境特征,包括基于信息来源的、基于用户的、基于帖子本身的、基于网络的等特征,全面而又广泛的挖掘可信度特征以用于可信度评估。遗憾的是,这类方法在通过增加相关特征来扩展特征范围的同时,带来了许多无用的、冗余的、噪声的特征。这不仅一定程度上降低了模型性能还加重了计算负担,从而导致了计算效率骤减。
技术实现思路
针对现有技术中存在的问题,本专利技术提供一种基于多任务学习的差异化特征挖掘的可信度评估方法,将信息的可信度特征划分为公共与私有特征,解决共享空间与私有空间特征之间精准分离的问题,从而获得针对不同类型信息更具差异化的可信度特征,提高了信息可信度评估的准确性。本专利技术是通过以下技术方案来实现:一种基于多任务学习的差异化特征挖掘的可信度评估方法,包括以下步骤;步骤1、设定数量为N的双标签数据集并提取数据集中的文本和元数据特征作为输入特征;其中,xi指一条待进行可信度检测的信息,表示真假二分类标签,表示多分类的可信度标签;步骤2、采用强化学习提供的激励计算动作期望值对抗网络中的生成器进行优化,优化后得到公共特征抽取器,公共特征抽取器抽取输入特征中的公共特征;步骤3、利用数据集中的真假二分类标签将步骤2抽取的公共特征输入二分类判别器得到判别损失Ladv;步骤4、判别当前判别损失Ladv与上一次判别损失Ladv的关系;如果当前判别损失Ladv大于之前所有判别损失Ladv的最大值时,则输出判别后的公共特征,执行步骤6;步骤5、采用私有特征抽取器,编译输入特征进行私有特征的抽取,得到私有特征;步骤6:对步骤4得到的判别后的公共特征和步骤5得到私有特征进行正交约束,得到独立化损失Lind;步骤7、判断判别后的公共特征与私有特征是否相互独立;当独立化损失值Lind的值为0,则判别后公共特征与私有特征相互独立,执行步骤10;当独立化损失值Lind的值不为0,则判别后公共特征与私有特征中存在相关联的特征,执行步骤8;步骤8、采用负向的KL散度算法计算判别后的公共特征和私有特征之间的相似度,产生差异化损失Ldiff,步骤9、采用Softmax作为分类器,根据步骤5得到的私有特征对数据集进行多可信度类型分类,得到多分类损失Ltask,步骤10、对判别损失Ladv、独立化损失Lind、差异化损失Ldiff和多分类损失Ltask进行融合训练,使得多分类效果达到最优。可选的,所述步骤2中生成器的优化方法具体如下:在数据集上采用经典的MLE算法预训练生成器的生成策略Gθ,采用最小化交叉熵预训练二分类判别器循环遍历数据集中的信息,开始进行GAN训练,执行g-steps次循环,其中,g-steps指该信息从当前词开始到所有词结束所产生的次数;生成一个长度为T的序列,根据生成的序列计算动作期望值,并基于该动作期望值,利用策略梯度优化生成器;其中,动作期望值的计算公式为:其中,代表动作期望值,s0代表状态值,y1代表信息中的词向量,代表蒙特卡洛搜索从t到T,Gμ为生成模型Gθ的副本;策略梯度更新的计算公式为:其中,y1表示选定的词向量,s0表状态,表这个生成序列所带来激励的期望,Gθ表生成器模型,表该序列的状态值函数,θ表下降梯度。可选的,所述步骤3中判别损失Ladv的计算公式如下;其中,表真实数据分布的期望,表生成器分布的期望,为判别器。可选的,所述步骤4中当前判定损失小于或等于之前所有判定损失的最小值时,将该判别损失作为强化学习的激励输入到优化后的生成器中,重复执行步骤2和步骤3,直至当前判定损失大于之前所有判定损失的最大值,输出判别后公共特征,执行步骤6。可选的,所述私有特征抽取器为BILSTM算法、RNN算法、GRU算法或CNN算法。可选的,所述私有特征抽取器为BILSTM算法,计算公式为:其中,xt,Pt-1分别表示t步骤的输入和t-1步骤的隐藏层。可选的,所述步骤6中独立化损失Lind,计算公式如下;其中,Lind表私有特征ST与公共特征P正交约束产生的损失。可选的,所述步骤8中差异化损失Ldiff的计算公式如下:其中,S′i表S向量中某一维向量的值,同样的P′i也是P向量中某一维向量的值。可选的,所述步骤9中多分类损失Ltask的计算公式如下:可选的,所述步骤10中多损失融合训练优化的计算公式为:L=Ltask+αLadv+βLind+γLdiff其中,L为多特征融合的总损失。与现有技术相比,本专利技术具有以下有益的技术效果:本专利技术提供的一种基于多任务学习的差异化特征挖掘的可信度评估方法,基于共享私有特征空间,利用强化学习指导对抗网络捕获更加纯净的公共特征,解决公共特征挖掘精确度不高与效能低下的问题;采纳两种有效策略——用于迫使私有特征与公共特征相互独立的正交约束策略以及用于强化私有特征与公共特征差异性的差分策略,改善了私有特征与公共特征混杂严重的现状,融合并权衡以上两个过程产生的损失用于参数训练。该方法不仅能够提高了可信度评估精确度,还减少了计算的时间复杂度。附图说明图1为专利技术共享私有模型框架图;图2为本专利技术的架构图;图3为本专利技术的整体流程图;图4为本专利技术所用数据标签图;图5为本专利技术实验性能图;图6为本专利技术组件分离性能图;图7a为本专利技术的性能在LIAR数据集上随输入向量维度变化图;图7b为本专利技术的性能在Weibo数据集上随输入向量维度变化图;图8a为LIAR数据集上不同输入对本专利技术性能的影响;图8b为Weibo数据集上不同输入对本专利技术性能的影响。具体实施方式下面结合附图对本专利技术做进一步的详细说明,所述是对本专利技术的解释而不是限定。如图1-3所示,一种基于多任务学习的差异化特征挖掘的可信度评估方法,该方法主要包括两个部分,如下;第一部分,利用强化学习指导对抗网络阻止真假二分类正确分类从而获得公共特征。具体来说,公共特征抽取器从输入特征中捕获特征,混淆二分类判别器无法正确分类。当二本文档来自技高网
...

【技术保护点】
1.一种基于多任务学习的差异化特征挖掘的可信度评估方法,其特征在于,包括以下步骤;步骤1、设定数量为N的双标签数据集

【技术特征摘要】
1.一种基于多任务学习的差异化特征挖掘的可信度评估方法,其特征在于,包括以下步骤;步骤1、设定数量为N的双标签数据集并提取数据集中的文本和元数据特征作为输入特征;其中,xi指一条待进行可信度检测的信息,表示真假二分类标签,表示多分类的可信度标签;步骤2、采用强化学习提供的激励计算动作期望值对抗网络中的生成器进行优化,优化后得到公共特征抽取器,公共特征抽取器抽取输入特征中的公共特征;步骤3、利用数据集中的真假二分类标签将步骤2抽取的公共特征输入二分类判别器得到判别损失Ladv;步骤4、判别当前判别损失Ladv与上一次判别损失Ladv的关系;如果当前判别损失Ladv大于之前所有判别损失Ladv的最大值时,则输出判别后的公共特征,执行步骤6;步骤5、采用私有特征抽取器,编译输入特征进行私有特征的抽取,得到私有特征;步骤6:对步骤4得到的判别后的公共特征和步骤5得到私有特征进行正交约束,得到独立化损失Lind;步骤7、判断判别后的公共特征与私有特征是否相互独立;当独立化损失值Lind的值为0,则判别后公共特征与私有特征相互独立,执行步骤10;当独立化损失值Lind的值不为0,则判别后公共特征与私有特征中存在相关联的特征,执行步骤8;步骤8、采用负向的KL散度算法计算判别后的公共特征和私有特征之间的相似度,产生差异化损失Ldiff;步骤9、采用Softmax作为分类器,根据步骤5得到的私有特征对数据集X进行多可信度类型分类,得到多分类损失Ltask;步骤10、对判别损失Ladv、独立化损失Lind、差异化损失Ldiff和多分类损失Ltask进行融合训练,使得多分类效果达到最优。2.根据权利要求1所述基于多任务学习的差异化特征挖掘的可信度评估方法,其特征在于,所述步骤2中生成器的优化方法具体如下:在数据集上采用经典的MLE算法预训练生成器的生成策略Gθ,采用最小化交叉熵预训练二分类判别器循环遍历数据集中的信息,开始进行GAN训练,执行g-steps次循环,其中,g-steps指该信息从当前词开始到所有词结束所产生的次数;生成一个长度为T的序列,根据生成的序列计算动作期望值,并基于该动作期望值,利用策略梯度优化生成器;其中,动作期望值...

【专利技术属性】
技术研发人员:饶元吴连伟靳浩林
申请(专利权)人:西安交通大学
类型:发明
国别省市:陕西,61

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1