一种基于多任务学习的差异化特征挖掘的可信度评估方法技术

技术编号：21571634 阅读：86 留言：0更新日期：2019-07-10 15:26

本发明专利技术公开的一种基于多任务学习的差异化特征挖掘的可信度评估方法，基于共享私有特征空间，利用强化学习指导对抗网络捕获更加纯净的公共特征，解决公共特征挖掘精确度不高与效能低下的问题；采纳两种有效策略——用于迫使私有特征与公共特征相互独立的正交约束策略以及用于强化私有特征与公共特征差异性的差分策略，改善了私有特征与公共特征混杂严重的现状，融合并权衡以上两个过程产生的损失用于参数训练。该方法不仅能够提高了可信度评估精确度，还减少了计算的时间复杂度。

A Reliability Assessment Method Based on Diversified Feature Mining of Multitask Learning

全部详细技术资料下载

【技术实现步骤摘要】
一种基于多任务学习的差异化特征挖掘的可信度评估方法
本专利技术涉及到网络信息的可信度评估方法，具体为一种基于多任务学习的差异化特征挖掘的可信度评估方法。
技术介绍
随着互联网的迅速发展，使人们获取、浏览、共享和发布信息变得越来越快捷与便利，改变了人们获取信息的传统方式。然而，人们在享受健康、积极且真实信息的同时，还遭受着各种偏激、谣言、虚假等不真实信息带来的困扰。Gupta的研究结果表明：在Twitter中，有将近52％的内容是确定可信的、35％的内容是大致可信的以及13％的内容是确定不可信的。大量的不可信信息极大地渲染消极和负面的社会情绪，不仅影响着社会和谐，同时也影响到国家的安全与政治生态。如何在网络环境下快速识别出信息的真伪，以确保网络中传播信息的真实性与可信性，并对传播信息内容的可信度进行度量，已成为亟需解决的重要问题。大多数学者将信息可信度评估视为文本分类问题。现有方法利用机器学习、深度学习等技术来评估可信度已经获得了一定的成功。这些方法概括起来，大致可分为：基于深度语义分析方法、基于文本特征与社会环境特征结合的分析方法等。第一类方法主要是深入捕获与文本相关的语言、句法、语法、语义特征、情感特征乃至风格特征。这类方法虽然能够全面挖掘出语义信息特征，但仍然局限在文本特征上，缺乏了特征的广度；第二类方法则在深入挖掘文本特征的基础上，结合待评估信息所处的社会环境特征，包括基于信息来源的、基于用户的、基于帖子本身的、基于网络的等特征，全面而又广泛的挖掘可信度特征以用于可信度评估。遗憾的是，这类方法在通过增加相关特征来扩展特征范围的同时，带来了许多无用的、...

【技术保护点】
1.一种基于多任务学习的差异化特征挖掘的可信度评估方法，其特征在于，包括以下步骤；步骤1、设定数量为N的双标签数据集

【技术特征摘要】
1.一种基于多任务学习的差异化特征挖掘的可信度评估方法，其特征在于，包括以下步骤；步骤1、设定数量为N的双标签数据集并提取数据集中的文本和元数据特征作为输入特征；其中，xi指一条待进行可信度检测的信息，表示真假二分类标签，表示多分类的可信度标签；步骤2、采用强化学习提供的激励计算动作期望值对抗网络中的生成器进行优化，优化后得到公共特征抽取器，公共特征抽取器抽取输入特征中的公共特征；步骤3、利用数据集中的真假二分类标签将步骤2抽取的公共特征输入二分类判别器得到判别损失Ladv；步骤4、判别当前判别损失Ladv与上一次判别损失Ladv的关系；如果当前判别损失Ladv大于之前所有判别损失Ladv的最大值时，则输出判别后的公共特征，执行步骤6；步骤5、采用私有特征抽取器，编译输入特征进行私有特征的抽取，得到私有特征；步骤6：对步骤4得到的判别后的公共特征和步骤5得到私有特征进行正交约束，得到独立化损失Lind；步骤7、判断判别后的公共特征与私有特征是否相互独立；当独立化损失值Lind的值为0，则判别后公共特征与私有特征相互独立，执行步骤10；当独立化损失值Lind的值不为0，则判别后公共特征与私有特征中存在相关联的特征，执行步骤8；步骤8、采用负向的KL散度算法计算判别后的公共特征和私有特征之间的相似度，产生差异化损失Ldiff；步骤9、采用Softmax作为分类器，根据步骤5得到的私有特征对数据集X进行多可信度类型分类，得到多分类损失Ltask；步骤10、对判别损失Ladv、独立化损失Lind、差异化损失Ldiff和多分类损失Ltask进行融合训练，使得多分类效果达到最优。2.根据权利要求1所述基于多任务学习的差异化特征挖掘的可信度评估方法，其特征在于，所述步骤2中生成器的优化方法具体如下：在数据集上采用经典的MLE算法预训练生成器的生成策略Gθ，采用最小化交叉熵预训练二分类判别器循环遍历数据集中的信息，开始进行GAN训练，执行g-steps次循环，其中，g-steps指该信息从当前词开始到所有词结束所产生的次数；生成一个长度为T的序列，根据生成的序列计算动作期望值，并基于该动作期望值，利用策略梯度优化生成器；其中，动作期望值...

【专利技术属性】
技术研发人员：饶元，吴连伟，靳浩林，
申请(专利权)人：西安交通大学，
类型：发明
国别省市：陕西,61

全部详细技术资料下载我是这个专利的主人