当前位置: 首页 > 专利查询>湖北大学专利>正文

一种基于集成学习的网络不可靠信息早期检测方法技术

技术编号:38763220 阅读:24 留言:0更新日期:2023-09-10 10:36
本发明专利技术公开了一种基于集成学习的网络不可靠信息早期检测方法,属于网络不可靠信息早期检测技术领域,包括以下步骤:1)将输入的文本序列转换成词向量序列;2)将词向量序列分别输入到三个基模型Transformer、Bi

【技术实现步骤摘要】
一种基于集成学习的网络不可靠信息早期检测方法


[0001]本专利技术涉及网络不可靠信息早期检测领域,尤其是涉及一种基于集成学习的网络不可靠信息早期检测方法。

技术介绍

[0002]不可靠信息检测在大多数研究中都被视作一个二分类问题,即将待检测的内容分为不可靠信息和可靠信息两类。其中,无论是基于传统机器学习还是深度学习的检测方法,核心都是从待检测博文本身及其相关的属性中提取有助于检测的特征,用于训练和预测,从而判断待检测博文是不可靠信息还是可靠信息。而这些不可靠信息检测方法中,主要依靠于选取文本内容特征、社交上下文特征以及传播结构特征中的一种或多种。
[0003]以上不可靠信息检测方法的缺陷主要体现在如下两个方面:
[0004](1)提取内容特征时语法和结构特征丢失严重
[0005]不可靠信息的形式复杂多样,同时不可靠信息制造者也会采取各种手段来模糊其意图,以躲避检测。现有的不可靠信息检测方法在提取内容特征时存在语法和结构特征提取丢失严重,以至于不可靠信息检测效果差的问题。
[0006](2)不可靠信息早期检测能力本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于集成学习的网络不可靠信息早期检测方法,其特征在于:包括以下步骤:步骤1:将输入的文本序列转换成词向量序列:首先将原博文s整合对应的转发评论c,得到一个长度为n的文本序列M=[m1,m2,...,m
n
],然后利用经预训练得到的Glove将文本序列M转化成词向量序列x,x=x1,x2,...,x
n
(x
i
∈R
d
),其中d代表维度;步骤2:将词向量序列分别输入到三个基模型Transformer、Bi

SATT

CAPS、BiTCN中以完成不可靠信息检测的分类,利用基模型Bi

SATT

CAPS进行不可靠信息检测的分类方法步骤为:(1)将词向量序列x输入到双向LSTM中进行特征提取,正向LSTM的和反向LSTM的隐藏状态向量拼接在一起得到的向量代表了提取的特征:其中,表示正向LSTM的隐藏状态向量,表示反向LSTM的隐藏状态向量,[,]表示拼接操作;(2)使用多头自注意力机制,对双向LSTM的输出h
n
进行多头自注意力计算,实现对不同位置上的输入信息进行共同关注;(2.1)W
Q
、Wk、Wv是不同的权重矩阵,将这些权重矩阵分别与h
n
相乘后计算得到Q、K、V矩阵;(2.2)多头自主注意力将得到的Q、K、V矩阵根据设计的多头自注意力的头的数量进行拆分,然后分别计算三部分的注意力分数;其中,为第i个头的输出,W
iQ
、W
iK
、W
iV
分别为第i个头中Q、K、V的参数矩阵;(2.3)将计算结果进行合并其中r为多头注意力的头数,W
O
为权重矩阵。(2.4)最终多头自注意力计算结果合并拼接的结果Multihead(Q,K,V)经过线性层得到输出特征v;(3)将上一步的输出特征v输入到卷积胶囊层中;(3.1)卷积胶囊层中相邻的两个胶囊之间,i层的子胶囊v
i
乘以一个权重矩阵W
ij
得到子胶囊v
i
到第i+1层父胶囊的预测向量到第i+1层父胶囊的预测向量(3.2)计算动态路由算法所决定的耦合系数c
ij
,将对数概率b
ij
的初始值设为0,并通过c
ij
的连续变换,即使用softmax函数进行迭代更新:(3.3)由所有来自子胶囊的预测向量加权求和可得到每个父胶囊的最终特征表示s
j
(3.4)父胶囊s
j
通过激活函数Squash进行缩放,从而得到最终的父胶囊V
j
:(3.5)将卷积胶囊层的输出向量V
j
输入到分类胶囊中进行分类:V
f
=f(W
·
V
j
...

【专利技术属性】
技术研发人员:余敦辉曾煜张万山张与牵陈叶子解迪
申请(专利权)人:湖北大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1