一种基于深度学习的区块链违法信息感知方法技术

技术编号:32225966 阅读:15 留言:0更新日期:2022-02-09 17:30
本发明专利技术公开了一种基于深度学习的区块链违法信息感知方法,包括如下步骤:1)收集链上信息;2)文本特征提取;3)图片特征提取;4)特征融合;5)利用训练集对步骤1)

【技术实现步骤摘要】
一种基于深度学习的区块链违法信息感知方法


[0001]本专利技术涉及深度学习的信息感知技术,具体为一种基于深度学习的区块链违法信息感知方法。

技术介绍

[0002]网络的快速发展和普及产生海量数据,随之而来的是数据类型繁杂、信息规模庞大等问题。在信息感知识别领域,因非法组织与违法活动产生的数据分散、范围广,加之非结构化数据逐渐增多,导致治理行动受阻,这是安全监管行动部门关注的焦点问题。
[0003]在网络违法信息分析领域,针对网络信息流量大流速快的问题,目前并没有特别高效的解决方案能够准确捕获和分析有用信息,主要涉及到两个方面的因素:一是数据量过大,即处理对象难以确定和获取;二是由于人工智能技术近年发展迅速,网民对于传统模型接触较多已能够通过同义(同音,同形)词替换来达到避开人工智能模型的检测。从本质上来看这两个难点均反映出情报工作对数据处理技术的高要求,相较于其他机器学习方法,多编码融合的深度学习算法鼓励大数据集的收集并能够在训练过程中集成特征提取,对链上信息进行多角度综合分析,有效提高信息判断的准确性,从而更方便有效的对链上信息进行管理。

技术实现思路

[0004]本专利技术的目的是针对现有技术的不足,而提供一种基于深度学习的区块链违法信息感知方法。这种方法判断更安全准确可靠。
[0005]实现本专利技术目的的技术方案是:
[0006]一种基于深度学习的区块链违法信息感知方法,包括如下步骤:
[0007]1)收集链上信息,将收集到的信息按照是否违法的标签进行分类制成链上信息数据集,此数据集作为训练集;
[0008]2)文本特征提取:
[0009]21)从链上信息的数据集中单独提取文本信息;
[0010]22)分词:利用jieba分词器对每一段文本进行分词,使其变为各个词组;
[0011]23)编码:将词组按照词义、词形和词音分别进行编码,将三种编码按权重进行融合处理;
[0012]编码步骤如下:
[0013]231)词义编码:采用skip

gram模型应用于学习连续语义词向量,记作T
m

[0014]232)词形编码:先将各词组转化为图片,再采用DLET模型去提取词组的图形特征作为词形向量,记作T
g

[0015]233)词音编码:使用拼音来注释其发音,并且保留文本中的非汉字,然后获得了包含N 个拼音形式的N个字符的新序列,最后将词义编码中使用的skip

gram模型应用于将拼音字符形式嵌入到d维度的语音词向量中,记T
v

[0016]234)将词义词向量T
m
,词音词向量T
v
和词形向量T
g
进行级联得到T=[T
m
,T
v
,T
g
];
[0017]235)将级联后的向量T利用softmax函数计算图特征向量和文本特征向量各自的权重;
[0018]236)用步骤235)中的所得权重乘以步骤234)中级联后的特征向量T,得到融合特征向量;
[0019]24)将步骤236)中得到的融合特征向量放入LSTM模型中进行文本特征提取,最终将经过LSTM提取的输出作为文本特征向量记作X
tex

[0020]3)图片特征提取步骤:
[0021]31)从链上信息的数据集中单独提取图像信息;
[0022]32)去均值:将提取的图像信息的各维度都减对应维度的均值,使得输入数据各个维度都中心化为0;
[0023]33)归一化:将图片生成的图像素矩阵中的值变为(0,1)之间的小数,由于图像素矩阵的取值在0~255,故直接将矩阵除255即可;
[0024]34)将步骤236)中得到的融合特征向量放入CNN模型中进行图像特征提取,最终将经过图像提取的输出作为文本特征向量记作X
img

[0025]4)特征融合:
[0026]41)将提取的文本特征向量X
tex
和图特征向量X
img
进行级联得到Xt=[X
tex,
X
img
];
[0027]42)将级联后的特征向量Xt利用softmax函数计算图特征向量和文本特征向量各自的权重;
[0028]43)用步骤42)中所得的权重去乘步骤41)中级联后的特征向量Xt,得到融合特征向量;
[0029]5)利用训练集对步骤1)

步骤4)的深度学习神经网络模型采用反向传播算法进行训练;
[0030]6)使用训练好的神经网络模型对从区块链中整理好的信息进行筛选,筛选出含有违法信息和没有违法信息。
[0031]与传统方法相比,本技术方案图文特征信息的融合机制综合考虑了图文两方面,图片特征信息与文本特征信息相辅相成使得模型判断更为准确可靠,同时由于注意力机制的引入,可通过计算图片与文本的权重占比来更为直观的判断链上信息违法成分是在图片还是文本中,其中文本信息还综合考虑了文本语义,文本词形,文本词读音等三方面信息,文本语义信息的提取与运用防止了用户通过同义词恶意修改文本来达到躲避模型检测的目的,文本词形信息的提取与运用防止了用户通过同形词恶意替换文本来达到躲避模型检测的目的,文本读音信息的提取与运用防止了用户通过同音词恶意修改文本来达到躲避模型检测的目的,使得最终提取的文本信息更为全面,使得模型更加安全可靠。
[0032]这种方法判断更安全准确可靠。
附图说明
[0033]图1为实施例的流程示意图。
具体实施方式
[0034]下面结合附图及具体实施例对本专利技术作进一步的详细描述,但不是对本专利技术的限定。
[0035]实施例:
[0036]参照图1,一种基于深度学习的区块链违法信息感知方法,包括如下步骤:
[0037]1)收集链上信息,将收集到的信息按照是否违法的标签进行分类制成链上信息数据集,此数据集作为训练集;
[0038]2)文本特征提取:
[0039]21)从链上信息的数据集中单独提取文本信息;
[0040]22)分词:利用jieba分词器对每一段文本进行分词,使其变为各个词组;
[0041]23)编码:将词组按照词义、词形和词音分别进行编码,将三种编码按权重进行融合处理;
[0042]编码步骤如下:
[0043]231)词义编码:采用skip

gram模型应用于学习连续语义词向量,记作T
m

[0044]232)词形编码:先将各词组转化为24*24*3的图片,再采用DLET模型去提取词组的图形特征作为词形向量,记作T
g

[0045]233)词音编码:使用拼音来注释其发音,并且保留文本中的非汉字,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于深度学习的区块链违法信息感知方法,其特征在于,包括如下步骤:1)收集链上信息,将收集到的信息按照是否违法的标签进行分类制成链上信息数据集,此数据集作为训练集;2)文本特征提取:21)从链上信息的数据集中单独提取文本信息;22)分词:利用jieba分词器对每一段文本进行分词,使其变为各个词组;23)编码:将词组按照词义、词形和词音分别进行编码,将三种编码按权重进行融合处理;编码步骤如下:231)词义编码:采用skip

gram模型应用于学习连续语义词向量,记作T
m
;232)词形编码:先将各词组转化为图片,再采用DLET模型去提取词组的图形特征作为词形向量,记作T
g
;233)词音编码:使用拼音来注释其发音,并且保留文本中的非汉字,然后获得了包含N个拼音形式的N个字符的新序列,最后将词义编码中使用的skip

gram模型应用于将拼音字符形式嵌入到d维度的语音词向量中,记T
v
;234)将词义词向量T
m
,词音词向量T
v
和词形向量T
g
进行级联得到T=[T
m
,T
v
,T
g
];235)将级联后的特征向量T利用softmax函数计算图特征向量和文本特征向量各自的权重;236)用步...

【专利技术属性】
技术研发人员:梁海丁勇苏子秋
申请(专利权)人:桂林电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1