System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本申请涉及恶意数据识别领域,且更为具体地,涉及一种基于ai智能的融合通信恶意数据识别系统及方法。
技术介绍
1、随着互联网的发展,电子邮件成为了人们日常沟通和工作的重要工具。然而,电子邮件也面临着垃圾邮件的困扰,垃圾邮件不仅占用了网络资源,影响了用户体验,还可能携带恶意信息,对用户造成安全威胁。因此,如何有效地识别和过滤垃圾邮件是至关重要的。
2、目前,常见的垃圾邮件识别主要基于规则或者统计的方式,这样方法往往需要人工定义特征或者规则,并进行大量的数据标注,效率较低且难以捕捉邮件内容的语义信息和主题信息,无法适应恶意数据的快速变化和多样性。
3、因此,期望一种基于ai智能的融合通信恶意数据识别系统。
技术实现思路
1、有鉴于此,本申请提出了一种基于ai智能的融合通信恶意数据识别系统及方法,其可以通过获取被检测邮件,并从被检测邮件中提取邮件的文本内容部分,然后,在后端引用基于人工智能的数据处理和语义理解技术来进行该邮件文本内容的语义分析和理解,以此来进行被检测邮件的主题识别,以判断该邮件是否为垃圾邮件。
2、根据本申请的一方面,提供了一种基于ai智能的融合通信恶意数据识别系统,其包括:
3、邮件获取模块,用于获取被检测邮件;
4、邮件文本内容提取模块,用于从所述被检测邮件中提取邮件文本内容;
5、内容分段模块,用于对所述邮件文本内容进行分段处理以得到邮件文本内容段的序列;
6、邮件文本内容段粒度语义分
7、邮件文本内容全文语义理解模块,用于对所述邮件文本内容段粒度语义理解特征向量的序列进行全文语义关联编码以得到邮件文本内容全文语义理解特征;以及
8、邮件主题分类模块,用于基于所述邮件文本内容全文语义理解特征,确定被检测邮件是否为垃圾邮件。
9、在上述的基于ai智能的融合通信恶意数据识别系统中,所述邮件文本内容段粒度语义分析模块,用于:
10、将所述邮件文本内容段的序列中的各个邮件文本内容段通过包含词嵌入层和文本卷积神经网络模型的段语义编码器以得到所述邮件文本内容段粒度语义理解特征向量的序列。
11、在上述的基于ai智能的融合通信恶意数据识别系统中,所述邮件文本内容全文语义理解模块,用于:
12、将所述邮件文本内容段粒度语义理解特征向量的序列通过基于转换器模块的上下文编码器以得到邮件文本内容全文语义理解特征向量作为所述邮件文本内容全文语义理解特征。
13、在上述的基于ai智能的融合通信恶意数据识别系统中,所述邮件主题分类模块,用于:
14、将所述邮件文本内容全文语义理解特征向量通过分类器以得到分类结果,所述分类结果用于表示被检测邮件是否为垃圾邮件。
15、在上述的基于ai智能的融合通信恶意数据识别系统中,还包括用于对所述包含词嵌入层和文本卷积神经网络模型的段语义编码器、所述基于转换器模块的上下文编码器和所述分类器进行训练的训练模块。
16、在上述的基于ai智能的融合通信恶意数据识别系统中,所述训练模块,包括:
17、训练数据获取单元,用于获取训练数据,所述训练数据包括训练被检测邮件,以及,训练被检测邮件是否为垃圾邮件的真实值;
18、训练邮件文本内容提取单元,用于从所述训练被检测邮件中提取训练邮件文本内容;
19、训练内容分段单元,用于对所述训练邮件文本内容进行分段处理以得到训练邮件文本内容段的序列;
20、训练邮件文本内容段粒度语义分析单元,用于将所述训练邮件文本内容段的序列中的各个训练邮件文本内容段通过所述包含词嵌入层和文本卷积神经网络模型的段语义编码器以得到训练邮件文本内容段粒度语义理解特征向量的序列;
21、训练邮件文本内容全文语义理解单元,用于将所述训练邮件文本内容段粒度语义理解特征向量的序列通过所述基于转换器模块的上下文编码器以得到训练邮件文本内容全文语义理解特征向量;
22、训练分类损失单元,用于将所述训练邮件文本内容全文语义理解特征向量通过所述分类器以得到分类损失函数值;以及
23、损失训练单元,用于以所述分类损失函数值来对所述包含词嵌入层和文本卷积神经网络模型的段语义编码器、所述基于转换器模块的上下文编码器和所述分类器进行训练,其中,在所述训练的每一轮迭代中,对所述训练邮件文本内容全文语义理解特征向量进行校正。
24、在上述的基于ai智能的融合通信恶意数据识别系统中,所述训练分类损失单元,用于:
25、通过所述分类器以如下分类训练公式对所述训练邮件文本内容全文语义理解特征向量进行处理以得到训练分类结果;
26、其中,所述分类训练公式为:;其中,到为权重矩阵,到为偏置向量,为所述训练邮件文本内容全文语义理解特征向量;以及
27、计算所述训练分类结果与所述真实值之间的交叉熵值作为所述分类损失函数值。
28、根据本申请的另一方面,提供了一种基于ai智能的融合通信恶意数据识别方法,其包括:
29、获取被检测邮件;
30、从所述被检测邮件中提取邮件文本内容;
31、对所述邮件文本内容进行分段处理以得到邮件文本内容段的序列;
32、对所述邮件文本内容段的序列中的各个邮件文本内容段进行基于段粒度的语义分析以得到邮件文本内容段粒度语义理解特征向量的序列;
33、对所述邮件文本内容段粒度语义理解特征向量的序列进行全文语义关联编码以得到邮件文本内容全文语义理解特征;以及
34、基于所述邮件文本内容全文语义理解特征,确定被检测邮件是否为垃圾邮件。
35、在上述的基于ai智能的融合通信恶意数据识别方法中,对所述邮件文本内容段的序列中的各个邮件文本内容段进行基于段粒度的语义分析以得到邮件文本内容段粒度语义理解特征向量的序列,包括:
36、将所述邮件文本内容段的序列中的各个邮件文本内容段通过包含词嵌入层和文本卷积神经网络模型的段语义编码器以得到所述邮件文本内容段粒度语义理解特征向量的序列。
37、在上述的基于ai智能的融合通信恶意数据识别方法中,对所述邮件文本内容段粒度语义理解特征向量的序列进行全文语义关联编码以得到邮件文本内容全文语义理解特征,包括:
38、将所述邮件文本内容段粒度语义理解特征向量的序列通过基于转换器模块的上下文编码器以得到邮件文本内容全文语义理解特征向量作为所述邮件文本内容全文语义理解特征。
39、在本申请中,其首先获取被检测邮件,接着,从所述被检测邮件中提取邮件文本内容,然后,对所述邮件文本内容进行分段处理以得到邮件文本内容段的序列,接着,对所述邮件文本内容段的序列中的各个邮件文本内容段进行基于段粒度本文档来自技高网...
【技术保护点】
1.一种基于AI智能的融合通信恶意数据识别系统,其特征在于,包括:
2.根据权利要求1所述的基于AI智能的融合通信恶意数据识别系统,其特征在于,所述邮件文本内容段粒度语义分析模块,用于:
3.根据权利要求2所述的基于AI智能的融合通信恶意数据识别系统,其特征在于,所述邮件文本内容全文语义理解模块,用于:
4.根据权利要求3所述的基于AI智能的融合通信恶意数据识别系统,其特征在于,所述邮件主题分类模块,用于:
5.根据权利要求4所述的基于AI智能的融合通信恶意数据识别系统,其特征在于,还包括用于对所述包含词嵌入层和文本卷积神经网络模型的段语义编码器、所述基于转换器模块的上下文编码器和所述分类器进行训练的训练模块。
6.根据权利要求5所述的基于AI智能的融合通信恶意数据识别系统,其特征在于,所述训练模块,包括:
7.根据权利要求6所述的基于AI智能的融合通信恶意数据识别系统,其特征在于,所述训练分类损失单元,用于:
8.一种基于AI智能的融合通信恶意数据识别方法,其特征在于,包括:
9.根
10.根据权利要求9所述的基于AI智能的融合通信恶意数据识别方法,其特征在于,对所述邮件文本内容段粒度语义理解特征向量的序列进行全文语义关联编码以得到邮件文本内容全文语义理解特征,包括:
...【技术特征摘要】
1.一种基于ai智能的融合通信恶意数据识别系统,其特征在于,包括:
2.根据权利要求1所述的基于ai智能的融合通信恶意数据识别系统,其特征在于,所述邮件文本内容段粒度语义分析模块,用于:
3.根据权利要求2所述的基于ai智能的融合通信恶意数据识别系统,其特征在于,所述邮件文本内容全文语义理解模块,用于:
4.根据权利要求3所述的基于ai智能的融合通信恶意数据识别系统,其特征在于,所述邮件主题分类模块,用于:
5.根据权利要求4所述的基于ai智能的融合通信恶意数据识别系统,其特征在于,还包括用于对所述包含词嵌入层和文本卷积神经网络模型的段语义编码器、所述基于转换器模块的上下文编码器和所述分类器进行训练的训练模块。
6.根据权利要求...
【专利技术属性】
技术研发人员:王友峰,刘晓周,李晓凡,王崇斌,王红,潘星,王劲航,王一杰,
申请(专利权)人:陕西瑞欣科技发展有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。