【技术实现步骤摘要】
一种邮件识别及模型训练方法、装置和设备
[0001]本专利技术涉及信息处理
,尤其涉及一种邮件识别及模型训练方法、装置和设备。
技术介绍
[0002]一些企业或组织对于数据的安全性和隐私性要求都极为严格,因此在进行邮件通讯时,对于外部互联网发来的邮件,邮件系统需对该邮件进行分析,判断是否允许该邮件发送至内部邮箱。对于内部发送至外部互联网的邮件,邮件系统需要识别该邮件是否携带内部敏感数据,判断是否限制该邮件想外部互联网的传输。
技术实现思路
[0003]本专利技术实施例提供一种邮件识别及模型训练方法、装置和设备,能够利用卷积神经网络善于局部特征提取的优势,并充分考虑到合规邮件和不合规邮件文本内容的位置信息影响,采取变步长卷积和带权池化的方式来训练邮件识别模型,使其在不合规邮件的识别上取得显著成效,能够进行不合规邮件的高效识感知识别。
[0004]第一方面,本专利技术实施例提供一种邮件识别模型训练方法,包括:对包括合规邮件以及不合规邮件的多个样本邮件进行词向量提取并根据位置进行分组,得到每个样本邮件 ...
【技术保护点】
【技术特征摘要】
1.一种邮件识别模型训练方法,其特征在于,包括:对包括合规邮件以及不合规邮件的多个样本邮件进行词向量提取并根据位置进行分组,得到每个样本邮件的多个样本词向量分组,其中每个样本词向量分组中包括一个或多个样本词向量;利用所述多个样本邮件的所述多个样本词向量分组对卷积神经网络模型进行训练得到邮件识别模型;以及其中训练过程包括:对所述每个样本邮件的每个样本词向量分组分别利用不同步长卷积核的进行卷积运算得到所述每个样本邮件的多个卷积样本特征;以及,根据由每个卷积样本特征对应词语在对应样本邮件中的位置确定的所述每个卷积样本特征的位置权重系数,对所述每个卷积样本特征进行加权池化运算。2.根据权利要求1所述的邮件识别模型训练方法,其特征在于,所述每个样本邮件的多个样本词向量分组包括:起始样本词向量分组,中间样本词向量分组以及结尾样本词向量分组;所述对包括合规邮件以及不合规邮件的多个样本邮件进行词向量提取并根据位置进行分组,得到每个样本邮件的多个样本词向量分组的过程包括:对每个样本邮件分别进行词向量提取得到每个样本邮件的多个样本词向量;以及分别将对应词语位于所述每个样本邮件中的起始位置,中间位置,以及结尾位置的所述样本词向量,划分入所述起始样本词向量分组,所述中间样本词向量分组以及所述结尾样本词向量分组。3.根据权利要求2所述的邮件识别模型训练方法,其特征在于,所述对所述每个样本邮件的每个样本词向量分组分别利用不同步长卷积核的进行卷积运算的过程包括:对所述起始样本词向量分组以及所述结尾样本词向量分组中的所述样本词向量,利用高步长卷积核的进行卷积运算;对所述中间样本词向量分组中的所述样本词向量,利用低步长卷积核进行卷积运算。4.根据权利要求1所述的邮件识别模型训练方法,其特征在于,所述根据由每个卷积样本特征对应词语在对应样本邮件中的位置确定的所述每个卷积样本特征的位置权重系数,对所述每个卷积样本特征进行加权池化操作运算的过程包括:根据所述每个卷积样本特征对应的样本词向量与所述对应样本邮件的第一个样本词向量以及最后一个样本词向量的距离,计算得到每个卷积样本特征的所述位置权重系数。5.根据权利要求1所述的邮件识别模型训练方法,其特征在于,所述训练过程还包括:采用暂退优化法利用所述多个样本邮件的所述多个样本词向量分组对所述卷积神经网络模型进行训练;以及采用正则优化法利用所述多个样本邮件的所述多个样本词向量...
【专利技术属性】
技术研发人员:路永鑫,
申请(专利权)人:中国农业银行股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。