一种邮件分析方法、装置、电子设备及存储介质制造方法及图纸

技术编号:38337975 阅读:10 留言:0更新日期:2023-08-02 09:18
本申请实施例提供一种邮件分析方法、装置、电子设备及存储介质,所述方法包括:对邮件数据进行特征提取,并对提取的邮件特征进行属性标注,得到包括多种邮件特征的邮件特征集合;针对每种邮件特征,根据特征相似度在历史邮件的分析数据中确定与邮件特征对应的关联特征,得到包括关联特征的关联特征集合;根据邮件特征集合与关联特征集合中元素数量,确定邮件数据的统计度量值,得到携带统计度量值的邮件数据。以此借助历史邮件与统计度量值评估邮件数据的识别结果的可靠性,由此提出一种可以评估识别结果可靠性的分析方法。以评估识别结果可靠性的分析方法。以评估识别结果可靠性的分析方法。

【技术实现步骤摘要】
一种邮件分析方法、装置、电子设备及存储介质


[0001]本申请涉及数据处理
,具体而言,涉及一种邮件分析方法、装置、电子设备及存储介质。

技术介绍

[0002]随着通信技术的快速发展,电子邮件在工作、生活、购物等场景中已得到普遍和广泛的应用。然而,电子邮件也被用到一些非法的活动中,例如邮件攻击、钓鱼邮件等。
[0003]为了阻断通过电子邮件发起的网络攻击,需要对电子邮件进行识别分类,确定电子邮件属于攻击类邮件还是正常邮件。但在相关技术中,并没有对电子邮件的识别分类结果进行准确率的分析,导致无法得知识别分类结果是否可靠。

技术实现思路

[0004]本申请实施例的目的在于提供一种邮件分析方法、装置、电子设备及存储介质,用以实现的技术效果。
[0005]本申请实施例第一方面提供了一种邮件分析方法,所述方法包括:
[0006]对邮件数据进行特征提取,并对提取的邮件特征进行属性标注,得到包括多种邮件特征的邮件特征集合;
[0007]针对每种所述邮件特征,根据特征相似度在历史邮件的分析数据中确定与所述邮件特征对应的关联特征,得到包括所述关联特征的关联特征集合;
[0008]根据所述邮件特征集合与所述关联特征集合中元素数量,确定所述邮件数据的统计度量值,得到携带所述统计度量值的邮件数据。
[0009]在上述实现过程中,根据相似度确定出与邮件特征对应的关联特征,由此搜索到与邮件数据存在相似之处的历史邮件。并根据各特征集合中的元素数量确定邮件数据的统计度量值,以此借助历史邮件与统计度量值评估邮件数据的识别结果的可靠性,由此提出一种可以评估识别结果可靠性的分析方法。
[0010]进一步地,所述对提取的邮件特征进行属性标注,包括:
[0011]利用预设的属性标注库对所述邮件特征进行属性标注;其中,所述属性标注库记录邮件特征与属性信息的映射关系。
[0012]在上述实现过程中,利用属性标注库作为标注的手段,能快速有效地为邮件特征标注上属性标注。
[0013]进一步地,所述属性标注库包括静态标注库与动态标注库;所述动态标注库包括用户修改的属性信息;所述利用属性标注库对所述邮件特征进行属性标注,包括:
[0014]利用所述静态标注库对所述邮件特征进行初始标注;
[0015]利用所述动态标注库修改所述初始标注,得到携带所述属性标注的邮件特征。
[0016]在上述实现过程中,利用静态标注库与动态标注库先后对邮件特征进行属性标注,既能保留原始的属性信息,又能体现用户修改的属性信息。
[0017]进一步地,所述得到携带所述属性标注的邮件特征,包括:
[0018]根据用户指令,修改所述邮件特征携带的所述属性标注;
[0019]根据修改后的属性标注,更新所述动态标注库中所述邮件特征对应的属性信息。
[0020]在上述实现过程中,通过对用户修改的属性信息及时更新至动态资源库中,使得邮件特征可以利用最新的属性信息进行标注,保证了邮件数据识别分类的准确性。
[0021]进一步地,所述根据特征相似度在历史邮件的分析数据中确定与所述邮件特征对应的关联特征,包括:
[0022]在所述分析数据中获取与所述邮件特征匹配的历史邮件特征,得到包括所述历史邮件特征的候选特征集合;其中,所述历史邮件特征携带分析结果标注;
[0023]根据所述邮件特征与对应的历史邮件特征之间的相似度,从所述历史邮件特征中确定所述邮件特征对应的关联特征,得到包括所述关联特征的关联特征集合。
[0024]在上述实现过程中,利用历史邮件搜索可能与邮件特征存在关联性的历史邮件特征,继而根据相似度确定出与邮件特征对应的关联特征,由此搜索到与邮件数据存在相似之处的历史邮件。并根据各特征集合中的元素数量确定邮件数据的统计度量值,以此借助历史邮件与统计度量值评估邮件数据的识别结果的可靠性,由此提出一种可以评估识别结果可靠性的分析方法。
[0025]进一步地,所述统计度量值包括准确率和/或召回率;所述根据所述邮件特征集合与所述关联特征集合中元素数量,确定所述邮件数据的统计度量值包括:
[0026]确定所述关联特征集合的元素数量与所述邮件特征集合的元素数量之比为所述准确率;和/或
[0027]确定所述邮件特征集合的元素数量与所述关联特征集合的元素数量之比为所述召回率。
[0028]在上述实现过程中,利用关联特征集合的元素数量与邮件特征集合的元素数量之比作为准确率,通过关联的历史邮件辅助“证明”邮件数据识别结果的可靠性,从而提供了一种可以评估识别结果可靠性的分析方法。
[0029]进一步地,所述邮件数据包括结构化邮件数据与半结构化邮件数据;在进行特征提取之前,所述方法还包括:
[0030]对所述具有结构性的邮件数据进行规范化与结构分析。
[0031]在上述实现过程中,通过对邮件数据进行规范化与结构分析处理,为后续步骤提供标准的数据作为输入。
[0032]本申请实施例第二方面提供了一种邮件分析装置,所述装置包括:
[0033]特征提取模块,用于对邮件数据进行特征提取,并对提取的邮件特征进行属性标注,得到包括多种邮件特征的邮件特征集合;
[0034]关联模块,用于针对多种所述邮件特征中每种,根据特征相似度在历史邮件的分析数据中确定与所述邮件特征对应的关联特征,得到包括所述关联特征的关联特征集合;
[0035]统计度量值模块,用于根据所述邮件特征集合与所述关联特征集合中元素数量,确定所述邮件数据的统计度量值,得到携带所述统计度量值的邮件数据。
[0036]本申请实施例第三方面提供了一种电子设备,所述电子设备包括:
[0037]处理器;
[0038]用于存储处理器可执行指令的存储器;
[0039]其中,所述处理器调用所述可执行指令时实现第一方面任一所述方法的操作。
[0040]本申请实施例第四方面提供了一种计算机可读存储介质,其上存储有计算机指令,所述计算机指令被处理器执行时实现第一方面任一所述方法的步骤。
附图说明
[0041]为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
[0042]图1为本申请实施例提供的一种邮件分析方法的流程示意图;
[0043]图2为本申请实施例提供的另一种邮件分析方法的流程示意图;
[0044]图3为本申请实施例提供的另一种邮件分析方法的流程示意图;
[0045]图4为本申请实施例提供的另一种邮件分析方法的流程示意图;
[0046]图5为本申请实施例提供的另一种邮件分析方法的流程示意图;
[0047]图6为本申请实施例提供的一种邮件分析装置的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种邮件分析方法,其特征在于,所述方法包括:对邮件数据进行特征提取,并对提取的邮件特征进行属性标注,得到包括多种邮件特征的邮件特征集合;针对每种所述邮件特征,根据特征相似度在历史邮件的分析数据中确定与所述邮件特征对应的关联特征,得到包括所述关联特征的关联特征集合;根据所述邮件特征集合与所述关联特征集合中元素数量,确定所述邮件数据的统计度量值,得到携带所述统计度量值的邮件数据。2.根据权利要求1所述方法,其特征在于,所述对提取的邮件特征进行属性标注,包括:利用预设的属性标注库对所述邮件特征进行属性标注;其中,所述属性标注库记录邮件特征与属性信息的映射关系。3.根据权利要求2所述的方法,其特征在于,所述属性标注库包括静态标注库与动态标注库;所述动态标注库包括用户修改的属性信息;所述利用属性标注库对所述邮件特征进行属性标注,包括:利用所述静态标注库对所述邮件特征进行初始标注;利用所述动态标注库修改所述初始标注,得到携带所述属性标注的邮件特征。4.根据权利要求3所述的方法,其特征在于,所述得到携带所述属性标注的邮件特征,包括:根据用户指令,修改所述邮件特征携带的所述属性标注;根据修改后的属性标注,更新所述动态标注库中所述邮件特征对应的属性信息。5.根据权利要求1所述的方法,其特征在于,所述根据特征相似度在历史邮件的分析数据中确定与所述邮件特征对应的关联特征,包括:在所述分析数据中获取与所述邮件特征匹配的历史邮件特征,得到包括所述历史邮件特征的候选特征集合;其中,所述历史邮件特征携带分析结果标注;根据所述邮件特征与对应的历史邮件特征之间的相似度,从所述历史邮件特征中...

【专利技术属性】
技术研发人员:姚善
申请(专利权)人:北京天融信科技有限公司北京天融信软件有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1