邮件过滤方法及装置制造方法及图纸

技术编号:26479845 阅读:20 留言:0更新日期:2020-11-25 19:24
本发明专利技术提供了一种邮件过滤方法及装置,该方法包括:从邮件的标题、正文和附件,提取得到邮件的词组数据;将邮件的词组数据与银行知识库的敏感词比对,根据比对结果确定邮件的词组数据中不包含敏感词时,对邮件的词组数据进行分析,确定词组数据的特征信息;利用预先训练好的应用贝叶斯定理的概率探针,根据词组数据的特征信息,确定邮件不是垃圾邮件后,予以安全放行;其中,概率探针为根据历史邮件建立的应用贝叶斯定理的分类器,用于确定邮件分类是否为垃圾邮件。该方法实现了将银行系统接收到的邮件,进行分类,只有不包含敏感词且不是垃圾邮件的邮件,予以安全放行,减轻工作人员的工作负担,提高邮件的安全性。

【技术实现步骤摘要】
邮件过滤方法及装置
本专利技术涉及数据处理
,尤其涉及一种邮件过滤方法及装置。
技术介绍
在银行中,日常办公都是通过邮件进行沟通和交流的,但在互联网外部邮件传入到银行内部邮件系统时,很难过滤到带有银行特殊敏感信息或含有垃圾信息的邮件,从而增加了工作人员的工作负担;带有银行特殊敏感信息或含有垃圾信息的邮件,若不慎点开,有可能会带来信息泄露等安全隐患。
技术实现思路
本专利技术实施例提供一种邮件过滤方法,用以过滤含敏感词或含有垃圾信息的邮件,减轻工作人员的工作负担,提高邮件的安全性,该方法包括:提取接收到的邮件的标题、正文和附件;从所述邮件的标题、正文和附件,提取得到所述邮件的词组数据;将所述邮件的词组数据与银行知识库的敏感词比对,根据比对结果确定所述邮件的词组数据中是否包含敏感词时,对所述邮件的词组数据进行分析,确定所述词组数据的特征信息;利用预先训练好的应用贝叶斯定理的概率探针,根据所述词组数据的特征信息,确定所述邮件不是垃圾邮件后,予以安全放行;其中,所述概率探针为根据历史邮件建立的应用贝叶斯定理的分类器,用于确定邮件分类是否为垃圾邮件。本专利技术实施例还提供一种邮件过滤装置,用以过滤含敏感词或含有垃圾信息的邮件,减轻工作人员的工作负担,提高邮件的安全性,该装置包括:邮件信息提取模块,用于提取接收到的邮件的标题、正文和附件;词组数据提取模块,用于从所述邮件的标题、正文和附件,提取得到所述邮件的词组数据;敏感词检索模块,用于将所述邮件的词组数据与银行知识库的敏感词比对,根据比对结果确定所述邮件的词组数据中不包含敏感词时,对所述邮件的词组数据进行分析,确定所述词组数据的特征信息;邮件分类过滤模块,用于利用预先训练好的应用贝叶斯定理的概率探针,根据所述词组数据的特征信息,确定所述邮件不是垃圾邮件后,予以安全放行;其中,所述概率探针为根据历史邮件建立的应用贝叶斯定理的分类器,用于确定邮件分类是否为垃圾邮件。本专利技术实施例还提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述邮件过滤方法。本专利技术实施例也提供一种计算机可读存储介质,所述计算机可读存储介质存储有执行上述邮件过滤方法的计算机程序。本专利技术实施例中,通过提取接收到的邮件的标题、正文和附件;从邮件的标题、正文和附件,提取得到邮件的词组数据;将邮件的词组数据与银行知识库的敏感词比对,根据比对结果确定邮件的词组数据中不包含敏感词时,对邮件的词组数据进行分析,确定词组数据的特征信息;利用预先训练好的应用贝叶斯定理的概率探针,根据词组数据的特征信息,确定邮件不是垃圾邮件后,予以安全放行;其中,概率探针为根据历史邮件建立的应用贝叶斯定理的分类器,用于确定邮件分类是否为垃圾邮件。实现了将银行系统接收到的邮件,进行分类,只有不包含敏感词且不是垃圾邮件的邮件,予以安全放行,即含有敏感词的邮件和垃圾邮件,均被拦截在银行的内部邮件系统之外,减轻工作人员的工作负担,提高邮件的安全性。附图说明为了更清楚地说明本专利技术实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术实施例中邮件过滤方法的示意图。图2为本专利技术具体实施例中步骤102的具体实现方法示意图。图3为本专利技术具体实施例中步骤201的具体实现方法示意图。图4为本专利技术具体实施例中应用贝叶斯定理的概率探针的预先训练过程示意图。图5为本专利技术实施例中具体实施例中步骤401的具体实现方法示意图。图6为本专利技术实施例中邮件过滤装置的示意图。图7为本专利技术具体实施例中词组数据提取模块602的结构示意图。图8为本专利技术具体实施例中邮件过滤装置的示意图。图9为本专利技术具体实施例中预训练模块801的结构示意图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。本专利技术实施例提供了一种邮件过滤方法,用以过滤含敏感词或含有垃圾信息的邮件,减轻工作人员的工作负担,提高邮件的安全性,如图1所示,该方法包括:步骤101:提取接收到的邮件的标题、正文和附件;步骤102:从邮件的标题、正文和附件,提取得到邮件的词组数据;步骤103:将邮件的词组数据与银行知识库的敏感词比对,根据比对结果确定邮件的词组数据中是否包含敏感词时,对邮件的词组数据进行分析,确定词组数据的特征信息;步骤104:利用预先训练好的应用贝叶斯定理的概率探针,根据词组数据的特征信息,确定邮件不是垃圾邮件后,予以安全放行。其中,上述概率探针为根据历史邮件建立的应用贝叶斯定理的分类器,用于确定邮件分类是否为垃圾邮件。由图1所示流程可以得知,本专利技术实施例中,通过提取接收到的邮件的标题、正文和附件;从邮件的标题、正文和附件,提取得到邮件的词组数据;将邮件的词组数据与银行知识库的敏感词比对,根据比对结果确定邮件的词组数据中不包含敏感词时,对邮件的词组数据进行分析,确定词组数据的特征信息;利用预先训练好的应用贝叶斯定理的概率探针,根据词组数据的特征信息,确定邮件不是垃圾邮件后,予以安全放行;其中,概率探针为根据历史邮件建立的应用贝叶斯定理的分类器,用于确定邮件分类是否为垃圾邮件。实现了将银行系统接收到的邮件,进行分类,只有不包含敏感词且不是垃圾邮件的邮件,予以安全放行,即含有敏感词的邮件和垃圾邮件,均被拦截在银行的内部邮件系统之外,减轻工作人员的工作负担,提高邮件的安全性。具体实施时,首先提取接收到的邮件的标题、正文和附件。从上述邮件的标题、正文和附件,提取得到邮件的词组数据,具体实施时,如图2所示,包括:步骤201:从邮件的标题、正文和附件,识别并提取文字片段;步骤202:对文字片段进行标准化字符处理,处理得到一个或多个词组。其中,标准化字符处理包括:去除标点符号、拼音转汉字、同义词转换以及分词操作的其中之一或任意组合。具体实施例中,步骤201具体实施过程如图3所示,包括:步骤301:若邮件的正文和附件包括图片信息,利用光学字符识别OCR(OpticalCharacterRecognition)技术,对邮件的正文和附件中图片上的文字进行识别,提取得到文字片段;步骤302:若邮件的正文和附件中包括MP3语音片段,利用语音识别技术,对MP3语音片段进行语音转文字,提取得到文字片段。提取得到邮件的词组数据后,将邮件的词组数据与银行知识库的敏感词比对本文档来自技高网...

【技术保护点】
1.一种邮件过滤方法,其特征在于,包括:/n提取接收到的邮件的标题、正文和附件;/n从所述邮件的标题、正文和附件,提取得到所述邮件的词组数据;/n将所述邮件的词组数据与银行知识库的敏感词比对,根据比对结果确定所述邮件的词组数据中不包含敏感词时,对所述邮件的词组数据进行分析,确定所述词组数据的特征信息;/n利用预先训练好的应用贝叶斯定理的概率探针,根据所述词组数据的特征信息,确定所述邮件不是垃圾邮件后,予以安全放行;其中,所述概率探针为根据历史邮件建立的应用贝叶斯定理的分类器,用于确定邮件分类是否为垃圾邮件。/n

【技术特征摘要】
1.一种邮件过滤方法,其特征在于,包括:
提取接收到的邮件的标题、正文和附件;
从所述邮件的标题、正文和附件,提取得到所述邮件的词组数据;
将所述邮件的词组数据与银行知识库的敏感词比对,根据比对结果确定所述邮件的词组数据中不包含敏感词时,对所述邮件的词组数据进行分析,确定所述词组数据的特征信息;
利用预先训练好的应用贝叶斯定理的概率探针,根据所述词组数据的特征信息,确定所述邮件不是垃圾邮件后,予以安全放行;其中,所述概率探针为根据历史邮件建立的应用贝叶斯定理的分类器,用于确定邮件分类是否为垃圾邮件。


2.如权利要求1所述的方法,其特征在于,从所述邮件的标题、正文和附件,提取得到所述邮件的词组数据,包括:
从所述邮件的标题、正文和附件,识别并提取文字片段;
对所述文字片段进行标准化字符处理,处理得到一个或多个词组;
其中,所述标准化字符处理包括:去除标点符号、拼音转汉字、同义词转换以及分词操作的其中之一或任意组合。


3.如权利要求2所述的方法,其特征在于,从所述邮件的标题、正文和附件,识别并提取文字片段,包括:
若所述邮件的正文和附件包括图片信息,利用光学字符识别OCR技术对所述邮件的正文和附件中图片上的文字进行识别,提取得到文字片段;
若所述邮件的正文和附件中包括MP3语音片段,利用语音识别技术,对MP3语音片段进行语音转文字,提取得到文字片段。


4.如权利要求1所述的方法,其特征在于,所述应用贝叶斯定理的概率探针的预先训练过程,包括:
获取历史邮件数据集;所述历史邮件数据集包括历史邮件的词组数据的特征信息,以及历史邮件的样本标签;
以所述历史邮件的词组数据的特征信息为输入,以所述历史邮件的样本标签为输出,训练贝叶斯分类器,得到最优的分类模型,作为应用贝叶斯定理的概率探针。


5.如权利要求4所述的方法,其特征在于,获取历史邮件数据集,包括:
采集历史邮件;
根据历史邮件的邮件信息,对历史邮件进行正负样本标签的标注,将不含垃圾信息的邮件标注为正样本标签,将垃圾邮件标注为负样本标签;
样本标签标注的过程中,统计各单词出现频率和词组的平均长度,作为历史邮件的词组数据的特征信息。


6.一种邮件过滤装置,其特征在于,包括:
邮件信息提取模块,用于提取接收到的邮件的标题、正文和附件;
词组数据提取模块,用于从所述邮件的标题、正文和附件,提取得到所述邮件的词组数据;
敏感词...

【专利技术属性】
技术研发人员:申亚坤
申请(专利权)人:中国银行股份有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1