【技术实现步骤摘要】
一种基于Spark与YARN的邮件内容分析方法
本专利技术涉及一种邮件内容分析方法,尤其涉及一种基于Spark与YARN的邮件内容分析方法,应用于大量邮件内容分析、归类、查询、展示的处理框架。
技术介绍
邮件是人们在工作中一种主要的信息交换的通讯方式,是互联网应用最广泛的服务之一。通过邮件,人们可以以非常低廉的价格、非常快速而且安全的方式,与世界上任何一个地点的网络用户进行联络。同时,邮件的内容也可以是文本、图片、视频、文件等多种形式,可以传递大量的信息。随着用户邮件数据在邮件服务器的累积,在政策允许和获得授权的情况下,具有邮件读取权限的公司和用户可以通过对邮件内容的分析来获取一些有价值的信息(如垃圾邮件分析),并且对新来的邮件进行相应处理。邮件往往采用的是人类易读的自然语言来通讯的。邮件内容分析不同于文本分析之处在于:1)邮件可能包含多媒体文件,图片、音频甚至是文件等;2)邮件包含有一些特殊的属性,如收件人、抄送人、主题等;3)邮件之间有直接或间接的关联,如邮件的回复,相同主题的邮件等等。所以邮件分析处理不仅仅有自然语言分析处理的部分,也有邮件间关联分析的部分。 ...
【技术保护点】
一种基于Spark与YARN的邮件内容分析方法,主要包括5个模块:数据预处理模块、邮件特征抽取与分析模块、邮件分类与关联分析模块、数据持久化与查询模块、以及数据可视化模块;其特征在于,所述方法,将大量邮件数据内容经过预处理后,进行主题定位和特征词提取,并根据特征词与主题的关联程度赋以不同的权重,对邮件内容进行量化;再根据量化结果,对邮件进行分类,将具有关联关系的邮件放在一个划分集合内;通过算法计算两封邮件之间的类似程度,并进行多次迭代计算,并将最终计算结果,写回到HBASE数据库,并提供查询服务。
【技术特征摘要】
1.一种基于Spark与YARN的邮件内容分析方法,主要包括5个模块:数据预处理模块、邮件特征抽取与分析模块、邮件分类与关联分析模块、数据持久化与查询模块、以及数据可视化模块;其特征在于,所述方法,将大量邮件数据内容经过预处理后,进行主题定位和特征词提取,并根据特征词与主题的关联程度赋以不同的权重,对邮件内容进行量化;再根据量化结果,对邮件进行分类,将具有关联关系的邮件放在一个划分集合内;通过算法计算两封邮件之间的类似程度,并进行多次迭代计算,并将最终计算结果,写回到HBASE数据库,并提供查询服务。2.根据权利要求一所述的一种基于Spark与YARN的邮件内容分析方法,其特征在于,所述的数据处理模块,将原始的邮件数据上传到HDFS,系统通过读取这些保存在HDFS上的文件,提取邮件元数据以及邮件内容,将读取到的记录保存到HBase存储中,并将邮件数据记录序列化转换后合并写入到新的HDFS文件中。3.根据权利要求一所述的一种基于Spark与YARN的邮件内容分析方法,其特征在于,所述的邮件特征抽取与分析模块,主要用于,将经过预处理的数据文件存放在HDFS上,通过自然语言分析处理工具对邮件内容进行主题定位和特征词提取,根据设定的数据以及特征词与主题的关联程度赋以不同的权重,对邮件内容进行量化。4.根据权利要求一所述的一种基于Spark与YARN的邮件内容分析方法,其特征在于,所述的邮件分类与关联分析模块,主要用于,根据邮件特征抽取与分析模块输出的量化信息对邮件进行分类,将具有关联关系的邮件放在一个划分集合内;通过计算两个邮件特征量化参考值之间的相似度,计算两封邮件之间的类似程度;这个过程经过多次迭代计算,每一次计算的结果都是一次重新的归类划分,直到最后一次划分结果不再变化或者数量...
【专利技术属性】
技术研发人员:高颜,
申请(专利权)人:北京易讯通信息技术股份有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。