一种基于机器学习的中文邮件签名提取方法及系统技术方案

技术编号:17878890 阅读:74 留言:0更新日期:2018-05-06 00:43
本发明专利技术提供一种基于机器学习的中文邮件签名提取方法,包括以下步骤:通过正则切分方式,对待处理的中文邮件进行签名提取,获取一部分签名数据;提取样本签名数据的行特征,将所述行特征输入SVM进行训练获得训练模型;对于通过正则切分方式无法提取获得签名数据的中文邮件数据,通过训练模型,识别中文邮件中的签名行,对签名行进行合并后获得另一部分签名数据。能够从中文邮件数据中准确地提出发件人的个人信息,从而解决了在对邮件数据的数据挖掘中,经常挖掘到邮箱就无法继续深入的难题。且提取结果具有较高的准确率,具有很高的泛用性。同时提供对应上述方法的系统。

A Chinese mail signature extraction method and system based on machine learning

The invention provides a Chinese mail signature extraction method based on machine learning, including the following steps: through regular segmentation, the Chinese mail is extracted, a part of the signature data is obtained, and the line features of the sample signature data are extracted, and the training model is trained by the training of the characteristic input SVM. For the Chinese mail data that can not extract the signature data through the canonical segmentation method, the signature lines in the Chinese mail are identified through the training model, and another part of the signature data is obtained after the merger of the signature lines. The individual information of the sender can be accurately put forward from the Chinese mail data, thus solving the problem that the mailbox can not continue to dig into the mailbox in the data mining of the mail. Moreover, the extracted results are of high accuracy and high generalization. At the same time, a system that corresponds to the above method is provided.

【技术实现步骤摘要】
一种基于机器学习的中文邮件签名提取方法及系统
本专利技术涉及计算机操作软件设计领域,尤其涉及文本挖掘及信息整合系统,具体涉及一种基于机器学习的中文邮件签名提取方法及系统。
技术介绍
电子邮件是新的刑诉法规定的电子数据类证据,在涉网案件侦办中的作用越来越重要。而作为侦查办案人员,面对海量的电子邮件,尤其是中文邮件作为证据时,如何快速清理出人物和事件的脉络,查找到重要的涉案数据和嫌疑人员,是一个值得持续研究的问题。在对中文邮件数据进行处理时,签名在中文邮件数据中,作为少数能够将邮件与现实中的人对应起来的信息,在对中文邮件数据分析中尤为重要。但由于目前绝大部分的中文邮件签名的格式没有固定统一格式,造成目前几乎无法从中文邮件数据中通过某种特定规则来完全将邮件签名提取出来。目前存在的关于中文邮件的签名提取相关技术大致有两类,以下分别介绍这两类方法的核心思路及缺点。第一类为传统的中文邮件签名提取方法,往往是基于中文邮件的已有的标准签名格式,通过正则、与已有数据库进行比对等方式进行签名提取。如:形如“————————”的标准签名格式。该方法具有一定的局限性,往往只能适用于格式比较标准的中文邮件签名本文档来自技高网...
一种基于机器学习的中文邮件签名提取方法及系统

【技术保护点】
一种基于机器学习的中文邮件签名提取方法,包括以下步骤:通过正则切分方式,对待处理的中文邮件进行签名提取,获取一部分签名数据;提取样本签名数据的行特征,将所述行特征输入SVM进行训练获得训练模型;对于通过正则切分方式无法提取获得签名数据的中文邮件数据,通过训练模型,识别中文邮件中的签名行,对签名行进行合并后获得另一部分签名数据。

【技术特征摘要】
1.一种基于机器学习的中文邮件签名提取方法,包括以下步骤:通过正则切分方式,对待处理的中文邮件进行签名提取,获取一部分签名数据;提取样本签名数据的行特征,将所述行特征输入SVM进行训练获得训练模型;对于通过正则切分方式无法提取获得签名数据的中文邮件数据,通过训练模型,识别中文邮件中的签名行,对签名行进行合并后获得另一部分签名数据。2.如权利要求1所述的基于机器学习的中文邮件签名提取方法,其特征在于,所述待处理的中文邮件的文件格式为.eml,文字编码为UTF-8。3.如权利要求1或2所述的基于机器学习的中文邮件签名提取方法,其特征在于,所述正则包括以下模式:模式1:由多个-组成的行;模式2:由多个*组成的行;模式3:祝好。4.如权利要求1所述的基于机器学习的中文邮件签名提取方法,其特征在于,所述一部分签名数据为标准格式邮件的签名信息。5.如权利要求1所述的基于机器学习的中文邮件签名提取方法,其特征在于,以邮件正文中的行为单位,对每行提取行特征,以每次提取针对的行为目标行。6.如权利要求5所述的基于机器学习的中文邮件签名提取方法,其特征在于,所述行特征包括:目标行的特征、目标行以上的行的特征及目标行以...

【专利技术属性】
技术研发人员:宋东旭罗丁杨浩
申请(专利权)人:北京知道未来信息技术有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1