【技术实现步骤摘要】
一种基于深度学习的邮件落款提取方法
本专利技术公开了一种基于深度学习的邮件落款提取方法,涉及自然语言处理中的信息抽取
技术介绍
在现有技术中,想通过电子邮件获取发件人的信息,只能通过邮件文件中结构化的头部信息,获取发件人的昵称和邮箱,但这样无法获取发件人的其他信息。而在通常商业邮件的正文落款里面,会包含发件人的姓名、电话、手机、公司、地址等具体信息。现有技术只能提取发件人的昵称,无法提取其他包含在正文中的发件人姓名、电话、手机、公司、地址等信息,造成了针对电子邮件信息抽取的不完备,使得电子邮件中的信息抽取内容不足,无法有效的提高后续信息甄别或摘选能力。
技术实现思路
本专利技术所要解决的技术问题是:针对现有技术的缺陷,提供一种基于深度学习的邮件落款提取方法。本专利技术为解决上述技术问题采用以下技术方案:一种基于深度学习的邮件落款提取方法,所述方法包括如下步骤:步骤一、收集电子邮件样本,提取所收集电子邮件的正文,对正文进行标记,标签为是否有邮件落款;步骤二、 ...
【技术保护点】
1.一种基于深度学习的邮件落款提取方法,其特征在于,所述方法包括如下步骤:/n步骤一、收集电子邮件样本,提取所收集电子邮件的正文,对正文进行标记,标签为是否有邮件落款;/n步骤二、使用机器学习的方法,训练一个文本分类模型,利用所述文本分类模型判断电子邮件中是否含有落款;/n步骤三、经过步骤一和步骤二筛选出含有落款的邮件正文,使用深度学习的方法,进行序列标注,并训练命名实体识别模型,提取其中的姓名、公司和地址信息;/n步骤四、使用模式识别的方法,先提取邮件正文中结构化的手机、电话的模式,然后使用模式识别提取其中的手机、电话信息;/n步骤五、对经过步骤四提取的信息进行校验,得到最终的落款。/n
【技术特征摘要】
1.一种基于深度学习的邮件落款提取方法,其特征在于,所述方法包括如下步骤:
步骤一、收集电子邮件样本,提取所收集电子邮件的正文,对正文进行标记,标签为是否有邮件落款;
步骤二、使用机器学习的方法,训练一个文本分类模型,利用所述文本分类模型判断电子邮件中是否含有落款;
步骤三、经过步骤一和步骤二筛选出含有落款的邮件正文,使用深度学习的方法,进行序列标注,并训练命名实体识别模型,提取其中的姓名、公司和地址信息;
步骤四、使用模式识别的方法,先提取邮件正文中结构化的手机、电话的模式,然后使用模式识别提取其中的手机、电话信息;
步骤五、对经过步骤四提取的信息进行校验,得到最终的落款。
2.如权利要求1所述的一种基于深度学习的邮件落款提取方法,其特征在于:所述步骤一中,使用TFIDF方法进行特征抽取,使用SVM算法训练一个文本分类模型,记为落款分类模型。
3.如权利要求1所述的一种基于深度学习的邮件落款提取方法,其特征在于:所述步骤二中,抽取电子邮件正文中的...
【专利技术属性】
技术研发人员:李曙光,宋万军,倪良胜,李峰,陈白雪,高永伟,姜广栋,杨万刚,郭晓杰,王黎黎,
申请(专利权)人:南京烽火星空通信发展有限公司,
类型:发明
国别省市:江苏;32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。