邮件签名信息提取方法、装置、电子设备及介质制造方法及图纸

技术编号：25441801 阅读：35 留言：0更新日期：2020-08-28 22:29

本发明专利技术涉及人工智能，提供一种邮件签名信息提取方法、装置、电子设备及介质。该方法能够提取待提取邮件，对待提取邮件进行分行处理，得到行文本，将每个行文本依次输入至预先训练的二分类模型中，得到行文本对应的类别，类别包括非签名档类别，按照每个行文本在待提取邮件中的位置从前至后的顺序对行文本及行文本对应的类别进行排序，得到目标队列，按照每个行文本在待提取邮件中的位置从后至前的顺序遍历目标队列，依次计算类别为非签名档类别的行文本的数量，当数量大于预设阈值时，停止遍历，将在目标队列中遍历到的行文本确定为签名档区域，提取签名档区域中的签名信息，能够实现在没有人为操作的情况下，快速、准确提取邮件中的签名信息。

全部详细技术资料下载

【技术实现步骤摘要】
邮件签名信息提取方法、装置、电子设备及介质
本专利技术涉及人工智能
，尤其涉及一种邮件签名信息提取方法、装置、电子设备及介质。
技术介绍
与个人邮件不同，商务邮件通常都会带有签名档，商务邮件中的签名档往往包含公司信息和联系人信息，这些信息有助于用户为合作伙伴进行建档，以达到有效管理合作伙伴的联系信息。然而，传统的方式是通过人工收集进行邮件签名信息提取，不仅耗费大量人力，还存在人为因素造成的提取误差。
技术实现思路
鉴于以上内容，有必要提供一种邮件签名信息提取方法、装置、电子设备及介质，能够实现在没有人为操作的情况下，快速、准确提取邮件中的签名信息。一种邮件签名信息提取方法，所述邮件签名信息提取方法包括：当接收到签名信息提取请求时，从所述签名信息提取请求中提取待提取邮件；对所述待提取邮件进行分行处理，得到多个行文本；将每个行文本依次输入至预先训练的二分类模型中，得到每个行文本对应的类别，所述类别包括非签名档类别；按照每个行文本在所述待提取邮件中的位置从前至后的顺序对所述多个行文本及所述多个行文本对应的类别进行排序，得到目标队列；按照每个行文本在所述待提取邮件中的位置从后至前的顺序遍历所述目标队列，并依次计算类别为所述非签名档类别的行文本的数量，当所述数量大于预设阈值时，停止遍历；将在所述目标队列中遍历到的行文本确定为签名档区域；提取所述签名档区域中的签名信息。根据本专利技术优选实施例，所述从所述签名信息提取请求中提...

【技术保护点】
1.一种邮件签名信息提取方法，其特征在于，所述邮件签名信息提取方法包括：/n当接收到签名信息提取请求时，从所述签名信息提取请求中提取待提取邮件；/n对所述待提取邮件进行分行处理，得到多个行文本；/n将每个行文本依次输入至预先训练的二分类模型中，得到每个行文本对应的类别，所述类别包括非签名档类别；/n按照每个行文本在所述待提取邮件中的位置从前至后的顺序对所述多个行文本及所述多个行文本对应的类别进行排序，得到目标队列；/n按照每个行文本在所述待提取邮件中的位置从后至前的顺序遍历所述目标队列，并依次计算类别为所述非签名档类别的行文本的数量，当所述数量大于预设阈值时，停止遍历；/n将在所述目标队列中遍历到的行文本确定为签名档区域；/n提取所述签名档区域中的签名信息。/n

【技术特征摘要】
1.一种邮件签名信息提取方法，其特征在于，所述邮件签名信息提取方法包括：
当接收到签名信息提取请求时，从所述签名信息提取请求中提取待提取邮件；
对所述待提取邮件进行分行处理，得到多个行文本；
将每个行文本依次输入至预先训练的二分类模型中，得到每个行文本对应的类别，所述类别包括非签名档类别；
按照每个行文本在所述待提取邮件中的位置从前至后的顺序对所述多个行文本及所述多个行文本对应的类别进行排序，得到目标队列；
按照每个行文本在所述待提取邮件中的位置从后至前的顺序遍历所述目标队列，并依次计算类别为所述非签名档类别的行文本的数量，当所述数量大于预设阈值时，停止遍历；
将在所述目标队列中遍历到的行文本确定为签名档区域；
提取所述签名档区域中的签名信息。

2.如权利要求1所述的邮件签名信息提取方法，其特征在于，所述从所述签名信息提取请求中提取待提取邮件包括：
解析所述签名信息提取请求中的方法体，得到所述签名信息提取请求所携带的所有信息；
获取预设标签；
从所述所有信息中获取与所述预设标签对应的信息，作为所述待提取邮件。

3.如权利要求1所述的邮件签名信息提取方法，其特征在于，所述对所述待提取邮件进行分行处理，得到多个行文本包括：
获取预设DIV标签；
根据所述预设DIV标签对所述待提取邮件进行分块处理，得到多个段文本；
获取预设换行符；
根据所述预设换行符对每个段文本进行分行处理，得到所述多个行文本。

4.如权利要求1所述的邮件签名信息提取方法，其特征在于，在将每个行文本依次输入至预先训练的二分类模型中之前，所述邮件签名信息提取方法还包括：
获取预训练数据集，所述预训练数据集中包括多个数据行，所述多个数据行包括签名档数据行及正文数据行；
对所述签名档数据行及所述正文数据行进行乱序处理，得到目标训练数据集；
采用交叉验证法划分所述目标训练数据集，得到第一集合及第二集合；
训练所述第一集合中的数据，得到学习器；
根据所述第二集合中的数据调整所述学习器中的参数，得到所述二分类模型。

5.如权利要求所述4的邮件签名信息提取方法，其特征在于，所述训练所述第一集合中的数据，得到学习器包括：
对所述第一集合中的每个数据行进行编码处理，得到编码向量；
将所述编码向量输入至正向长短期记忆网络层中，得到第一向量，并将所述编码向量输入至反向长短期记忆网络层...

【专利技术属性】
技术研发人员：车进，
申请(专利权)人：深圳市小满科技有限公司，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人