邮件签名信息提取方法、装置、电子设备及介质制造方法及图纸

技术编号:25441801 阅读:35 留言:0更新日期:2020-08-28 22:29
本发明专利技术涉及人工智能,提供一种邮件签名信息提取方法、装置、电子设备及介质。该方法能够提取待提取邮件,对待提取邮件进行分行处理,得到行文本,将每个行文本依次输入至预先训练的二分类模型中,得到行文本对应的类别,类别包括非签名档类别,按照每个行文本在待提取邮件中的位置从前至后的顺序对行文本及行文本对应的类别进行排序,得到目标队列,按照每个行文本在待提取邮件中的位置从后至前的顺序遍历目标队列,依次计算类别为非签名档类别的行文本的数量,当数量大于预设阈值时,停止遍历,将在目标队列中遍历到的行文本确定为签名档区域,提取签名档区域中的签名信息,能够实现在没有人为操作的情况下,快速、准确提取邮件中的签名信息。

【技术实现步骤摘要】
邮件签名信息提取方法、装置、电子设备及介质
本专利技术涉及人工智能
,尤其涉及一种邮件签名信息提取方法、装置、电子设备及介质。
技术介绍
与个人邮件不同,商务邮件通常都会带有签名档,商务邮件中的签名档往往包含公司信息和联系人信息,这些信息有助于用户为合作伙伴进行建档,以达到有效管理合作伙伴的联系信息。然而,传统的方式是通过人工收集进行邮件签名信息提取,不仅耗费大量人力,还存在人为因素造成的提取误差。
技术实现思路
鉴于以上内容,有必要提供一种邮件签名信息提取方法、装置、电子设备及介质,能够实现在没有人为操作的情况下,快速、准确提取邮件中的签名信息。一种邮件签名信息提取方法,所述邮件签名信息提取方法包括:当接收到签名信息提取请求时,从所述签名信息提取请求中提取待提取邮件;对所述待提取邮件进行分行处理,得到多个行文本;将每个行文本依次输入至预先训练的二分类模型中,得到每个行文本对应的类别,所述类别包括非签名档类别;按照每个行文本在所述待提取邮件中的位置从前至后的顺序对所述多个行文本及所述多个行文本对应的类别进行排序,得到目标队列;按照每个行文本在所述待提取邮件中的位置从后至前的顺序遍历所述目标队列,并依次计算类别为所述非签名档类别的行文本的数量,当所述数量大于预设阈值时,停止遍历;将在所述目标队列中遍历到的行文本确定为签名档区域;提取所述签名档区域中的签名信息。根据本专利技术优选实施例,所述从所述签名信息提取请求中提取待提取邮件包括:解析所述签名信息提取请求中的方法体,得到所述签名信息提取请求所携带的所有信息;获取预设标签;从所述所有信息中获取与所述预设标签对应的信息,作为所述待提取邮件。根据本专利技术优选实施例,所述对所述待提取邮件进行分行处理,得到多个行文本包括:获取预设DIV标签;根据所述预设DIV标签对所述待提取邮件进行分块处理,得到多个段文本;获取预设换行符;根据所述预设换行符对每个段文本进行分行处理,得到所述多个行文本。根据本专利技术优选实施例,在将每个行文本依次输入至预先训练的二分类模型中之前,所述邮件签名信息提取方法还包括:获取预训练数据集,所述预训练数据集中包括多个数据行,所述多个数据行包括签名档数据行及正文数据行;对所述签名档数据行及所述正文数据行进行乱序处理,得到目标训练数据集;采用交叉验证法划分所述目标训练数据集,得到第一集合及第二集合;训练所述第一集合中的数据,得到学习器;根据所述第二集合中的数据调整所述学习器中的参数,得到所述二分类模型。根据本专利技术优选实施例,所述训练所述第一集合中的数据,得到学习器包括:对所述第一集合中的每个数据行进行编码处理,得到编码向量;将所述编码向量输入至正向长短期记忆网络层中,得到第一向量,并将所述编码向量输入至反向长短期记忆网络层中,得到第二向量;拼接所述第一向量及所述第二向量,得到输入向量;结合池化运算、卷积运算以及线性变换运算对所述输入向量进行处理,得到特征向量;采用全连接层运算对所述特征向量进行处理,得到所述学习器。根据本专利技术优选实施例,所述提取所述签名档区域中的签名信息方法包括:将所述签名档区域中类别为所述非签名档类别的行文本确定为目标行文本;确定所述目标行文本在所述目标队列中的序号;当检测到所述目标行文本的序号属于连续序号时,将所述目标行文本从所述签名档区域中删除,并将删除后的签名档区域中的行文本确定为所述签名信息。根据本专利技术优选实施例,在提取所述签名档区域中的签名信息后,所述邮件签名信息提取方法还包括:采用对称加密技术加密所述签名信息,得到密文;确定所述签名信息提取请求的请求等级;根据所述请求等级确定发送形式;以所述发送形式发送所述密文。一种邮件签名信息提取装置,所述邮件签名信息提取装置包括:提取单元,用于当接收到签名信息提取请求时,从所述签名信息提取请求中提取待提取邮件;处理单元,用于对所述待提取邮件进行分行处理,得到多个行文本;输入单元,用于将每个行文本依次输入至预先训练的二分类模型中,得到每个行文本对应的类别,所述类别包括非签名档类别;排序单元,用于按照每个行文本在所述待提取邮件中的位置从前至后的顺序对所述多个行文本及所述多个行文本对应的类别进行排序,得到目标队列;遍历单元,用于按照每个行文本在所述待提取邮件中的位置从后至前的顺序遍历所述目标队列,并依次计算类别为所述非签名档类别的行文本的数量,当所述数量大于预设阈值时,停止遍历;确定单元,用于将在所述目标队列中遍历到的行文本确定为签名档区域;所述提取单元,还用于提取所述签名档区域中的签名信息。根据本专利技术优选实施例,所述提取单元从所述签名信息提取请求中提取待提取邮件包括:解析所述签名信息提取请求中的方法体,得到所述签名信息提取请求所携带的所有信息;获取预设标签;从所述所有信息中获取与所述预设标签对应的信息,作为所述待提取邮件。根据本专利技术优选实施例,所述处理单元对所述待提取邮件进行分行处理,得到多个行文本包括:获取预设DIV标签;根据所述预设DIV标签对所述待提取邮件进行分块处理,得到多个段文本;获取预设换行符;根据所述预设换行符对每个段文本进行分行处理,得到所述多个行文本。根据本专利技术优选实施例,所述邮件签名信息提取装置还包括:获取单元,用于在将每个行文本依次输入至预先训练的二分类模型中之前,获取预训练数据集,所述预训练数据集中包括多个数据行,所述多个数据行包括签名档数据行及正文数据行;所述处理单元,还用于对所述签名档数据行及所述正文数据行进行乱序处理,得到目标训练数据集;划分单元,用于采用交叉验证法划分所述目标训练数据集,得到第一集合及第二集合;训练单元,用于训练所述第一集合中的数据,得到学习器;调整单元,用于根据所述第二集合中的数据调整所述学习器中的参数,得到所述二分类模型。根据本专利技术优选实施例,所述训练单元具体用于:对所述第一集合中的每个数据行进行编码处理,得到编码向量;将所述编码向量输入至正向长短期记忆网络层中,得到第一向量,并将所述编码向量输入至反向长短期记忆网络层中,得到第二向量;拼接所述第一向量及所述第二向量,得到输入向量;结合池化运算、卷积运算以及线性变换运算对所述输入向量进行处理,得到特征向量;采用全连接层运算对所述特征向量进行处理,得到所述学习器。根据本专利技术优选实施例,所述提取单元提取所述签名档区域中的签名信息方法包括:将所述签名档区域中类别为所述非签名档类别的行文本确定为目标行文本;确定所述目标行文本在所述目标队列中的序号;当检测到所述本文档来自技高网...

【技术保护点】
1.一种邮件签名信息提取方法,其特征在于,所述邮件签名信息提取方法包括:/n当接收到签名信息提取请求时,从所述签名信息提取请求中提取待提取邮件;/n对所述待提取邮件进行分行处理,得到多个行文本;/n将每个行文本依次输入至预先训练的二分类模型中,得到每个行文本对应的类别,所述类别包括非签名档类别;/n按照每个行文本在所述待提取邮件中的位置从前至后的顺序对所述多个行文本及所述多个行文本对应的类别进行排序,得到目标队列;/n按照每个行文本在所述待提取邮件中的位置从后至前的顺序遍历所述目标队列,并依次计算类别为所述非签名档类别的行文本的数量,当所述数量大于预设阈值时,停止遍历;/n将在所述目标队列中遍历到的行文本确定为签名档区域;/n提取所述签名档区域中的签名信息。/n

【技术特征摘要】
1.一种邮件签名信息提取方法,其特征在于,所述邮件签名信息提取方法包括:
当接收到签名信息提取请求时,从所述签名信息提取请求中提取待提取邮件;
对所述待提取邮件进行分行处理,得到多个行文本;
将每个行文本依次输入至预先训练的二分类模型中,得到每个行文本对应的类别,所述类别包括非签名档类别;
按照每个行文本在所述待提取邮件中的位置从前至后的顺序对所述多个行文本及所述多个行文本对应的类别进行排序,得到目标队列;
按照每个行文本在所述待提取邮件中的位置从后至前的顺序遍历所述目标队列,并依次计算类别为所述非签名档类别的行文本的数量,当所述数量大于预设阈值时,停止遍历;
将在所述目标队列中遍历到的行文本确定为签名档区域;
提取所述签名档区域中的签名信息。


2.如权利要求1所述的邮件签名信息提取方法,其特征在于,所述从所述签名信息提取请求中提取待提取邮件包括:
解析所述签名信息提取请求中的方法体,得到所述签名信息提取请求所携带的所有信息;
获取预设标签;
从所述所有信息中获取与所述预设标签对应的信息,作为所述待提取邮件。


3.如权利要求1所述的邮件签名信息提取方法,其特征在于,所述对所述待提取邮件进行分行处理,得到多个行文本包括:
获取预设DIV标签;
根据所述预设DIV标签对所述待提取邮件进行分块处理,得到多个段文本;
获取预设换行符;
根据所述预设换行符对每个段文本进行分行处理,得到所述多个行文本。


4.如权利要求1所述的邮件签名信息提取方法,其特征在于,在将每个行文本依次输入至预先训练的二分类模型中之前,所述邮件签名信息提取方法还包括:
获取预训练数据集,所述预训练数据集中包括多个数据行,所述多个数据行包括签名档数据行及正文数据行;
对所述签名档数据行及所述正文数据行进行乱序处理,得到目标训练数据集;
采用交叉验证法划分所述目标训练数据集,得到第一集合及第二集合;
训练所述第一集合中的数据,得到学习器;
根据所述第二集合中的数据调整所述学习器中的参数,得到所述二分类模型。


5.如权利要求所述4的邮件签名信息提取方法,其特征在于,所述训练所述第一集合中的数据,得到学习器包括:
对所述第一集合中的每个数据行进行编码处理,得到编码向量;
将所述编码向量输入至正向长短期记忆网络层中,得到第一向量,并将所述编码向量输入至反向长短期记忆网络层...

【专利技术属性】
技术研发人员:车进
申请(专利权)人:深圳市小满科技有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1