【技术实现步骤摘要】
邮件内容提取方法、装置、电子设备及存储介质
本专利技术涉及人工智能中的文本内容提取
,具体涉及一种邮件内容提取方法、装置、电子设备及存储介质。
技术介绍
现有技术中,邮件内容提取大多使用基于正则表达式的内容提取方法,这种方法通常需要很大的工作量且适用的场景有限。
技术实现思路
鉴于以上内容,有必要提出一种邮件内容提取方法、装置、电子设备及存储介质以实现对邮件中的信息的快速提取。本申请的第一方面提供一种邮件内容提取方法,所述方法包括:获取第一邮件数据集,标注所述第一邮件数据集中的每一邮件得到第一训练数据集;使用所述第一训练数据集训练BERT模型,得到第一模型;获取第二邮件数据集,标注所述第二邮件数据集中的每一邮件得到第二训练数据集;使用所述第二训练数据集训练BERT-LSTM-CRF模型,得到第二模型;接收邮件段落和问题;加载所述第一模型和所述第二模型,将所述邮件段落和所述问题输入所述第一模型或所述第二模型得到与所述邮件段落和所述问题对应的提取结果,并输
【技术保护点】
1.一种邮件内容提取方法,其特征在于,所述方法包括:/n获取第一邮件数据集,标注所述第一邮件数据集中的每一邮件得到第一训练数据集;/n使用所述第一训练数据集训练BERT模型,得到第一模型;/n获取第二邮件数据集,标注所述第二邮件数据集中的每一邮件得到第二训练数据集;/n使用所述第二训练数据集训练BERT-LSTM-CRF模型,得到第二模型;/n接收邮件段落和问题;/n加载所述第一模型和所述第二模型,将所述邮件段落和所述问题输入所述第一模型或所述第二模型得到与所述邮件段落和所述问题对应的提取结果,并输出所述提取结果。/n
【技术特征摘要】
1.一种邮件内容提取方法,其特征在于,所述方法包括:
获取第一邮件数据集,标注所述第一邮件数据集中的每一邮件得到第一训练数据集;
使用所述第一训练数据集训练BERT模型,得到第一模型;
获取第二邮件数据集,标注所述第二邮件数据集中的每一邮件得到第二训练数据集;
使用所述第二训练数据集训练BERT-LSTM-CRF模型,得到第二模型;
接收邮件段落和问题;
加载所述第一模型和所述第二模型,将所述邮件段落和所述问题输入所述第一模型或所述第二模型得到与所述邮件段落和所述问题对应的提取结果,并输出所述提取结果。
2.如权利要求1所述的邮件内容提取方法,其特征在于,所述标注所述第一邮件数据集中的每一邮件包括:
将所述第一邮件数据集中的每一邮件的邮件内容标注为第一标记,将预设的问题标注为第二标记,将所述邮件内容中与所述预设问题对应的答案标注为第三标记。
3.如权利要求2所述的邮件内容提取方法,其特征在于,所述使用所述第一训练数据集训练BERT模型,得到第一模型包括:
将所述第一训练数据集中所述第一标记对应的数据和所述第二标记对应的数据作为所述BERT模型的输入,将所述第一训练数据集中的所述第三标记对应的答案作为所述BERT模型的输出,优化所述BERT模型,得到所述第一模型。
4.如权利要求1所述的邮件内容提取方法,其特征在于,标注所述第二邮件数据集中的每一邮件包括:
使用BIO标注方法标注所述第二邮件数据集中的每一邮件中的每一字符,得到标记序列,所述每一邮件与对应的标记序列组成所述第二训练数据集。
5.如权利要求4所述的邮件内容提取方法,其特征在于,所述使用BERT-LSTM-CRF模型训练所述第二训练数据集,得到第二模型包括:
将所述第二训练数据集中的邮件文本内容作为所述BERT-LSTM-CRF模型的输入数据,将所述第二训练数据集中的所述标记序列作为所述BERT-LSTM-CRF模型的期望输出,优化所述BERT-LSTM-CRF模型,得到第二...
【专利技术属性】
技术研发人员:徐国诚,
申请(专利权)人:深圳壹账通智能科技有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。