一种邮件处理方法、装置及存储介质制造方法及图纸

技术编号:31023295 阅读:18 留言:0更新日期:2021-11-30 03:18
本申请涉及人工智能技术领域,本申请公开一种邮件处理方法、装置及存储介质,该方法包括:获取用户电子邮箱中的已处理邮件、已处理邮件的目标变量对应的邮件数据和关键特征变量对应的邮件数据;基于已处理邮件的目标变量对应的邮件数据和关键特征变量对应的邮件数据,对待训练的XGBoost模型进行训练,获得训练完成的XGBoost模型;获取用户电子邮箱中的待处理邮件及待处理邮件的关键特征变量对应的邮件数据;将待处理邮件的关键特征变量对应的邮件数据输入训练完成的XGBoost模型,获得待处理邮件的目标变量的预测值;基于待处理邮件的目标变量的预测值,确定待处理邮件的重要性级别。采用本申请可以提高邮件分类的智能性。级别。采用本申请可以提高邮件分类的智能性。级别。采用本申请可以提高邮件分类的智能性。

【技术实现步骤摘要】
一种邮件处理方法、装置及存储介质


[0001]本申请涉及人工智能
,尤其涉及一种邮件处理方法、装置及存储介质。

技术介绍

[0002]工作中经常收到大量邮件,如果不对邮件分类,处理邮件时容易产生问题,例如未及时处理或者遗漏了重要邮件导致投诉等,因此对邮件进行合理分类非常重要。目前邮件分类包括人工分类或者智能分类,人工分类可以通过手动给邮件加分类标签、自定义收件夹规则等手段实现,但这些手段耗时长,处理不够及时;而智能分类主要指垃圾邮件分类,难以实现对正常邮件的分类处理。因而,如何提高邮件分类的智能性值得研究。

技术实现思路

[0003]本申请实施例提供一种邮件处理方法、装置及存储介质,通过获取已处理邮件的邮件数据来进行模型训练,获得训练完成的XGBoost模型,并利用该模型来预测待处理邮件的目标变量的值,进而确定待处理邮件的重要性级别,可以提高邮件分类的智能性。
[0004]第一方面,本申请实施例提供一种邮件处理方法,包括:
[0005]获取用户电子邮箱中的已处理邮件,所述已处理邮件为已收到且已回复的邮件;
[0006]获取所述已处理邮件的目标变量对应的邮件数据和关键特征变量对应的邮件数据,所述目标变量对应的邮件数据与所述已处理邮件的处理重要性相关,所述关键特征变量用于表示影响所述已处理邮件的处理重要性的邮件属性;
[0007]基于所述已处理邮件的目标变量对应的邮件数据和所述关键特征变量对应的邮件数据,对待训练的XGBoost模型进行训练,获得训练完成的XGBoost模型;
[0008]获取所述用户电子邮箱中的待处理邮件,以及所述待处理邮件的所述关键特征变量对应的邮件数据,所述待处理邮件为已收到且未回复的邮件;
[0009]将所述待处理邮件的所述关键特征变量对应的邮件数据输入所述训练完成的XGBoost模型,获得所述待处理邮件的所述目标变量的预测值;
[0010]基于所述待处理邮件的所述目标变量的预测值,确定所述待处理邮件的重要性级别。
[0011]在一种可能的实现方式中,所述获取用户电子邮箱中的已处理邮件,包括:
[0012]获取用户电子邮箱中的已收到邮件和已发送邮件,并获取所述已收到邮件和所述已发送邮件的属性数据;
[0013]在确定已收到的第一邮件和已发送的第二邮件的属性数据满足对应条件的情况下,将所述第一邮件确定为所述已处理邮件,并将所述第二邮件确定为所述已处理邮件对应的邮件;所述第一邮件是所述已收到邮件中的任一封邮件,所述第二邮件是所述已发送邮件中的任一封邮件,所述对应条件包括:所述第二邮件的收件人包括所述第一邮件的发件人、所述第二邮件的发送时间大于所述第一邮件的接收时间、所述第二邮件与所述第一邮件的主题的相似度大于第一阈值、所述第二邮件与所述第一邮件的正文的相似度大于第
二阈值。
[0014]在一种可能的实现方式中,所述获取所述已处理邮件的目标变量对应的邮件数据和关键特征变量对应的邮件数据,包括:
[0015]将所述已处理邮件对应的邮件的发送时间与所述已处理邮件的接收时间的时间差,确定为所述已处理邮件的目标变量对应的邮件数据;
[0016]获取所述已处理邮件的至少两个基础特征变量中每个基础特征变量分别对应的邮件数据,所述基础特征变量用于表示所述已处理邮件的邮件属性;
[0017]基于所述已处理邮件的至少两个基础特征变量中每个基础特征变量分别对应的邮件数据,对所述至少两个基础特征变量进行筛选处理,获得所述关键特征变量,并获得所述已处理邮件的关键特征变量对应的邮件数据。
[0018]在一种可能的实现方式中,所述至少两个基础特征变量包括正文特征变量,所述获取所述已处理邮件的至少两个基础特征变量中每个基础特征变量分别对应的邮件数据,包括:
[0019]对所述已处理邮件的正文进行分词处理,获得所述正文包含的关键词;
[0020]将所述正文包含的关键词与预设关键词进行匹配,获得匹配结果,并将所述匹配结果作为所述正文特征变量对应的邮件数据,所述预设关键词包括以下类型中的至少一种:用于表示紧急程度的预设关键词、用于表示时间的预设关键词、用于表示动作的预设关键词、用于表示惩罚意义的预设关键词,所述匹配结果包括所述正文包含的关键词与所述预设关键词是否匹配成功,和/或所述正文包含的关键词与所述预设关键词匹配成功的数量。
[0021]在一种可能的实现方式中,所述基于所述已处理邮件的至少两个基础特征变量中每个基础特征变量分别对应的邮件数据,对所述至少两个基础特征变量进行筛选处理,获得所述关键特征变量,包括:
[0022]对所述至少两个基础特征变量中每个基础特征变量分别对应的邮件数据进行证明力权重WOE编码,并基于所述WOE编码的结果计算所述至少两个基础特征变量中每个基础特征变量的信息价值IV值;
[0023]将IV值大于第三阈值的基础特征变量或IV值最大的前N个基础特征变量,确定为所述关键特征变量。
[0024]在一种可能的实现方式中,所述基于所述已处理邮件的目标变量对应的邮件数据和所述关键特征变量对应的邮件数据,对待训练的XGBoost模型进行训练,获得训练完成的XGBoost模型,包括:
[0025]将所述已处理邮件的目标变量对应的邮件数据和所述关键特征变量对应的邮件数据进行数值化处理,获得总样本数据;
[0026]将所述总样本数据分为k

1个训练集和1个测试集,并在所述k

1个训练集上对所述待训练的XGBoost模型进行训练,获得训练后的XGBoost模型,所述k为大于1的整数;
[0027]在所述1个测试集上对所述训练后的XGBoost模型进行测试,并基于测试结果计算模型评价指标;
[0028]若所述模型评价指标不满足预设条件,重新划分k

1个训练集和1个测试集,并将所述训练后的XGBoost模型作为所述待训练的XGBoost模型,进行模型训练;
[0029]若所述模型评价指标满足预设条件,获得所述训练完成的XGBoost模型。
[0030]在一种可能的实现方式中,所述确定所述待处理邮件的重要性级别之后,所述方法还包括:
[0031]基于预设的重要性级别与标记的映射关系,对所述待处理邮件进行标记;
[0032]获取所述待处理邮件的接收时间,基于所述接收时间和所述重要性级别,确定所述待处理邮件的排列顺序,按照所述排列顺序对所述待处理邮件进行排序。
[0033]第二方面,本申请实施例提供一种邮件处理装置,包括:
[0034]第一获取模块,用于获取用户电子邮箱中的已处理邮件,所述已处理邮件为已收到且已回复的邮件;
[0035]第二获取模块,用于获取所述已处理邮件的目标变量对应的邮件数据和关键特征变量对应的邮件数据,所述目标变量对应的邮件数据与所述已处理邮件的处理重要性相关,所述关键特征变量用于表示影响所述已处理邮件的处理重本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种邮件处理方法,其特征在于,包括:获取用户电子邮箱中的已处理邮件,所述已处理邮件为已收到且已回复的邮件;获取所述已处理邮件的目标变量对应的邮件数据和关键特征变量对应的邮件数据,所述目标变量对应的邮件数据与所述已处理邮件的处理重要性相关,所述关键特征变量用于表示影响所述已处理邮件的处理重要性的邮件属性;基于所述已处理邮件的目标变量对应的邮件数据和所述关键特征变量对应的邮件数据,对待训练的XGBoost模型进行训练,获得训练完成的XGBoost模型;获取所述用户电子邮箱中的待处理邮件,以及所述待处理邮件的所述关键特征变量对应的邮件数据,所述待处理邮件为已收到且未回复的邮件;将所述待处理邮件的所述关键特征变量对应的邮件数据输入所述训练完成的XGBoost模型,获得所述待处理邮件的所述目标变量的预测值;基于所述待处理邮件的所述目标变量的预测值,确定所述待处理邮件的重要性级别。2.如权利要求1所述的方法,其特征在于,所述获取用户电子邮箱中的已处理邮件,包括:获取用户电子邮箱中的已收到邮件和已发送邮件,并获取所述已收到邮件和所述已发送邮件的属性数据;在确定已收到的第一邮件和已发送的第二邮件的属性数据满足对应条件的情况下,将所述第一邮件确定为所述已处理邮件,并将所述第二邮件确定为所述已处理邮件对应的邮件;所述第一邮件是所述已收到邮件中的任一封邮件,所述第二邮件是所述已发送邮件中的任一封邮件,所述对应条件包括:所述第二邮件的收件人包括所述第一邮件的发件人、所述第二邮件的发送时间大于所述第一邮件的接收时间、所述第二邮件与所述第一邮件的主题的相似度大于第一阈值、所述第二邮件与所述第一邮件的正文的相似度大于第二阈值。3.如权利要求2所述的方法,其特征在于,所述获取所述已处理邮件的目标变量对应的邮件数据和关键特征变量对应的邮件数据,包括:将所述已处理邮件对应的邮件的发送时间与所述已处理邮件的接收时间的时间差,确定为所述已处理邮件的目标变量对应的邮件数据;获取所述已处理邮件的至少两个基础特征变量中每个基础特征变量分别对应的邮件数据,所述基础特征变量用于表示所述已处理邮件的邮件属性;基于所述已处理邮件的至少两个基础特征变量中每个基础特征变量分别对应的邮件数据,对所述至少两个基础特征变量进行筛选处理,获得所述关键特征变量,并获得所述已处理邮件的关键特征变量对应的邮件数据。4.如权利要求3所述的方法,其特征在于,所述至少两个基础特征变量包括正文特征变量,所述获取所述已处理邮件的至少两个基础特征变量中每个基础特征变量分别对应的邮件数据,包括:对所述已处理邮件的正文进行分词处理,获得所述正文包含的关键词;将所述正文包含的关键词与预设关键词进行匹配,获得匹配结果,并将所述匹配结果作为所述正文特征变量对应的邮件数据,所述预设关键词包括以下类型中的至少一种:用于表示紧急程度的预设关键词、用于表示时间的预设关键词、用于表示动作的预设关键词、用于表示惩罚意义的预设关键词;所述匹配结果包括所述正文包含的关键词与所述预设关
键词是否匹配成功,和/或所述正文包含的关键词与所述预设关键词匹配成功的数量。5.如权利要求3或4所述的方法,其特征在于,所述基于所述已处理邮件的至少两个基础特征变量中每个基础特征变量分别对应的邮件数据,对所述至少两个基础特征变量进行筛选处理,获得所述关键特征变量,包括:对所述至少两个基础特征变量中...

【专利技术属性】
技术研发人员:陈文捷曾利强
申请(专利权)人:平安银行股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1