一种基于内容识别的智能邮件模板方法技术

技术编号:37970398 阅读:15 留言:0更新日期:2023-06-30 09:45
本发明专利技术公开了一种基于内容识别的智能邮件模板方法,涉及计算机应用技术领域。本发明专利技术包括如下步骤:采集Web页的HTML邮件的基础结构提取网页的文本内容,标注训练结果和特征训练结果建立对应的邮件特征模型;创建待输出邮件模板文件,以生成预设邮件模板文件;识别用户文本内容,输入邮件特征模型;邮件特征模型输出邮件模板文件;对邮件模板文件进行程序格式转换,以生成目标邮件模板。本发明专利技术通过采集Web页的HTML邮件训练邮件特征模型,创建待输出邮件模板文件,以生成预设邮件模板文件,识别用户文本内容后输入邮件特征模型生成目标邮件模板,提高邮件的生成效率和准确率。提高邮件的生成效率和准确率。提高邮件的生成效率和准确率。

【技术实现步骤摘要】
一种基于内容识别的智能邮件模板方法


[0001]本专利技术属于计算机应用
,特别是涉及一种基于内容识别的智能邮件模板方法。

技术介绍

[0002]随着计算机应用业务场景多元化和精细化的发展,各个场景需要对大量的业务指标进行监控,对监控的关键指标以系统的方式解读并汇总,最后以邮件的方式将数据分析日报推送到邮件终端。
[0003]目前针对个性化邮件的发送,例如一个邮件中要包含图片、表格、标题等元素,且根据邮件呈现的需要,需调节图片的大小、亮度,表格的属性、边框和底纹的粗细、颜色,以及标题的字体、字号、字体颜色、行间距等,那么开发者需要开发不同的JAVA代码,最后将不同JAVA代码有序的拼接在一起,形成最终需要的邮件,以满足用户业务的需要,即传统邮件发送是依赖于Jmail拼接HTML邮件代码的方式来实现的。
[0004]由于Jmail拼接HTML邮件代码时,需开发不同的JAVA代码,导致代码冗余度高,代码非模块化难以管理,且当需要新增不同展示方式的邮件时,需要重新编写整套HTML代码,造成邮件的生成效率低下。

技术实现思路

[0005]本专利技术的目的在于提供一种基于内容识别的智能邮件模板方法,通过采集Web页的HTML邮件训练邮件特征模型,创建待输出邮件模板文件,以生成预设邮件模板文件,识别用户文本内容后输入邮件特征模型生成目标邮件模板,解决了现有的邮件的生成效率低、邮件生成不准确的问题。
[0006]为解决上述技术问题,本专利技术是通过以下技术方案实现的:
[0007]本专利技术为一种基于内容识别的智能邮件模板方法,包括如下步骤:
[0008]步骤S1:采集Web页的HTML邮件的基础结构提取网页的文本内容;
[0009]步骤S2:对提取的邮件信息进行预处理;
[0010]步骤S3:将处理后的邮件信息通过深度学习算法进行标注训练识别;
[0011]步骤S4:深度学习算法进行标注训练和特征训练,得到标注训练结果和特征训练结果;
[0012]步骤S5:根据标注训练结果和特征训练结果建立对应的邮件特征模型;
[0013]步骤S6:创建待输出邮件模板文件,以生成预设邮件模板文件;
[0014]步骤S7:识别用户文本内容,输入邮件特征模型;
[0015]步骤S8:邮件特征模型输出邮件模板文件;
[0016]步骤S9:对邮件模板文件进行程序格式转换,以生成目标邮件模板。
[0017]作为一种优选的技术方案,所述步骤S2中,对邮件信息进行预处理包括如下步骤:
[0018]步骤S21:对邮件信息进行收集和训练;
[0019]步骤S22:对邮件文本进行离散化处理和邮件元素库建立;
[0020]步骤S23:文本特征抽取和文本向量化表示;
[0021]步骤S24:对文本相对应的字词、元素进行加权表示,并将文本以向量形式表示。
[0022]作为一种优选的技术方案,所述步骤S21中,对邮件信息进行收集和训练时,需要对邮件信息进行清洗;清理时采用统计值χ2的大小来进行筛选,具体表达式如下:
[0023][0024]式中,t为特征项,c为文本的类别,N为训练集中的文本总数,A表示包含特征项t的文本在类别c中出现的频数,B表示包含特征项t且不属于类别c的文本出现频数,C表示不包含特征项t的文本在类别c中出现的频数,D表示不包含特征项t且不属于类别c的文本出现频数。
[0025]作为一种优选的技术方案,所述步骤S22中,邮件元素包括图、表和标题中的一种或多种;所述邮件元素为图时,则属性参数包括图的像素、分辨率、大小、颜色、色调、饱和度、亮度和灰度值;所述邮件元素为表示,则属性参数包括表的边距、边框、底纹及边框和底纹的颜色和线条粗细;所述邮件元素为标题时,则属性参数包括标题字体、字号、行间距和字体颜色。
[0026]作为一种优选的技术方案,所述步骤S23中,文本特征抽取和文本向量化采用TF

IDF方法;所述TF

IDF的权重函数表示为:
[0027]w
ij
=t
i
f
j
·
id
i
f
j

[0028]对上式进行向量化表示为:
[0029]w
ij
=t
i
f
j
×
log(N/n
i
);
[0030]式中,tf表示特征词词频,idf表示存在该特征词文本的数据,N表示训练集中的文本数量,n
i
表示出现特征项t的文本总数。
[0031]作为一种优选的技术方案,所述步骤S6中,邮件特征模型在预设的信息推荐库中进行对应匹配,确定在信息推荐库中与信息元素库中对应的元素信息,并将推荐信息发送到预设的邮件模板文件。
[0032]作为一种优选的技术方案,所述步骤S9中,在邮件生成过程中处理用户输入的元素数据以生成元素展示信息。
[0033]本专利技术具有以下有益效果:
[0034]本专利技术通过采集Web页的HTML邮件训练邮件特征模型,创建待输出邮件模板文件,以生成预设邮件模板文件,识别用户文本内容后输入邮件特征模型生成目标邮件模板,提高邮件的生成效率和准确率。
[0035]当然,实施本专利技术的任一产品并不一定需要同时达到以上所述的所有优点。
附图说明
[0036]为了更清楚地说明本专利技术实施例的技术方案,下面将对实施例描述所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0037]图1为本专利技术的一种基于内容识别的智能邮件模板方法流程图。
具体实施方式
[0038]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本专利技术保护的范围。
[0039]请参阅图1所示,本专利技术为一种基于内容识别的智能邮件模板方法,包括如下步骤:
[0040]步骤S1:采集Web页的HTML邮件的基础结构提取网页的文本内容;
[0041]步骤S2:对提取的邮件信息进行预处理;
[0042]步骤S3:将处理后的邮件信息通过深度学习算法进行标注训练识别;
[0043]步骤S4:深度学习算法进行标注训练和特征训练,得到标注训练结果和特征训练结果;
[0044]步骤S5:根据标注训练结果和特征训练结果建立对应的邮件特征模型;
[0045]步骤S6:创建待输出邮件模板文件,以生成预设邮件模板文件;邮件特征模型在预设的信息推荐库中进行对应匹配,确定在信息推荐库本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于内容识别的智能邮件模板方法,其特征在于,包括如下步骤:步骤S1:采集Web页的HTML邮件的基础结构提取网页的文本内容;步骤S2:对提取的邮件信息进行预处理;步骤S3:将处理后的邮件信息通过深度学习算法进行标注训练识别;步骤S4:深度学习算法进行标注训练和特征训练,得到标注训练结果和特征训练结果;步骤S5:根据标注训练结果和特征训练结果建立对应的邮件特征模型;步骤S6:创建待输出邮件模板文件,以生成预设邮件模板文件;步骤S7:识别用户文本内容,输入邮件特征模型;步骤S8:邮件特征模型输出邮件模板文件;步骤S9:对邮件模板文件进行程序格式转换,以生成目标邮件模板。2.根据权利要求1所述的一种基于内容识别的智能邮件模板方法,其特征在于,所述步骤S2中,对邮件信息进行预处理包括如下步骤:步骤S21:对邮件信息进行收集和训练;步骤S22:对邮件文本进行离散化处理和邮件元素库建立;步骤S23:文本特征抽取和文本向量化表示;步骤S24:对文本相对应的字词、元素进行加权表示,并将文本以向量形式表示。3.根据权利要求2所述的一种基于内容识别的智能邮件模板方法,其特征在于,所述步骤S21中,对邮件信息进行收集和训练时,需要对邮件信息进行清洗;清理时采用统计值χ2的大小来进行筛选,具体表达式如下:式中,t为特征项,c为文本的类别,N为训练集中的文本总数,A表示包含特征项t的文本在类别c中出现的频数,B表示包含特征项t且不属于类别c的文本出现频数,C表示不包含特征项t的文本在类别c中出现的频数,D表示不包含特征项t且不属于类别c的文本出现频数。4.根据权利要求2所述的一种基于内容识别的智能邮件模板方法,其特征在于,所述步...

【专利技术属性】
技术研发人员:严峻孟祥磊侯颖张威
申请(专利权)人:武汉佰思特信息科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1