基于深度学习的文本数据分类方法技术

技术编号:32789342 阅读:26 留言:0更新日期:2022-03-23 19:50
本发明专利技术公开了基于深度学习的文本数据分类方法,涉及文本分类技术领域,包括如下步骤:S1,获取历史通信文本数据集,并依次对历史通信文本数据集进行数据预处理、特征提取;得到提取后的通信文本数据集;S2,建立文本分类模型,将历史通信文本数据集输入至文本分类模型中进行训练,并对训练完成的文本分类模型进行数据测试,得到测试完成的文本分类模型,其中,文本分类模型采用长短期记忆网络模型;获取通信文本数据,并输入至测试完成的文本分类模型中,完成对通信文本数据的分类。完成对通信文本数据的分类。完成对通信文本数据的分类。

【技术实现步骤摘要】
基于深度学习的文本数据分类方法


[0001]本专利技术涉及文本分类
,具体是基于深度学习的文本数据分类方法。

技术介绍

[0002]随着我国社会政治经济的迅速发展,人民生活水平的不断提高和移动互联网的迅速发展,人民百姓表 达民情民意的意愿的需求也不断增强。为了更好为人民百姓解难,快速有效地了解处理人民百姓实际面对 地困难和问题,吸纳人民百姓提出的具有切实价值的意见,许多城市均设立开通市长公开电话平台,通过 拨打市民政务服务热线,受理处将市民的建议、投诉记录为文本,并根据记录的内容,再将其派发到对应 职能部门的办理处进行限期处理,处理结果再由相应网络部门对提出意见或提起投诉的市民进行反馈.市长 公开电话很好地缓解了市民反映问题难、流程复杂,以及不知道向谁投诉地问题,并且极大地提高了处理 市民问题的效率。
[0003]但随着市长公开电话平台工作的深入展开,人民百姓对其信赖程度不断提高,受理的电话数量也随之 增加。大量的电话受理量加之需要处理的投诉意见等通信文本数据复杂多样,派分的处理部门数量多达上 百个,极大的提高了受理处的人员培训使用成本和处理压力。就目前而言,依赖人工受理的方式已经无法 满足实际工作的需要,文本自动分类技术的加入成为必然.。

技术实现思路

[0004]鉴于上述技术缺点,本专利技术提供了基于深度学习的文本数据分类方法。
[0005]为解决
技术介绍
所提出的问题,本专利技术的技术方案如下:
[0006]基于深度学习的文本数据分类方法,包括如下步骤:
[0007]S1,获取历史通信文本数据集,并依次对历史通信文本数据集进行数据预处理、特征提取;得到提取 后的通信文本数据集,进入步骤S2;
[0008]S2,建立文本分类模型,将历史通信文本数据集输入至文本分类模型中进行训练,并对训练完成的文 本分类模型进行数据测试,得到测试完成的文本分类模型,其中,文本分类模型采用长短期记忆网络模型, 进入步骤S3;
[0009]S3,获取通信文本数据,并输入至测试完成的文本分类模型中,完成对通信文本数据的分类。
[0010]作为优选的,步骤S1中所述的对历史通信文本数据集进行特征提取,其数学表达式如下:
[0011][0012][0013]其中,D表示由训练集文本中所有出现的词汇在排除低频词后组成的集合,d
t
为D中的第t个元 素。表示在空间中第t个单位坐标向量。
[0014]作为优选的,步骤S2中所述的文本分类模型采用Adaboost提升算法,其数学表达式如下:
[0015][0016]其中,ζ
α
表示从样本空间的子集到样本空间子集的映射,即从自变量(集合)中按照时序剔除比例为 α的元素。ψ表示由从样本空间的子集到函数(分类器)集的映射。
[0017]作为优选的,步骤S2中所述的文本分类模型,其计算公式如下:
[0018][0019]i
t+1
=σ(W
i
·
[h
t
,x
t+1
]T
+b
i
)
[0020][0021][0022]o
t+1
=σ(W
o
[h
t
,x
t+1
]T
+b
o
)
[0023]h
t+1
=o
t+1
·
tanh(C
t+1
)
[0024]其中,二维权重向量与b
f
为未知参数,h为输出状态值,C为细胞状态值;二 维权重向量b
i
和b
C
均为未知参数;二维权重向量 与b
o
为参数。
[0025]作为优选的,步骤S2中所述的文本分类模型,其训练过程如下:
[0026]定义分类交叉熵损失函数:
[0027][0028][0029]其中,K为分类的水平数,为n行K列的矩阵,是文本分类模型的估计结果,并采用自适应矩估计 算法(Adam)对搭建好的模型进行优化训练,即最小化上述损失,Adam基于Ptyhon的Keras模块实现。
[0030]本专利技术的有益效果是:本专利技术提出了基于深度学习的文本数据分类方法,本专利技术采用长短期记忆神经 网络的提升算法,不仅克服了
技术介绍
所存在的问题,并且在处理文本分类时能够达到良好的效果。
附图说明
[0031]图1为本专利技术提供的:市长公开电话平台文本数据特征示意图;
[0032]图2为本专利技术提供的:RNN与LSTM重复元结构示意图;
[0033]图3为本专利技术提供的:提升算法示意图;
[0034]图4为本专利技术提供的:Adaboost算法示意图;
[0035]图5为本专利技术提供的:训练用时与准确率散点示意图;
[0036]图6为本专利技术提供的:流程示意图。
具体实施方式
[0037]下面结合本专利技术的附图1

6,对本专利技术实施例中的技术方案进行清楚、完整地描述,本领域技术人员 可由本说明书所揭露的内容轻易地了解本专利技术的其他优点与功效。本专利技术还可以通过另外不同的具体实施 方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本专利技术的精神下进 行各种修饰或改变。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的 所有其他实施例,都属于本专利技术保护的范围。
[0038]循环神经网络的构造使其可以学习到文本中的顺序信息,而对于文本中词的长依赖问题,即一个词与 之前临近的几个词相关性较小,但与之前较远处的一些词相关的问题,在实践过程中循环神经网络无法学 习到此种特征,为解决这种长依赖问题,1997年Hochreiter等人在循环神经网络的基础上引入长短期记忆 网络。
[0039]如图1、2、6所示,长短期记忆网络(Long Short Term Memory networks,LSTM)与标准的循环神经网络 的不同在于重复元内部山单层变为多层,设定好初始输出状态值h0与初始细胞状态值C0,产生第t+1个 输出状态值h
t+1
时,输入h
t
与x
t+1
到忘记门,即下式
[0040][0041]计算f
t
,其中二维权重向瞿W
f
=[w1,w2]与b
f
为未知参数.
[0042]忘记门计算的f
t
作为细胞状态C
t
在之后计算中的系数,决定上一细胞状态C
t
中的信息应该被丢弃多 少,之后进入输入门,即通过下式:
[0043]i
t+1
=σ(W
i
·
[h
t
,x
t+1
]T
+b
i
...

【技术保护点】

【技术特征摘要】
1.基于深度学习的文本数据分类方法,其特征在于,包括如下步骤:S1,获取历史通信文本数据集,并依次对历史通信文本数据集进行数据预处理、特征提取;得到提取后的通信文本数据集,进入步骤S2;S2,建立文本分类模型,将历史通信文本数据集输入至文本分类模型中进行训练,并对训练完成的文本分类模型进行数据测试,得到测试完成的文本分类模型,其中,文本分类模型采用长短期记忆网络模型,进入步骤S3;S3,获取通信文本数据,并输入至测试完成的文本分类模型中,完成对通信文本数据的分类。2.根据权利要求1所述的基于深度学习的文本数据分类方法,其特征在于,步骤S1中所述的对历史通信文本数据集进行特征提取,其数学表达式如下:特征提取,其数学表达式如下:其中,D表示筛选后的训练集文本中词汇的集合,d
t
为D中的第t个元素。表示在空间中第t个单位坐标向量。3.根据权利要求1所述的基于深度学习的文本数据分类方法,其特征在于,步骤S2中所述的文本分类模型采用Adaboost提升算法,其数学表达式如下:其中,ζ
α
表示从样本空间的子集到样本空间子集的映射,ψ表示由从样本空间的子集到函数集的映射。4.根据权利要求3所述的基于深度学习的文本数据分类方法,其特征在于,步骤S2中所述的文本分类...

【专利技术属性】
技术研发人员:刘秉辉刘洋郝立柱郭建华
申请(专利权)人:东北师范大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1