一种文本数据的分类方法、装置以及系统制造方法及图纸

技术编号:21034451 阅读:39 留言:0更新日期:2019-05-04 05:29
本发明专利技术公开了一种文本数据的分类方法、装置及系统,该方法包括:获取文本数据集;对所述文本数据集进行预处理,形成训练数据集;构建深度神经网络模型;基于所述训练数据集对所述深度神经网络模型进行训练;使用训练完成的深度神经网络模型,对待分类的文本数据进行分类识别。相较于现有技术,本发明专利技术能够针对特定文本数据进行自动化分类识别,提高分类效率,降低计算成本,可以有效地辅助人们判断特定文本数据,同时提高诊断效率,降低误诊率,满足判断要求。

A Text Data Classification Method, Device and System

【技术实现步骤摘要】
一种文本数据的分类方法、装置以及系统
本专利技术涉及人工智能领域,特别涉及一种文本数据的分类方法、装置以及系统。
技术介绍
随着计算机技术的迅猛发展,越来越多的行业开始使用计算机技术进行日常的工作以达到提高工作效率的目的。但对于医疗,金融等行业,由于其行业所具备的特性,传统的计算机技术并不能够解决大多数问题。通常由于其所使用的数据规模较大,或者个体之间差异性较强等原因,导致传统机器学习算法受限于自身的局限性,对于特异样本点和大规模的样本数据集,算法本身难以进行合理的推理预测,可扩展性较差,并且由于其中的参数普遍由人为进行设定,对于数据的特性拟合并不够完善。深度学习技术作为一项新兴技术逐渐被广泛地应用于各个领域,它可以对于给定的文本、图表等数据集合,通过相关算法对于其数据的具体分布特性,自动的优化调节算法的内部参数,实现基于当前数据特性对于数据的可能情况进行推理预测的目的。深度学习是一种特殊的机器学习,它可以具有较高的运算性能也十分灵活便于移植使用。与传统的机器学习方法不同的是,深度学习在模型的训练阶段通常需要使用到大量的训练样本数据,通过学习一种深层非线性网络结构来实现复杂函数的逼近,与人工构造的特征相比,在大规模数据训练下生成的深度学习模型,能够更好的学习数据本身的特征。而随着计算机技术的不断发展,文本数据也呈现爆发性的增长,通过文本数据进行样本的分类成为了一项需要耗费大量时间的工作,用户需要面对海量的文本数据并逐一筛查。而且,筛查结果也极大程度上取决于用户的个人能力水平以及当前工作状态,否则,极易出现误判和漏判的现象。目前传统的计算机分类识别辅助工具只能适用于简单的统计以及分类计算,缺乏针对于特定文本数据的自动化诊断识别方法,而通过使用深度学习技术,对文本数据进行模型建立,最终将训练完成的模型对测试文本数据进行分类推理,输出正确的分类识别结果,从而达到提高工作效率,减轻相关工作任务量的最终目的。
技术实现思路
针对现有技术存在的不足,本专利技术旨在解决针对文本数据分类识别缺乏有效的识别方法的问题,提供一种文本数据的分类方法。装置以及系统,提高分类效率,降低计算成本,可以有效地辅助人们判断特定文本数据,同时提高诊断效率,降低误诊率,满足判断要求。为解决上述技术问题,本专利技术提供了一种文本数据的分类方法,所述方法包括:获取文本数据集;对所述文本数据集进行预处理,形成训练数据集;构建深度神经网络模型;基于所述训练数据集对所述深度神经网络模型进行训练;使用训练完成的深度神经网络模型,对待分类的文本数据进行分类识别。优选地,所述对所述文本数据集进行预处理,包括:提取和填补重要数据信息,去除无效或者敏感信息。优选地,所述对所述文本数据集进行预处理,形成训练数据集,包括:对每列数据计算其高斯分布,依据相应分布进行对应数值填充,删除缺失特征信息过多的个体,使用logistics算法进行特征筛选,融合形成训练数据集。优选地,所述构建深度神经网络模型,包括卷积层、池化层、LSTM(LongShort-TermMemory,长短期记忆)层、全连接层:卷积层,由4层卷积层组成,其中各个层的卷积核大小分别是1*3,3*1,3*3,1*1,步长均设置为1,所使用的激活函数为Relu;池化层,由2层池化层组成,采用max_pooling的方式,步长设置为2,与卷积层组合使用;LSTM层,由1层组成,隐含层节点数设置为64,加入dropout方法,处理由卷积层得到的文本数据特征向量;全连接层,由2层组成,通道数分别为128和2,采用softmax函数进行映射,得到具体分类类别的概率。优选地,所述基于所述训练数据集对所述深度神经网络模型进行训练,包括:将所述训练数据集分为训练集、训练集标签、测试集、测试集标签;在keras框架下,设定所述深度神经网络模型需要分类的num_class的值,使用所述训练数据集训练所述深度神经网络模型,迭代预设次数后停止训练;保存迭代结束后且训练完成的深度神经网络模型。优选地,使用训练完成的深度神经网络模型,对待分类的文本数据进行分类识别,包括:用户选择训练完成的深度神经网络模型,输入待分类的文本数据路径;经由训练完成的深度神经网络模型处理,输出分类结果。为解决上述技术问题,本专利技术还提供了一种文本数据的分类装置,采用上述任一种文本数据的分类方法,所述装置包括:数据载入模块,用于获取与文本数据分类对应的数据集,载入用户选择的文本数据;模式设定模块,用于设定深度神经网络模型训练模式或深度神经网络数据推理模式;用户输入模块,用于接收用户基于当前需求的输入,当前模式为深度神经网络模型训练模式时,接收待训练的文本数据集,当前模式为深度神经网络数据推理模式时,接收待分类的文本数据;模型保存模块,用于保存训练完成的深度神经网络模型;结果输出模块,用于输出对待分类的文本数据进行分类识别的结果。优选地,所述装置还包括:算法调用模块,用于根据设定的模式,调用对应算法进行模型训练或数据推理。为解决上述技术问题,本专利技术还提供了一种文本数据的分类系统,所述系统包括:输入部分、输出部分、通信总线、处理器、存储器以及驱动器,其中,所述输入部分、输出部分、处理器、存储器以及驱动器通过通信总线进行连接;所述存储器,用于存储计算机程序;所述处理器,用于执行所述计算机程序时实现如上任一种文本数据的分类方法的步骤。本专利技术提供的文本数据的分类方法、装置以及系统,与现有技术相比,具有如下有益效果:通过使用深度神经网络技术,能够针对特定文本数据进行自动化分类识别,提高分类效率,降低计算成本,可以有效地辅助人们判断特定文本数据,同时提高诊断效率,降低误诊率,满足判断要求。附图说明为了更清楚地说明本专利技术实施例或现有技术的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。图1为本专利技术实施例提供的一种文本数据的分类方法的流程图;图2为本专利技术实施例提供的深度神经网络模型的功能结构设计图;图3为本专利技术实施例提供的一种文本数据的分类装置的结构图;图4为本专利技术实施例提供的一种文本数据的分类系统的示意性框架图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。为了使本领域技术人员更好地理解本专利技术方案,下面结合附图和具体实施方式对本专利技术作进一步的详细说明。如图1所示,是本专利技术实施例提供的一种文本数据的分类方法的流程图,所述方法包括以下步骤:S101:获取文本数据集;在本实施例中,文本数据集以网上公开的特定文本数据为主体,从中获取2000个个体的文本数据。可选地,本实施例中的文本数据集可以根据用户不同的需求进行相应的更换。S102:对所述文本数据集进行预处理,形成训练数据集;在本实施例中,由于不同个体标注生成的文本数据具有的属性不尽相同,经常会有部分数据缺失的情况出现,因此需要对文本数据进本文档来自技高网
...

【技术保护点】
1.一种文本数据的分类方法,其特征在于,所述方法包括:获取文本数据集;对所述文本数据集进行预处理,形成训练数据集;构建深度神经网络模型;基于所述训练数据集对所述深度神经网络模型进行训练;使用训练完成的深度神经网络模型,对待分类的文本数据进行分类识别。

【技术特征摘要】
1.一种文本数据的分类方法,其特征在于,所述方法包括:获取文本数据集;对所述文本数据集进行预处理,形成训练数据集;构建深度神经网络模型;基于所述训练数据集对所述深度神经网络模型进行训练;使用训练完成的深度神经网络模型,对待分类的文本数据进行分类识别。2.根据权利要求1所述的方法,其特征在于,所述对所述文本数据集进行预处理,包括:提取和填补重要数据信息,去除无效或者敏感信息。3.根据权利要求2所述的方法,其特征在于,所述对所述文本数据集进行预处理,形成训练数据集,包括:对每列数据计算其高斯分布,依据相应分布进行对应数值填充,删除缺失特征信息过多的个体,使用logistics算法进行特征筛选,融合形成训练数据集。4.根据权利要求1所述的方法,其特征在于,所述构建深度神经网络模型,包括卷积层、池化层、LSTM(LongShort-TermMemory,长短期记忆)层、全连接层:卷积层,由4层卷积层组成,其中各个层的卷积核大小分别是1*3,3*1,3*3,1*1,步长均设置为1,所使用的激活函数为Relu;池化层,由2层池化层组成,采用max_pooling的方式,步长设置为2,与卷积层组合使用;LSTM层,由1层组成,隐含层节点数设置为64,加入dropout方法,处理由卷积层得到的文本数据特征向量;全连接层,由2层组成,通道数分别为128和2,采用softmax函数进行映射,得到具体分类类别的概率。5.根据权利要求1所述的方法,其特征在于,所述基于所述训练数据集对所述深度神经网络模型进行训练,包括:将所述训练数据集分为训练集、训练集标签、测试集、测试集标签;在k...

【专利技术属性】
技术研发人员:谢迎
申请(专利权)人:郑州云海信息技术有限公司
类型:发明
国别省市:河南,41

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1