一种文本数据的分类方法、装置以及系统制造方法及图纸

技术编号：21034451 阅读：39 留言：0更新日期：2019-05-04 05:29

本发明专利技术公开了一种文本数据的分类方法、装置及系统，该方法包括：获取文本数据集；对所述文本数据集进行预处理，形成训练数据集；构建深度神经网络模型；基于所述训练数据集对所述深度神经网络模型进行训练；使用训练完成的深度神经网络模型，对待分类的文本数据进行分类识别。相较于现有技术，本发明专利技术能够针对特定文本数据进行自动化分类识别，提高分类效率，降低计算成本，可以有效地辅助人们判断特定文本数据，同时提高诊断效率，降低误诊率，满足判断要求。

A Text Data Classification Method, Device and System

全部详细技术资料下载

【技术实现步骤摘要】
一种文本数据的分类方法、装置以及系统
本专利技术涉及人工智能领域，特别涉及一种文本数据的分类方法、装置以及系统。
技术介绍
随着计算机技术的迅猛发展，越来越多的行业开始使用计算机技术进行日常的工作以达到提高工作效率的目的。但对于医疗，金融等行业，由于其行业所具备的特性，传统的计算机技术并不能够解决大多数问题。通常由于其所使用的数据规模较大，或者个体之间差异性较强等原因，导致传统机器学习算法受限于自身的局限性，对于特异样本点和大规模的样本数据集，算法本身难以进行合理的推理预测，可扩展性较差，并且由于其中的参数普遍由人为进行设定，对于数据的特性拟合并不够完善。深度学习技术作为一项新兴技术逐渐被广泛地应用于各个领域，它可以对于给定的文本、图表等数据集合，通过相关算法对于其数据的具体分布特性，自动的优化调节算法的内部参数，实现基于当前数据特性对于数据的可能情况进行推理预测的目的。深度学习是一种特殊的机器学习，它可以具有较高的运算性能也十分灵活便于移植使用。与传统的机器学习方法不同的是，深度学习在模型的训练阶段通常需要使用到大量的训练样本数据，通过学习一种深层非线性网络结构来实现复杂函数的逼近，与人工构造的特征相比，在大规模数据训练下生成的深度学习模型，能够更好的学习数据本身的特征。而随着计算机技术的不断发展，文本数据也呈现爆发性的增长，通过文本数据进行样本的分类成为了一项需要耗费大量时间的工作，用户需要面对海量的文本数据并逐一筛查。而且，筛查结果也极大程度上取决于用户的个人能力水平以及当前工作状态，否则，极易出现误判和漏判的现象。目前传统的计算机分类识别辅助工具只...

【技术保护点】
1.一种文本数据的分类方法，其特征在于，所述方法包括：获取文本数据集；对所述文本数据集进行预处理，形成训练数据集；构建深度神经网络模型；基于所述训练数据集对所述深度神经网络模型进行训练；使用训练完成的深度神经网络模型，对待分类的文本数据进行分类识别。

【技术特征摘要】
1.一种文本数据的分类方法，其特征在于，所述方法包括：获取文本数据集；对所述文本数据集进行预处理，形成训练数据集；构建深度神经网络模型；基于所述训练数据集对所述深度神经网络模型进行训练；使用训练完成的深度神经网络模型，对待分类的文本数据进行分类识别。2.根据权利要求1所述的方法，其特征在于，所述对所述文本数据集进行预处理，包括：提取和填补重要数据信息，去除无效或者敏感信息。3.根据权利要求2所述的方法，其特征在于，所述对所述文本数据集进行预处理，形成训练数据集，包括：对每列数据计算其高斯分布，依据相应分布进行对应数值填充，删除缺失特征信息过多的个体，使用logistics算法进行特征筛选，融合形成训练数据集。4.根据权利要求1所述的方法，其特征在于，所述构建深度神经网络模型，包括卷积层、池化层、LSTM(LongShort-TermMemory,长短期记忆)层、全连接层：卷积层，由4层卷积层组成，其中各个层的卷积核大小分别是1*3,3*1,3*3,1*1，步长均设置为1，所使用的激活函数为Relu；池化层，由2层池化层组成，采用max_pooling的方式，步长设置为2，与卷积层组合使用；LSTM层，由1层组成，隐含层节点数设置为64，加入dropout方法，处理由卷积层得到的文本数据特征向量；全连接层，由2层组成，通道数分别为128和2，采用softmax函数进行映射，得到具体分类类别的概率。5.根据权利要求1所述的方法，其特征在于，所述基于所述训练数据集对所述深度神经网络模型进行训练，包括：将所述训练数据集分为训练集、训练集标签、测试集、测试集标签；在k...

【专利技术属性】
技术研发人员：谢迎，
申请(专利权)人：郑州云海信息技术有限公司，
类型：发明
国别省市：河南,41

全部详细技术资料下载我是这个专利的主人