一种基于卷积神经网络的文本数据无监督聚类方法技术

技术编号：20272723 阅读：32 留言：0更新日期：2019-02-02 03:44

本发明专利技术将基于神经网络的无监督文本聚类方法应用到各专业领域如电力行业数据的文本数据分析中去，通过卷积神经网络将文本数据集中的文本进行特征权计算，并将词语按特征权值降序排列。按照某一特定数列来选取词语及其所在句子形成文本子集，并进一步形成渐进近似表达。通过文本的近似表达形成的数据集，有效地训练卷积神经网络，实现对少量标记文本甚至无标记文本的文本数据无监督分类方法，能够有效解决一般文本数据聚类分析人工交互工作量大，分类效率有待提高等问题。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于卷积神经网络的文本数据无监督聚类方法
本申请涉及一种信息处理方法，具体的，涉及一种基于卷积神经网络的文本数据无监督聚类方法。可以用于电力行业文本数据的聚类分析，以及特征提取、语义扩展搜索等各类文本应用场景。
技术介绍
传统的文本挖掘算法是基于监督学习的，检测率较高，误报率较低，但是严重依赖于正确标记的数据。然而对于具有不断增长特性的大量数据库而言，对所有文本信息进行正确地标记几乎是不可能的。作为无监督学习方法的文本挖掘技术，基于聚类的文本挖掘算法不依赖于大量标记的文本数据，就可以通过文本的内部特征来对相似文本归为一类。所以，文本挖掘无监督学习的算法的成本低、适应性高。无监督聚类可以利用少量的先验知识来指导聚类过程，不仅可以提高聚类的效率，而且可以提高聚类的精度。卷积神经网络(ConvolutionalNeuralNetwork,CNN)是一种前馈神经网络，它的人工神经元可以响应一部分覆盖范围内的周围单元。它包括卷积层(convolutionallayer)和池化层(poolinglayer)。CNNs本质上就是多层卷积运算，以及对每层的输出用非线性激活函数做转换，比如用ReLU和tanh。在CNNs中是通过输入层的卷积结果来计算输出。这相当于是局部连接，每块局部的输入区域与输出的一个神经元相连接。对每一层应用不同的滤波器，往往是成百上千个，然后汇总它们的结果。在训练阶段，CNN基于任务自动学习滤波器的权重值计算。在文本分类问题中，将向量化的文本输入神经网络，第一层CNN模型能学会从原始文本向量矩阵检测到一些文本向量的聚集簇，然后根据这些聚集簇在后续...

【技术保护点】
1.基于神经网络的无监督文本聚类方法，包括如下步骤：数据采集步骤S110:采集文本数据，采用人机交互或预处理的方式取得初始训练集，即通过先验知识将原始数据分为大量的未标记文本数据与相对少量已标记文本数据；文本分词步骤S120：对所有文本数据进行分词；词频统计步骤S130:对分词结果进行词频统计，即针对每篇文本计算分词结果的出现次数；特征权重计算步骤S140：根据每篇文本词频统计结果，基于外部的语料库的各词基准词频作为逆向文件频率(idf)，采用TF‑IDF(term frequency‑inverse document frequency)方法，计算tf‑idf值，作为每个分词词语的特征权重值；渐进近似表达步骤S150：选定一种渐进表达序列的模式，构建文本基于特征词的渐进近似表达；神经网络构建步骤S160：通过预定义参数构建用于文本聚类的卷积神经网络；神经网络训练步骤S170：将已标记文本和未标记文本的所有渐进表达序列的内容都作为训练数据对于神经网络进行训练；神经网络稳定收敛并保存模型参数步骤S180:待神经网络的聚类结果稳定之后，结束对神经网络的训练，并将训练的到的模型参数保存；文本...

【技术特征摘要】
1.基于神经网络的无监督文本聚类方法，包括如下步骤：数据采集步骤S110:采集文本数据，采用人机交互或预处理的方式取得初始训练集，即通过先验知识将原始数据分为大量的未标记文本数据与相对少量已标记文本数据；文本分词步骤S120：对所有文本数据进行分词；词频统计步骤S130:对分词结果进行词频统计，即针对每篇文本计算分词结果的出现次数；特征权重计算步骤S140：根据每篇文本词频统计结果，基于外部的语料库的各词基准词频作为逆向文件频率(idf)，采用TF-IDF(termfrequency-inversedocumentfrequency)方法，计算tf-idf值，作为每个分词词语的特征权重值；渐进近似表达步骤S150：选定一种渐进表达序列的模式，构建文本基于特征词的渐进近似表达；神经网络构建步骤S160：通过预定义参数构建用于文本聚类的卷积神经网络；神经网络训练步骤S170：将已标记文本和未标记文本的所有渐进表达序列的内容都作为训练数据对于神经网络进行训练；神经网络稳定收敛并保存模型参数步骤S180:待神经网络的聚类结果稳定之后，结束对神经网络的训练，并将训练的到的模型参数保存；文本聚类步骤S190:将待聚类的文本向量输入已经训练好的神经网络进行聚类计算。2.根据权利要求1所述的基于神经网络的无监督文本聚类方法，其特征在于：在分词步骤中，还在分词结果中略去所有停用词，所述停用词可以来源于停用词表，停用词表是根据应用领域而预先构建形成的外部数据。3.根据权利要求1所述的基于神经网络的无监督文本聚类方法，其特征在于：当特征权重计算步骤S14...

【专利技术属性】
技术研发人员：周兴东，马文，张雪坚，
申请(专利权)人：云南电网有限责任公司信息中心，
类型：发明
国别省市：云南,53

全部详细技术资料下载我是这个专利的主人