一种基于卷积神经网络的文本数据无监督聚类方法技术

技术编号:20272723 阅读:32 留言:0更新日期:2019-02-02 03:44
本发明专利技术将基于神经网络的无监督文本聚类方法应用到各专业领域如电力行业数据的文本数据分析中去,通过卷积神经网络将文本数据集中的文本进行特征权计算,并将词语按特征权值降序排列。按照某一特定数列来选取词语及其所在句子形成文本子集,并进一步形成渐进近似表达。通过文本的近似表达形成的数据集,有效地训练卷积神经网络,实现对少量标记文本甚至无标记文本的文本数据无监督分类方法,能够有效解决一般文本数据聚类分析人工交互工作量大,分类效率有待提高等问题。

【技术实现步骤摘要】
一种基于卷积神经网络的文本数据无监督聚类方法
本申请涉及一种信息处理方法,具体的,涉及一种基于卷积神经网络的文本数据无监督聚类方法。可以用于电力行业文本数据的聚类分析,以及特征提取、语义扩展搜索等各类文本应用场景。
技术介绍
传统的文本挖掘算法是基于监督学习的,检测率较高,误报率较低,但是严重依赖于正确标记的数据。然而对于具有不断增长特性的大量数据库而言,对所有文本信息进行正确地标记几乎是不可能的。作为无监督学习方法的文本挖掘技术,基于聚类的文本挖掘算法不依赖于大量标记的文本数据,就可以通过文本的内部特征来对相似文本归为一类。所以,文本挖掘无监督学习的算法的成本低、适应性高。无监督聚类可以利用少量的先验知识来指导聚类过程,不仅可以提高聚类的效率,而且可以提高聚类的精度。卷积神经网络(ConvolutionalNeuralNetwork,CNN)是一种前馈神经网络,它的人工神经元可以响应一部分覆盖范围内的周围单元。它包括卷积层(convolutionallayer)和池化层(poolinglayer)。CNNs本质上就是多层卷积运算,以及对每层的输出用非线性激活函数做转换,比如用ReLU和tanh。在CNNs中是通过输入层的卷积结果来计算输出。这相当于是局部连接,每块局部的输入区域与输出的一个神经元相连接。对每一层应用不同的滤波器,往往是成百上千个,然后汇总它们的结果。在训练阶段,CNN基于任务自动学习滤波器的权重值计算。在文本分类问题中,将向量化的文本输入神经网络,第一层CNN模型能学会从原始文本向量矩阵检测到一些文本向量的聚集簇,然后根据这些聚集簇在后续各层逐步过滤出局部特征,然后基于这些特征得出更高级的特征。最后一层是通过分类器利用这些高级特征进行分类。一直以来,文本分析多以基于统计的方法描述,深度的文本数据分析,如自然语言处理中如何将文本进行量化表达,并对其进行特征聚类,是业界分析的难点。近年来随着神经网络等数据分析与挖掘方法的不断发展,相关研究也越来越多。因此,如何将神经网络运用于文本聚类,以有效地解决一般文本数据聚类分析人工交互工作量大,分类效率低等问题,成为亟需满足的技术需求。
技术实现思路
本专利技术的目的在于提出卷积神经网络的文本数据无监督聚类方法,能够应用于专业领域和行业内文本数据的聚类分析,通过运用卷积神经网络从少量的样本训练出发,减少人工标注的工作,改善聚类效率,为进一步的文本数据深度分析与挖掘提供基础的文本处理方案。为达此目的,本专利技术采用以下技术方案:基于神经网络的无监督文本聚类方法,包括如下步骤:数据采集步骤S110:采集文本数据,采用人机交互或预处理的方式取得较少的初始训练集,即通过先验知识将原始数据分为大量的未标记文本数据与相对少量已标记文本数据;文本分词步骤S120:对所有文本数据进行分词;词频统计步骤S130:对分词结果进行词频统计,即针对每篇文本计算分词结果的出现次数;特征权重计算步骤S140:根据每篇文本词频统计结果,基于外部的语料库的各词基准词频作为逆向文件频率(idf),采用TF-IDF(termfrequency-inversedocumentfrequency)方法,计算tf-idf值,作为每个分词词语的特征权重值;渐进近似表达步骤S150:选定一种渐进表达序列的模式,构建文本基于特征词的渐进近似表达;神经网络构建步骤S160:通过预定义参数构建用于文本聚类的卷积神经网络;神经网络训练步骤S170:将已标记文本和未标记文本的所有渐进表达序列的内容都作为训练数据对于神经网络进行训练;神经网络稳定收敛并保存参数模型步骤S180:待神经网络的聚类结果稳定之后,结束对神经网络的训练,并对训练得到的模型参数保存;文本聚类步骤S190:将待聚类的文本向量输入已经训练好的神经网络进行聚类计算。可选的,结果中略去所有停用词,所述停用词可以来源于停用词表,停用词表是根据应用领域而预先构建形成的外部数据。可选的,当特征权重计算步骤S140计算出特征权重后,能够将分词词语与特征权重值以向量形式保存,还具有向量降维步骤S145:采用哈希(HASH)降维的方式,对于上述的包括分词词语与特征权重值的二维向量进行降维,以降低计算的运算量。可选的,在渐进近似表达步骤S150中,在不同的计算过程中可以选择不同的渐进表达序列,不同的选取序列包含不同数量的文档近似表达数量。可选的,在渐进近似表达步骤S150中,不同的选取序列所包含数量界于O(logn)至O(log2n)之间,n为特征词数量。可选的,在神经网络构建步骤S160,所述预定义参数为:10000*8000个输入节点,20个输出节点;卷积神经网络共9层:输入层;卷积层1中过滤器7*7,步长2,输出4996*3996;池化层1中过滤器4*4,步长1,输出1249*999;卷积层2中过滤器7*7,步长2,输出621*243;池化层2中过滤器4*4,步长1,输出156*61;卷积层3中过滤器5*5,步长2,输出75*28;池化层3中过滤器3*3,步长1,输出25*10=250;全连接层1中输出160;全连接层2中输出100;输出层为20,训练轮数5000轮,学习率0.01,样本容量为500。本专利技术还公开了一种存储介质,用于存储计算机可执行指令,其特征在于:所述计算机可执行指令在被处理器执行时执行上述的基于神经网络的无监督文本聚类方法。本专利技术将基于神经网络的无监督文本聚类方法应用到各专业领域如电力行业数据的文本数据分析中去,通过卷积神经网络将文本数据集中的文本进行特征权计算,并将词语按特征权值降序排列。按照某一特定数列来选取词语及其所在句子形成文本子集,并进一步形成渐进近似表达。通过文本的近似表达形成的数据集,有效地训练卷积神经网络,实现对少量标记文本无标记文本的文本数据无监督分类方法,能够有效解决一般文本数据聚类分析人工交互工作量大等,分类效率有待提高等问题。附图说明图1是根据本专利技术具体实施例的基于神经网络的无监督文本聚类方法的流程图;图2是根据本专利技术具体实施例的将待聚类的文本向量输入已经训练好的神经网络进行聚类计算的示意图。具体实施方式下面结合附图和实施例对本专利技术作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本专利技术,而非对本专利技术的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本专利技术相关的部分而非全部结构。参见图1,示出了根据本专利技术的基于神经网络的无监督文本聚类方法的流程图,该方法包括如下步骤:数据采集步骤S110:利用诸如网络采集或数据导入工具的方式采集文本数据,采用人机交互或预处理等方式取得较少的初始训练集,即通过先验知识将原始数据分为大量的未标记文本数据与相对少量已标记文本数据。文本分词步骤S120:对所有文本数据进行分词,示例性的,可以采用通过jieba、SnowNLP(MIT)、pynlpir等分词工具进行分词。进一步的,在分词步骤中,还在分词结果中略去所有停用词,所述停用词可以来源于停用词表,停用词表是根据应用领域而预先构建形成的外部数据。示例性的,所述停用词可以包括例如:“标点符号”,“的”,“得”等等,这些词汇可以看作无效词,会以噪音的形式影响后续运算,需要去除。一般可以构建停用词库,以配本文档来自技高网
...

【技术保护点】
1.基于神经网络的无监督文本聚类方法,包括如下步骤:数据采集步骤S110:采集文本数据,采用人机交互或预处理的方式取得初始训练集,即通过先验知识将原始数据分为大量的未标记文本数据与相对少量已标记文本数据;文本分词步骤S120:对所有文本数据进行分词;词频统计步骤S130:对分词结果进行词频统计,即针对每篇文本计算分词结果的出现次数;特征权重计算步骤S140:根据每篇文本词频统计结果,基于外部的语料库的各词基准词频作为逆向文件频率(idf),采用TF‑IDF(term frequency‑inverse document frequency)方法,计算tf‑idf值,作为每个分词词语的特征权重值;渐进近似表达步骤S150:选定一种渐进表达序列的模式,构建文本基于特征词的渐进近似表达;神经网络构建步骤S160:通过预定义参数构建用于文本聚类的卷积神经网络;神经网络训练步骤S170:将已标记文本和未标记文本的所有渐进表达序列的内容都作为训练数据对于神经网络进行训练;神经网络稳定收敛并保存模型参数步骤S180:待神经网络的聚类结果稳定之后,结束对神经网络的训练,并将训练的到的模型参数保存;文本聚类步骤S190:将待聚类的文本向量输入已经训练好的神经网络进行聚类计算。...

【技术特征摘要】
1.基于神经网络的无监督文本聚类方法,包括如下步骤:数据采集步骤S110:采集文本数据,采用人机交互或预处理的方式取得初始训练集,即通过先验知识将原始数据分为大量的未标记文本数据与相对少量已标记文本数据;文本分词步骤S120:对所有文本数据进行分词;词频统计步骤S130:对分词结果进行词频统计,即针对每篇文本计算分词结果的出现次数;特征权重计算步骤S140:根据每篇文本词频统计结果,基于外部的语料库的各词基准词频作为逆向文件频率(idf),采用TF-IDF(termfrequency-inversedocumentfrequency)方法,计算tf-idf值,作为每个分词词语的特征权重值;渐进近似表达步骤S150:选定一种渐进表达序列的模式,构建文本基于特征词的渐进近似表达;神经网络构建步骤S160:通过预定义参数构建用于文本聚类的卷积神经网络;神经网络训练步骤S170:将已标记文本和未标记文本的所有渐进表达序列的内容都作为训练数据对于神经网络进行训练;神经网络稳定收敛并保存模型参数步骤S180:待神经网络的聚类结果稳定之后,结束对神经网络的训练,并将训练的到的模型参数保存;文本聚类步骤S190:将待聚类的文本向量输入已经训练好的神经网络进行聚类计算。2.根据权利要求1所述的基于神经网络的无监督文本聚类方法,其特征在于:在分词步骤中,还在分词结果中略去所有停用词,所述停用词可以来源于停用词表,停用词表是根据应用领域而预先构建形成的外部数据。3.根据权利要求1所述的基于神经网络的无监督文本聚类方法,其特征在于:当特征权重计算步骤S14...

【专利技术属性】
技术研发人员:周兴东马文张雪坚
申请(专利权)人:云南电网有限责任公司信息中心
类型:发明
国别省市:云南,53

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1