【技术实现步骤摘要】
一种文档自动聚类方法
[0001]本专利技术属于文本数据挖掘
,具体涉及一种文档自动聚类方法。
技术介绍
[0002]在文本数据挖掘中,文本分类是一项重要的研究内容,被广泛应用于Web 搜索、日志分析、信息过滤、情感分析等领域中。对文本数据进行分类的前提是提取文本信息的特征并将其向量化,常用的方法有词袋模型,如一元、二元和n元模型等;此外,还可以采用基于频率的特征提取方法。在n元模型中,当n取值较大时可以捕获单词的语义信息,然而,它们都面临数据稀疏的问题,其分类应用的准确性也不高。
[0003]自编码器是深度学习中一种重要的训练模型,在自然语言处理中取得较好的效果,它将输入数据向量化,然后通过最小化重建输入数据的误差对特征进行提取。如果输入数据是文本,输出数据是对输入的重建,那么就可以将中间的隐藏层向量理解为输入数据的特征向量。对隐藏层向量可以进行特征提及、聚类分析,将文本数据中相似的部分划分为同一个类,从而进一步实现我们的目的。由于文本数据本身具有纬度高和稀疏性等特征,因此自编码器在文本挖掘领域还有待提高。< ...
【技术保护点】
【技术特征摘要】
1.一种文档自动聚类方法,其特征在于,该方法具体包括:S1、读取待处理的文档,并对所述文档中的文本内容进行清洗和分词处理,并利用停用词表,对分词进行匹配输出,并对输出结果进行向量化处理,获得高维稀疏文本向量;S2、将所述文本向量输入自编码器进行编码和译码处理,并通过全局调整函数,提取低维抽象特征向量;S3、根据聚类文档目标,对所述特征向量进行聚类处理,并直到获得的所有向量簇不再发生变化为止,从中选取最符合目标的向量簇;S4、利用所述向量簇,对所述文档中的文本数据进行定位输出。2.根据权利要求1所述的一种文档自动聚类方法,其特征在于,所述步骤S1中对文本内容进行清洗和分词处理后的向量化处理过程具体包括:利用TF
‑
IDF方法对所述分析匹配输出结果进行向量化处理,并输出高维稀疏文本向量X为:X为:W
d,t
=W
t
×
TF(d,t)
×
IDF(d,t)X(d)=(w
d,1
,w
d,2
,...,w
d,n
)其中:Z
d,t
表示特征词t在文本d中出现的次数,表示在文本d中所有特征词出现次数之和,m表示文本集合中的文本总数,Z表示包含特征词t的文本数目,W
t
表示特征词t在文本d中的权重,W
d,t
表示文本d中特征词t的权重值。3.根据权利要求1所述的一种文档自动聚类方法,其特征在于,所述步骤S2中将文本向量输入自编码器进行编码和译码处理的具体步骤为:将步骤S1获得的所述文本向量X输入自编码器,对所述文本向量X进行加权处理,输入层与隐藏层的权重矩阵W与输入的偏倚向量b作为加权参数,用双曲正切函数tanh对加权结果进行编码计算,得到隐藏层向量h为:h=tanh(WX+b)对编码后获得的隐藏层向量h进行译码处理,在保证输入输出向量误差最小的前提下,重建输出向量y:y=tanh(W
T
h+b
′
)W
T
为W的转置权重矩阵,b
′
为输出层与隐藏层之间的偏倚向量。4.根据权利要求3所述的一种文档自动聚类方法,其特征在于,所述文本向量输入自编码器进行编码和译码处理还包括通过构建损失函数,进行损失判断的步骤为:构建损失函数,若输入向量与输出向量进行损失函数计算值不符合无损失范围,则重
新训练自编码器后,在进行编码和译码处理;对应输入向量x、输出向量y进行损失函数值计算所构建的损失函数J(W,b,x,y)为:对应输入向量x、输出向量y进行损失函数值计算所构建的损失函数J(W,b,x,y)为:对应输入向量x、输出向量y进行损失函数值计算所构建的损失函数J(W,b,x,y)为:其中,λ为参数惩罚项系数,又称权重衰减参数,β为稀疏性惩罚因子的权重,ρ为稀疏性参数,表示隐藏神经元j的平均活跃度。5.根据权利要求1所述的一种文档自动聚类方法,其特征在于,所述步骤S2中通过全局调整函数,提取低维抽象特征向量具体包括:利用全局调整函数,对隐藏层向量的绝对值小的元素舍去,转移至绝对值大的元素当中:按照正负将隐藏层向量h的所有元素分成两个序列A和B,并按照绝对值分别将A和B中的元素从小到大进行排序;使得都有a
i
∈A^a
j
∈A^|a<...
【专利技术属性】
技术研发人员:姚昊,张立侠,葛旭阳,任宇阳,李强,吴宝华,杜君尧,楼宝川,胡文勇,李武平,
申请(专利权)人:中核核电运行管理有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。