一种融合多层语义表示的深度自监督文本聚类方法技术

技术编号:38261516 阅读:12 留言:0更新日期:2023-07-27 10:21
本发明专利技术涉及信息抽取和文本处理技术领域,且公开了一种融合多层语义表示的深度自监督文本聚类方法,利用自编码器从原始文本数据中学习到多层的隐含语义表示,通过多层语义融合策略将文本的多层语义表示进行融合,获得语义增强的融合多层语义的文本表示,利用自编码器的解码器分别对融合多层语义的文本表示和步骤1)中学习到的最低维表示进行解码重构,并将其逐层融合得到最终的重构文本数据。本发明专利技术的优点在于:能够在文本数据重构时考虑到数据不同层次的语义表示,在深度文本聚类中的编码器对文本语义表示进行融合并用其对解码层语义表示进行逐层补充加强,得到更丰富的文本语义表示,从而得到更好的聚类结果,适应不同的下游任务。游任务。游任务。

【技术实现步骤摘要】
一种融合多层语义表示的深度自监督文本聚类方法


[0001]本专利技术涉及信息抽取和文本处理
,具体为一种融合多层语义表示的深度自监督文本聚类方法。

技术介绍

[0002]随着互联网的高速发展,海量的文本数据为文本分析处理工作提出了重大挑战.因而文本聚类作为文本分析的重要工具受到了越来越多的关注.近年来,由于深度神经网络在特征学习上的优异表现,基于深度神经网络的深度文本聚类方法已经成为目前主流的文本聚类方法之一。
[0003]目前大多的深度文本聚类方法其主要思想均为通过深度神经网络将高维数据转变为低维数据,再利用最小化重构原始文档与重构文档的相似度来学习文本内部的潜在语义表示,然后对低维数据进行类簇划分.虽然目前深度文本聚类已经取得了很好的聚类效果,然而,现有的深度文本聚类方法存在融合多层语义表示时没有考虑到解码器在文本语义补足上的作用的问题,导致文本语义表示学习不足,从而影响了聚类效果.深度文本聚类中的解码器部分作为文本类簇生成的主要模块,仅对单一文本潜在语义表示进行重构,忽略多层文本语义表示所具有的不同信息,可能会导致在文本数据重构时出现语义信息丢失等问题,进一步影响聚类性能。因此,为了在文本数据重构时考虑到数据不同层次的语义表示,在深度文本聚类中的编码器对文本语义表示进行融合并用其对解码层语义表示进行逐层补充加强是必要的。

技术实现思路

[0004](一)解决的技术问题
[0005]针对现有技术的不足,本专利技术提供了一种融合多层语义表示的深度自监督文本聚类方法,以解决背景技术中所提到的问题,克服现有技术中存在的不足。
[0006](二)技术方案
[0007]为实现上述目的,本专利技术提供如下技术方案:一种融合多层语义表示的深度自监督文本聚类方法,包括以下步骤:
[0008]1)利用自编码器从原始文本数据中学习到多层的隐含语义表示;
[0009]2)通过多层语义融合策略将文本的多层语义表示进行融合,获得语义增强的融合多层语义的文本表示;
[0010]3)利用自编码器的解码器分别对融合多层语义的文本表示和步骤1)中学习到的最低维表示进行解码重构,并将其逐层融合得到最终的重构文本数据;
[0011]4)利用原始文本数据与重构文本数据计算重构损失,计算融合多层语义的文本表示的分布与原始文本数据分布的保持分布一致性损失,不断反调优化编码器参数,得到最终的文本语义表示;
[0012]5)对上述步骤得到的文本语义表示进行聚类,得到最终的文本聚类结果。
[0013]优选的,所述步骤1)中的原始文本采用向量化表示。
[0014]优选的,所述步骤2)中的多层文本语义表示经过余弦函数转换。
[0015]优选的,所述步骤3)中通过自编码器的解码器进行重构。
[0016]优选的,所述步骤4中采用KL散度公式进行计算损失。
[0017]优选的,所述步骤5中采用K

means算法进行聚类计算。
[0018](三)有益效果
[0019]与现有技术相比,本专利技术提供了一种融合多层语义表示的深度自监督文本聚类方法,具备以下有益效果:
[0020]1、该融合多层语义表示的深度自监督文本聚类方法,能够在文本数据重构时考虑到数据不同层次的语义表示,在深度文本聚类中的编码器对文本语义表示进行融合并用其对解码层语义表示进行逐层补充加强,得到更丰富的文本语义表示,从而得到更好的聚类结果,适应不同的下游任务。
[0021]2、该融合多层语义表示的深度自监督文本聚类方法,通过衡量原始文本与聚类中心的分布以及潜在空间文本表示与聚类中心的分布的一致性,保证原始数据空间的节点分配关系与潜在空间的节点分配关系是一致的,以学习更适合聚类的文本表示,可以解决监督信息监督力度弱的问题,为自监督文本聚类的后续研究提供了新的思路。
[0022]3、该融合多层语义表示的深度自监督文本聚类方法,引入融合多层语义表示的深度自监督文本聚类方法能得到更优的聚类结果,适应不同应用场景,提供更有利的支撑,具有较大的理论意义和实用价值。
附图说明
[0023]图1为本专利技术的工作流程图;
[0024]图2为本专利技术的方法模型图;
[0025]图3为本专利技术的多层语义融合策略方法示意图。
具体实施方式
[0026]下面将结合本专利技术的实施例,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0027]如下图1

3所示,一种融合多层语义表示的深度自监督文本聚类方法,包括以下步骤:
[0028]1)利用自编码器从原始文本数据中学习到多层的隐含语义表示;
[0029]2)通过多层语义融合策略将文本的多层语义表示进行融合,获得语义增强的融合多层语义的文本表示;
[0030]3)利用自编码器的解码器分别对融合多层语义的文本表示和步骤1)中学习到的最低维表示进行解码重构,并将其逐层融合得到最终的重构文本数据;
[0031]4)利用原始文本数据与重构文本数据计算重构损失,计算融合多层语义的文本表示的分布与原始文本数据分布的保持分布一致性损失,不断反调优化编码器参数,得到最
终的文本语义表示;
[0032]5)对上述步骤得到的文本语义表示进行聚类,得到最终的文本聚类结果。
[0033]作为本专利技术的一种可选技术方案:
[0034]步骤1)中的原始文本采用向量化表示,这一环节可以选用:TF(词频)、TF

IDF(词频

逆文本频率指数)或是Word2Vec等方法。文本的向量化表示往往是高维的且具有噪声的,为避免维度灾难和噪声影响,利用自编码器对文本数据进行降维,从而挖掘文本数据在不同网络层中隐含的文本语义表示,以此生成l个大小为n*d
l
的文本语义表示矩阵,其中,n为数据集中文本个数,l为编码层数量,d
l
为l层文本语义表示维度。此矩阵的生成实现了将学习多层文本语义表示的目标,便于后续计算各部分的损失函数以及融合的文本语义表示。
[0035]作为本专利技术的一种可选技术方案:
[0036]步骤2)中的多层文本语义表示经过余弦函数转换,转换之后的文本储存在相同的潜在空间内,再将潜在空间中的多层语义表示进行融合,得到增强的文本语义表示F,再融合F的自表示结构信息学习到更丰富的语义表示S。此步骤输出的语义表示用于后续解码器语义补充过程。如图3所示,具体的策略方法如下所示:
[0037][0038]S=λF+(1

λ)FC
[0039]其中,是余弦函数;C是自表示矩阵;λ是参数,用于控制增强语义融合的比例。
[0040]作为本专利技术的一种可选技术本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种融合多层语义表示的深度自监督文本聚类方法,其特征在于,包括以下步骤:1)利用自编码器从原始文本数据中学习到多层的隐含语义表示;2)通过多层语义融合策略将文本的多层语义表示进行融合,获得语义增强的融合多层语义的文本表示;3)利用自编码器的解码器分别对融合多层语义的文本表示和步骤1)中学习到的最低维表示进行解码重构,并将其逐层融合得到最终的重构文本数据;4)利用原始文本数据与重构文本数据计算重构损失,计算融合多层语义的文本表示的分布与原始文本数据分布的保持分布一致性损失,不断反调优化编码器参数,得到最终的文本语义表示;5)对上述步骤得到的文本语义表示进行聚类,得到最终的文本聚类结果。2.根据权利要求1所述的一种融合多层语义...

【专利技术属性】
技术研发人员:任丽娜姚茂宣冯丽霞
申请(专利权)人:贵州轻工职业技术学院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1