一种融合多层语义表示的深度自监督文本聚类方法技术

技术编号：38261516 阅读：12 留言：0更新日期：2023-07-27 10:21

本发明专利技术涉及信息抽取和文本处理技术领域，且公开了一种融合多层语义表示的深度自监督文本聚类方法，利用自编码器从原始文本数据中学习到多层的隐含语义表示，通过多层语义融合策略将文本的多层语义表示进行融合，获得语义增强的融合多层语义的文本表示，利用自编码器的解码器分别对融合多层语义的文本表示和步骤1)中学习到的最低维表示进行解码重构，并将其逐层融合得到最终的重构文本数据。本发明专利技术的优点在于：能够在文本数据重构时考虑到数据不同层次的语义表示，在深度文本聚类中的编码器对文本语义表示进行融合并用其对解码层语义表示进行逐层补充加强，得到更丰富的文本语义表示，从而得到更好的聚类结果，适应不同的下游任务。游任务。游任务。

全部详细技术资料下载

【技术实现步骤摘要】
一种融合多层语义表示的深度自监督文本聚类方法

[0001]本专利技术涉及信息抽取和文本处理
，具体为一种融合多层语义表示的深度自监督文本聚类方法。

技术介绍

[0002]随着互联网的高速发展，海量的文本数据为文本分析处理工作提出了重大挑战.因而文本聚类作为文本分析的重要工具受到了越来越多的关注.近年来，由于深度神经网络在特征学习上的优异表现，基于深度神经网络的深度文本聚类方法已经成为目前主流的文本聚类方法之一。
[0003]目前大多的深度文本聚类方法其主要思想均为通过深度神经网络将高维数据转变为低维数据，再利用最小化重构原始文档与重构文档的相似度来学习文本内部的潜在语义表示，然后对低维数据进行类簇划分.虽然目前深度文本聚类已经取得了很好的聚类效果，然而，现有的深度文本聚类方法存在融合多层语义表示时没有考虑到解码器在文本语义补足上的作用的问题，导致文本语义表示学习不足，从而影响了聚类效果.深度文本聚类中的解码器部分作为文本类簇生成的主要模块，仅对单一文本潜在语义表示进行重构，忽略多层文本语义表示所具有的不同信息，可能会导致在文本数据重构时出现语义信息丢失等问题，进一步影响聚类性能。因此，为了在文本数据重构时考虑到数据不同层次的语义表示，在深度文本聚类中的编码器对文本语义表示进行融合并用其对解码层语义表示进行逐层补充加强是必要的。

技术实现思路

[0004](一)解决的技术问题
[0005]针对现有技术的不足，本专利技术提供了一种融合多层语义表示的深度自监督文本聚类方法，以解决背景技...

【技术保护点】

【技术特征摘要】
1.一种融合多层语义表示的深度自监督文本聚类方法，其特征在于，包括以下步骤：1)利用自编码器从原始文本数据中学习到多层的隐含语义表示；2)通过多层语义融合策略将文本的多层语义表示进行融合，获得语义增强的融合多层语义的文本表示；3)利用自编码器的解码器分别对融合多层语义的文本表示和步骤1)中学习到的最低维表示进行解码重构，并将其逐层融合得到最终的重构文本数据；4)利用原始文本数据与重构文本数据计算重构损失，计算融合多层语义的文本表示的分布与原始文本数据分布的保持分布一致性损失，不断反调优化编码器参数，得到最终的文本语义表示；5)对上述步骤得到的文本语义表示进行聚类，得到最终的文本聚类结果。2.根据权利要求1所述的一种融合多层语义...

【专利技术属性】
技术研发人员：任丽娜，姚茂宣，冯丽霞，
申请(专利权)人：贵州轻工职业技术学院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人