System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于文本聚类语义云的可视化文本数据分类方法技术_技高网

一种基于文本聚类语义云的可视化文本数据分类方法技术

技术编号:39962482 阅读:8 留言:0更新日期:2024-01-09 00:09
本发明专利技术涉及一种基于文本聚类语义云的可视化文本数据分类方法,包括以下步骤:获取无标注的文本数据集;将所述文本数据集输入至预先构建好的自然语言处理模型中,生成每条文本的句子嵌入,其中在构建所述自然语言处理模型过程中,利用对比学习的方式强化所述自然语言处理模型的预训练阶段;采用聚类算法对所述句子嵌入进行聚类,获得聚类结果;采用语义云方法对所述聚类结果进行可视化处理,获得语义云图。与现有技术相比,本发明专利技术具有全程无需标签和微调、语义分析准确率高等优点。

【技术实现步骤摘要】

本专利技术涉及自然语言处理领域,尤其是涉及一种基于文本聚类语义云的可视化文本数据分类方法


技术介绍

1、在大数据环境下,容易产生出大量鱼龙混杂、良莠不齐的数据,这些数据很难依靠人工对其进行分析。因此,研究者们利用数据挖掘技术以及相应的可视化分析工具用以解决此类问题。在数据挖掘技术中,经常利用聚类方法对拥有多个维度特征的对象进行分析,按照某个特定标准(如距离)把一个数据集分割成不同的类或簇,使得同一个簇内的数据对象的相似性尽可能大,同时不在同一个簇中的数据对象的差异性也尽可能地大。通过聚类,我们可以整体把握一个数据族群中不同部分的区别和联系,在数量庞大的数据中挖掘出有价值的信息。

2、然而,对于点击量、购买数量、价格等可量化的数据来说,数据特征的处理和提取是简便可计量的。对于商品评论、电影评论、问卷中不可量化的文本数据来说,数据特征通常是难以归纳的。因此,文本聚类技术应运而生。文本聚类(text clustering)主要是依据著名的聚类假设:同类的文档相似度较大,而不同类的文档相似度较小。作为一种无监督的机器学习方法,聚类由于不需要训练过程,以及不需要预先对文档手工标注类别,因此具有一定的灵活性和较高的自动化处理能力,已经成为对文本信息进行有效地组织、摘要和导航的重要手段。在传统的无监督聚类模型和文本聚类方法中,对tf-idf(词频-逆文档频率)以及word2vec词向量的运用较多。这些方法虽然能快速地从词频和词向量中提取有关文本的特征,但是这些特征无法全面的表示词与词之间的上下文联系,其语义表征较弱。

>3、现有的文本数据研究中,对于问卷中文本数据的分析一般是采用词云作为工具。词云图是文本数据可视化的一种形式,视觉冲击力较强,迎合现在快节奏的生活,能够让人聚焦主旨,眼前一亮。其原理是对输入的文本数据进行词频统计,根据词汇出现频率的不同,按不同比例显示词汇,生成图片,频率高的词汇显示的字号大颜色深,频率低的词汇显示的字号小颜色浅。尽管词云图能够快速的帮助大数据研究者找到文本中的关键词,但它缺乏对于文本数据的语义挖掘,在一定程度上忽略了文本语义当中可能存在的潜在具备研究价值的信息。因此,人们急需一种可以更加清晰的展示文本数据的类别结构,对篇章级、句子级的信息进行处理而非仅仅呈现关键词的可视化文本分析工具。


技术实现思路

1、本专利技术的目的就是为了提供一种提高分析准确性的基于文本聚类语义云的可视化文本数据分类方法。

2、本专利技术的目的可以通过以下技术方案来实现:

3、一种基于文本聚类语义云的可视化文本数据分类方法,包括以下步骤:

4、获取无标注的文本数据集;

5、将所述文本数据集输入至预先构建好的自然语言处理模型中,生成每条文本的句子嵌入,其中在构建所述自然语言处理模型过程中,利用对比学习的方式强化所述自然语言处理模型的预训练阶段;

6、采用聚类算法对所述句子嵌入进行聚类,获得聚类结果;

7、采用语义云方法对所述聚类结果进行可视化处理,获得语义云图。

8、进一步地,所述文本数据集在输入至文本聚类模型前,进行数据清洗和预处理操作。

9、进一步地,所述预训练阶段的具体步骤包括:

10、获得句子集合,采用预训练模型对每个句子进行编码,得到每个句子的隐层表示;

11、对于每个句子,随机生成dropout掩码,并将句子连续输入编码器多次,获得句子以及用其本身作为正例的隐藏表示对;

12、将隐藏表示对输入至对比学习的损失函数,并进行优化,从而更新模型参数,以完成预训练阶段。

13、进一步地,所述对比学习的损失函数为:

14、

15、式中,li为损失值;τ表示温度系数;n为一个小批次中句子对数;sim(·)函数表示计算两个隐层向量的余弦相似度;和分别为一个小批次中每个句子的原句子向量的隐层表示,一个小批次中每个句子对应的正样本的隐层表示以及一个小批次中其余句子及其正样本的隐层表示。

16、进一步地,所述预训练阶段采用bert语言模型作为编码器进行训练。

17、进一步地,所述句子嵌入在输出前采用池化策略进行处理,所述池化策略包括cls、cls_before_pooler、avg、avg_first_last和avg_top2。

18、进一步地,所述聚类算法为k-means聚类算法。

19、进一步地,所述获得语义云图的具体步骤包括:

20、将所述句子嵌入进行降维处理;

21、基于降维后的句子嵌入和聚类结果,计算每朵语义云的云半径;

22、计算每朵语义云的中心点,并基于所述云半径形成语义云图。

23、进一步地,采用t-sne算法对所述句子嵌入进行降维处理。

24、进一步地,所述每朵语义云的云半径的计算公式为:

25、

26、式中,ri为每朵语义云i的云半径;n为语义云数量;ni为每朵语义云最外层数据点的数据量;{xn i,yn i}为每朵语义云i中最外层数据点集合;{xi,yi}每个簇i的中心点。

27、与现有技术相比,本专利技术具有以下有益效果:

28、(1)本专利技术在构建自然语言处理模型过程中,采用对比学习技术改善了在句向量特征空间的表征,因此较好的解决了无监督聚类模型在没有标签作为监督信号的情况下句向量特征空间稠密性难以改变的情况。其句向量空间特征提取相较传统的tf-idf、word2vec等有较大提升,再经过聚类方法将对特征进行聚类并通过语义云图进行可视化展示,显著提升了文本语义分析的准确度。

29、(2)本专利技术提出的方法无需提前对文本数据进行任何标注,大大节省了模型微调时昂贵的标注成本。在允许一定误差的情况下,语义云甚至还能够反过来帮助大数据研究者对大批量数据进行快速标注,用以对相关问题进行更精确的分析。

30、(3)本专利技术提出了自然语言处理模型和聚类算法的框架可以嵌入多种预训练模型和聚类算法,自动完成大量质性数据的文本聚类,大大提升了数据挖掘的效率。

31、(4)本专利技术的语义云可视化工具,全面定义了新的文本数据可视化分析方式,相比于传统的只突出关键词信息的词云,语义云可以从语义信息的层面更好的处理和呈现文本数据中有价值的信息。同时,研究者还可以利用这种语义信息,在语义云中利用“语义信标”的方式有目的性地深度挖掘文本大数据中潜在的信息价值。

本文档来自技高网...

【技术保护点】

1.一种基于文本聚类语义云的可视化文本数据分类方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种基于文本聚类语义云的可视化文本数据分类方法,其特征在于,所述文本数据集在输入至文本聚类模型前,进行数据清洗和预处理操作。

3.根据权利要求1所述的一种基于文本聚类语义云的可视化文本数据分类方法,其特征在于,所述预训练阶段的具体步骤包括:

4.根据权利要求3所述的一种基于文本聚类语义云的可视化文本数据分类方法,其特征在于,所述对比学习的损失函数为:

5.根据权利要求1所述的一种基于文本聚类语义云的可视化文本数据分类方法,其特征在于,所述预训练阶段采用BERT语言模型作为编码器进行训练。

6.根据权利要求1所述的一种基于文本聚类语义云的可视化文本数据分类方法,其特征在于,所述句子嵌入在输出前采用池化策略进行处理,所述池化策略包括cls、cls_before_pooler、avg、avg_first_last和avg_top2。

7.根据权利要求1所述的一种基于文本聚类语义云的可视化文本数据分类方法,其特征在于,所述聚类算法为K-means聚类算法。

8.根据权利要求1所述的一种基于文本聚类语义云的可视化文本数据分类方法,其特征在于,所述获得语义云图的具体步骤包括:

9.根据权利要求8所述的一种基于文本聚类语义云的可视化文本数据分类方法,其特征在于,采用t-SNE算法对所述句子嵌入进行降维处理。

10.根据权利要求8所述的一种基于文本聚类语义云的可视化文本数据分类方法,其特征在于,所述每朵语义云的云半径的计算公式为:

...

【技术特征摘要】

1.一种基于文本聚类语义云的可视化文本数据分类方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种基于文本聚类语义云的可视化文本数据分类方法,其特征在于,所述文本数据集在输入至文本聚类模型前,进行数据清洗和预处理操作。

3.根据权利要求1所述的一种基于文本聚类语义云的可视化文本数据分类方法,其特征在于,所述预训练阶段的具体步骤包括:

4.根据权利要求3所述的一种基于文本聚类语义云的可视化文本数据分类方法,其特征在于,所述对比学习的损失函数为:

5.根据权利要求1所述的一种基于文本聚类语义云的可视化文本数据分类方法,其特征在于,所述预训练阶段采用bert语言模型作为编码器进行训练。

6.根据权利要求1所述的一种基于文本聚类语义云的可视化文本数据分类...

【专利技术属性】
技术研发人员:林晓沈锴成王正凯
申请(专利权)人:上海师范大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1