一种基于文本聚类语义云的可视化文本数据分类方法技术

技术编号:39962482 阅读:38 留言:0更新日期:2024-01-09 00:09
本发明专利技术涉及一种基于文本聚类语义云的可视化文本数据分类方法,包括以下步骤:获取无标注的文本数据集;将所述文本数据集输入至预先构建好的自然语言处理模型中,生成每条文本的句子嵌入,其中在构建所述自然语言处理模型过程中,利用对比学习的方式强化所述自然语言处理模型的预训练阶段;采用聚类算法对所述句子嵌入进行聚类,获得聚类结果;采用语义云方法对所述聚类结果进行可视化处理,获得语义云图。与现有技术相比,本发明专利技术具有全程无需标签和微调、语义分析准确率高等优点。

【技术实现步骤摘要】

本专利技术涉及自然语言处理领域,尤其是涉及一种基于文本聚类语义云的可视化文本数据分类方法


技术介绍

1、在大数据环境下,容易产生出大量鱼龙混杂、良莠不齐的数据,这些数据很难依靠人工对其进行分析。因此,研究者们利用数据挖掘技术以及相应的可视化分析工具用以解决此类问题。在数据挖掘技术中,经常利用聚类方法对拥有多个维度特征的对象进行分析,按照某个特定标准(如距离)把一个数据集分割成不同的类或簇,使得同一个簇内的数据对象的相似性尽可能大,同时不在同一个簇中的数据对象的差异性也尽可能地大。通过聚类,我们可以整体把握一个数据族群中不同部分的区别和联系,在数量庞大的数据中挖掘出有价值的信息。

2、然而,对于点击量、购买数量、价格等可量化的数据来说,数据特征的处理和提取是简便可计量的。对于商品评论、电影评论、问卷中不可量化的文本数据来说,数据特征通常是难以归纳的。因此,文本聚类技术应运而生。文本聚类(text clustering)主要是依据著名的聚类假设:同类的文档相似度较大,而不同类的文档相似度较小。作为一种无监督的机器学习方法,聚类由于不需要训练过程,本文档来自技高网...

【技术保护点】

1.一种基于文本聚类语义云的可视化文本数据分类方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种基于文本聚类语义云的可视化文本数据分类方法,其特征在于,所述文本数据集在输入至文本聚类模型前,进行数据清洗和预处理操作。

3.根据权利要求1所述的一种基于文本聚类语义云的可视化文本数据分类方法,其特征在于,所述预训练阶段的具体步骤包括:

4.根据权利要求3所述的一种基于文本聚类语义云的可视化文本数据分类方法,其特征在于,所述对比学习的损失函数为:

5.根据权利要求1所述的一种基于文本聚类语义云的可视化文本数据分类方法,其特征在于,所述...

【技术特征摘要】

1.一种基于文本聚类语义云的可视化文本数据分类方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种基于文本聚类语义云的可视化文本数据分类方法,其特征在于,所述文本数据集在输入至文本聚类模型前,进行数据清洗和预处理操作。

3.根据权利要求1所述的一种基于文本聚类语义云的可视化文本数据分类方法,其特征在于,所述预训练阶段的具体步骤包括:

4.根据权利要求3所述的一种基于文本聚类语义云的可视化文本数据分类方法,其特征在于,所述对比学习的损失函数为:

5.根据权利要求1所述的一种基于文本聚类语义云的可视化文本数据分类方法,其特征在于,所述预训练阶段采用bert语言模型作为编码器进行训练。

6.根据权利要求1所述的一种基于文本聚类语义云的可视化文本数据分类...

【专利技术属性】
技术研发人员:林晓沈锴成王正凯
申请(专利权)人:上海师范大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1