无监督文本分类方法、装置、设备、存储介质及产品制造方法及图纸

技术编号:44580159 阅读:14 留言:0更新日期:2025-03-14 12:42
本发明专利技术提供一种无监督文本分类方法、装置、设备、存储介质及产品,涉及人工智能技术领域,方法包括:获取待分类文本集合;将待分类文本集合划分为待标注样本集和待标注文本集;基于大语言模型,对待标注样本集进行分类标注,获得标注样本集;基于标注样本集,对初始文本分类器进行训练,获得文本分类器;基于文本分类器,对待标注文本集进行分类标注,获得文本分类结果。通过上述方式,可避免相似度计算复杂、聚类设置困难以及迁移学习效果不佳等现象导致的分类效率和分类准确度低的问题,可有效提高文本分类效率和文本分类结果的准确率。

【技术实现步骤摘要】

本专利技术涉及人工智能,尤其涉及一种无监督文本分类方法、装置、设备、存储介质及产品


技术介绍

1、文本分类作为一种自然语言处理任务,在科技文献处理和服务中发挥着重要作用。文本分类往往需要大规模的、具有广泛代表性的标注数据作为训练语料,但是训练语料的选择和标注都存在一定的困难,从而会影响文本分类任务的执行,因此,无监督文本分类的需求较为强烈。

2、在一些相关技术中,无监督文本分类方案有三种。

3、一是基于相似度的文本分类方法,这种方法尝试通过文本表示和类别标签之间的相似度来进行分类。但是,由于存在类别标签较短,而待分类文本较长的问题,因此往往需要结合知识库、已有语料或大语言模型,对类别标签或代表类别的关键词进行扩充,将类别标签扩充为系列标签描述或文本描述,也有一些方法通过将待分类文本和标签表示为同一空间下的稀疏或稠密的向量表示。

4、二是在无监督聚类的基础上,再使用其他算法进行处理,从而达到分类效果。

5、三是基于迁移的方法,将已经训练好的文本分类模型在不同领域或不同语言之间进行迁移,从而实现在特定领域或特定本文档来自技高网...

【技术保护点】

1.一种无监督文本分类方法,其特征在于,包括:

2.根据权利要求1所述的无监督文本分类方法,其特征在于,所述大语言模型包括第一大语言模型和第二大语言模型,所述待标注样本集包括待标注文本;

3.根据权利要求1所述的无监督文本分类方法,其特征在于,所述大语言模型包括第一大语言模型、第二大语言模型和第三大语言模型,所述待标注样本集包括待标注文本;

4.根据权利要求1所述的无监督文本分类方法,其特征在于,所述获取待分类文本集合,包括:

5.根据权利要求1所述的无监督文本分类方法,其特征在于,所述标注样本集包括临时训练集和临时校验集;

6...

【技术特征摘要】

1.一种无监督文本分类方法,其特征在于,包括:

2.根据权利要求1所述的无监督文本分类方法,其特征在于,所述大语言模型包括第一大语言模型和第二大语言模型,所述待标注样本集包括待标注文本;

3.根据权利要求1所述的无监督文本分类方法,其特征在于,所述大语言模型包括第一大语言模型、第二大语言模型和第三大语言模型,所述待标注样本集包括待标注文本;

4.根据权利要求1所述的无监督文本分类方法,其特征在于,所述获取待分类文本集合,包括:

5.根据权利要求1所述的无监督文本分类方法,其特征在于,所述标注样本集包括临时训练集和临时校验集;

6.根据权利要求5所述的无监督文本分类方法,其特征在于, ...

【专利技术属性】
技术研发人员:张运良王莉军李琳娜谭晓宇李子由王力
申请(专利权)人:中国科学技术信息研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1