【技术实现步骤摘要】
本专利技术涉及人工智能,尤其涉及一种无监督文本分类方法、装置、设备、存储介质及产品。
技术介绍
1、文本分类作为一种自然语言处理任务,在科技文献处理和服务中发挥着重要作用。文本分类往往需要大规模的、具有广泛代表性的标注数据作为训练语料,但是训练语料的选择和标注都存在一定的困难,从而会影响文本分类任务的执行,因此,无监督文本分类的需求较为强烈。
2、在一些相关技术中,无监督文本分类方案有三种。
3、一是基于相似度的文本分类方法,这种方法尝试通过文本表示和类别标签之间的相似度来进行分类。但是,由于存在类别标签较短,而待分类文本较长的问题,因此往往需要结合知识库、已有语料或大语言模型,对类别标签或代表类别的关键词进行扩充,将类别标签扩充为系列标签描述或文本描述,也有一些方法通过将待分类文本和标签表示为同一空间下的稀疏或稠密的向量表示。
4、二是在无监督聚类的基础上,再使用其他算法进行处理,从而达到分类效果。
5、三是基于迁移的方法,将已经训练好的文本分类模型在不同领域或不同语言之间进行迁移,从而
...【技术保护点】
1.一种无监督文本分类方法,其特征在于,包括:
2.根据权利要求1所述的无监督文本分类方法,其特征在于,所述大语言模型包括第一大语言模型和第二大语言模型,所述待标注样本集包括待标注文本;
3.根据权利要求1所述的无监督文本分类方法,其特征在于,所述大语言模型包括第一大语言模型、第二大语言模型和第三大语言模型,所述待标注样本集包括待标注文本;
4.根据权利要求1所述的无监督文本分类方法,其特征在于,所述获取待分类文本集合,包括:
5.根据权利要求1所述的无监督文本分类方法,其特征在于,所述标注样本集包括临时训练集和临时校验
6...
【技术特征摘要】
1.一种无监督文本分类方法,其特征在于,包括:
2.根据权利要求1所述的无监督文本分类方法,其特征在于,所述大语言模型包括第一大语言模型和第二大语言模型,所述待标注样本集包括待标注文本;
3.根据权利要求1所述的无监督文本分类方法,其特征在于,所述大语言模型包括第一大语言模型、第二大语言模型和第三大语言模型,所述待标注样本集包括待标注文本;
4.根据权利要求1所述的无监督文本分类方法,其特征在于,所述获取待分类文本集合,包括:
5.根据权利要求1所述的无监督文本分类方法,其特征在于,所述标注样本集包括临时训练集和临时校验集;
6.根据权利要求5所述的无监督文本分类方法,其特征在于, ...
【专利技术属性】
技术研发人员:张运良,王莉军,李琳娜,谭晓宇,李子由,王力,
申请(专利权)人:中国科学技术信息研究所,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。