基于原型迁移和特征对齐的文本类别发现方法及相关装置制造方法及图纸

技术编号：40703098 阅读：3 留言：0更新日期：2024-03-22 11:01

本发明专利技术属于自然语言处理技术领域，公开了一种基于原型迁移和特征对齐的文本类别发现方法及相关装置，包括调用预训练完成的特征提取器，对文本中各文本数据进行特征提取，得到文本中各文本数据的类别特征；采用无监督的聚类方法将文本中各文本数据的类别特征进行聚类，得到各文本数据的聚类结果，并基于各文本数据的聚类结果得到各文本数据的类别。本发明专利技术利用类别原型进行有标注数据和无标注数据间的知识迁移，并通过特征对齐为无标注数据学习到好的特征表示，便于后续通过聚类算法发现测试数据中包含的新类别，该方法可以有效地提升模型的表达能力和知识迁移能力，在新类别发现领域有很大的突破。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于自然语言处理，涉及一种基于原型迁移和特征对齐的文本类别发现方法及相关装置。

技术介绍

1、新类别发现主要用于在真实世界中仅利用少量已知类别的有标注文本数据，来对大量无标注文本数据中包含的新类别和已知类别同时进行发现与识别。由于包含新类别的文本数据全部为无标注数据，因此传统的分类模型无法对其进行处理，导致新类别被错误地分类到已知类别，从而影响分类的整体性能。

2、为了发现无标注数据中包含的新类别，目前学术界主要采用两大类方法，第一类是基于伪标签学习的方法，即通过为无标注数据产生伪标签来进行有监督训练，例如基于聚类的伪标签生成方法以及基于三模型的鲁棒伪标签生成方法等。第二类是基于自监督表示学习的方法，即通过自监督的方法产生监督信息来进行模型的训练，例如使用近邻对比学习来训练模型。

3、尽管上述方法在新类发现任务中都取得了不错的效果，其仍然存在以下的缺点：上述模型仅仅关注于每个类别单独的学习，而忽略了已知类别和新类别之间的语义相关性，这使得上述模型无法充分利用关于已知类别的知识去指导新类别的发现与识别，从而影响了模型的整体识别性能。

技术实现思路

1、本专利技术的目的在于克服上述现有技术的缺点，提供一种基于原型迁移和特征对齐的文本类别发现方法及相关装置。

2、为达到上述目的，本专利技术采用以下技术方案予以实现：

3、本专利技术第一方面，提供一种基于原型迁移和特征对齐的文本类别发现方法，包括：调用预训练完成的特征提取器，对文本中

4、可选的，所述采用初始特征提取器对有标注文本数据样本进行特征提取，并基于有标注文本数据样本特征和有标注文本数据样本的真实标签得到有标注类别原型包括：

5、通过下式得到有标注类别原型：

6、

7、其中，pl为有标注类别原型集和，为第j个有标注类别原型，m为已知类别的数量，为属于第j个已知类别的有标注文本数据样本组成的集合，||符号表示集合内元素的数量，∑为求和运算，θ为初始特征提取器fθ的参数，为第i个有标注文本数据样本，为的无标注文本数据样本特征；

8、所述采用初始特征提取器对无标注文本数据样本进行特征提取，并基于无标注文本数据样本特征进行无监督聚类得到无标注类别原型包括：

9、基于无标注文本数据样本特征，通过无监督的kmeans聚类算法对无标注文本数据样本特征进行无监督聚类，得到无标注类别原型：

10、

11、其中，pu为无标注类别原型集和，为无监督聚类得到的第j个聚类簇中心的向量表示，k为已知类别和新类别的数量总和。

12、可选的，所述采用有标注类别原型对无标注类别原型进行校准，得到校准类别原型包括：

13、使用负的欧式距离计算第i个无标注类别原型和每一个有标注类别原型的相似度，得到相似度集合si：

14、

15、选取相似度集合si中和第i个无标注类别原型相似度最高的k个有标注类别原型进行知识迁移，并将选取的有标注类别原型的下标集合记为ti：

16、ti＝{j∣∣sij∈topk(si)}

17、其中，sij表示相似度集合si中的第j个元素，topk表示选取集合中最大的k个元素，k为预先设定的超参数；

18、则第i个无标注类别原型的选取相似度集合a′i为：

19、s′i＝{sij∣∣j∈ti}

20、通过下式计算选取的有标注类别原型的归一化迁移权重wij：

21、

22、其中，exp为指数函数；

23、根据所述归一化迁移权重wij，使用选取的有标注类别原型对无标注类别原型进行加权更新，得到第i个无标注类别原型经过校准得到的校准类别原型

24、

25、其中，α为预先设定的加权系数。

26、可选的，所述使得无标注文本数据样本特征靠近对应有标注类别原型的聚类损失为：

27、

28、其中，为使得无标注文本数据样本特征靠近对应有标注类别原型的聚类损失，n为无标注文本数据样本的数量，σ为求和运算，m为已知类别的数量，为第j个无标注文本数据样本，为对应有标注类别原型，θ为初始特征提取器fθ的参数，为的无标注文本数据样本特征；表示第个聚类簇内无标注文本数据样本组成的集合，∈符号表示样本属于某个集合，||||2符号表示两个向量间的欧式距离，为映射关系函数，表示有标注类别原型和无标注类别原型间的对应关系，即第i个有标注类别原型对应于第个无标注类别原型；

29、

30、其中，为有标注类别原型和无标注类别原型间所有可能的映射关系集合，为中的一个映射关系，为映射关系下第i个有标注类别原型对应的无标注类别原型。

31、可选的，所述使得无标注文本数据样本特征靠近对应校准类别原型的聚类损失为：

32、

33、其中，为使得无标注文本数据样本特征靠近对应校准类别原型的聚类损失，n为无标注文本数据样本的数量，k为已知类别和新类别的数量总和，为第j个无标注文本数据样本，为无标注文本数据样本特征聚类得到的第i个聚类簇中无标注文本数据样本组成的集合，为第i个无标注类别原型经过校准得到的校准类别原型。

34、可选的，所述使得无标注文本数据样本特征靠近增强无标注文本数据样本特征的对比学习损失为：

35、

36、其中，为使得无标注文本数据样本特征靠近增强无标注文本数据样本特征的对比学习损失，n为无标注文本数据样本的数量，exp为指数函数，∑为求和运算，为第j个无标注文本数据样本的无标注文本数据样本特征，为第j个无标注文本数据样本经过样本数据增强后的增强无标注文本数据样本特征；a为数据增强函数，τ为预先设定的温度系数，bj为无标注文本数据样本同训练批次内的其他无标注文本数据样本组成的集合；为第本文档来自技高网...

【技术保护点】

1.一种基于原型迁移和特征对齐的文本类别发现方法，其特征在于，包括：

2.根据权利要求1所述的基于原型迁移和特征对齐的文本类别发现方法，其特征在于，所述采用初始特征提取器对有标注文本数据样本进行特征提取，并基于有标注文本数据样本特征和有标注文本数据样本的真实标签得到有标注类别原型包括：

3.根据权利要求1所述的基于原型迁移和特征对齐的文本类别发现方法，其特征在于，所述采用有标注类别原型对无标注类别原型进行校准，得到校准类别原型包括：

4.根据权利要求1所述的基于原型迁移和特征对齐的文本类别发现方法，其特征在于，所述使得无标注文本数据样本特征靠近对应有标注类别原型的聚类损失为：

5.根据权利要求1所述的基于原型迁移和特征对齐的文本类别发现方法，其特征在于，所述使得无标注文本数据样本特征靠近对应校准类别原型的聚类损失为：

6.根据权利要求1所述的基于原型迁移和特征对齐的文本类别发现方法，其特征在于，所述使得无标注文本数据样本特征靠近增强无标注文本数据样本特征的对比学习损失为：

7.根据权利要求1所述的基于原型迁移

8.一种基于原型迁移和特征对齐的文本类别发现系统，其特征在于，包括：

9.一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述基于原型迁移和特征对齐的文本类别发现方法的步骤。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述基于原型迁移和特征对齐的文本类别发现方法的步骤。

...

【技术特征摘要】

1.一种基于原型迁移和特征对齐的文本类别发现方法，其特征在于，包括：

6.根据权利要...

【专利技术属性】
技术研发人员：田锋，安文斌，李睿，武亚强，
申请(专利权)人：西安交通大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人