部分观测下多标签分类的系统、方法及电子设备技术方案

技术编号：40508404 阅读：5 留言：0更新日期：2024-03-01 13:23

本发明专利技术公开了一种部分观测下多标签分类的系统、方法及电子设备，该系统包括：获取模块，用于获取部分观测下多标签数据集；构建模块，用于基于强化学习构建分类模型；分类模块，用于通过分类模型对部分观测下多标签数据集中的数据进行标签分类。本发明专利技术可以获取部分观测下多标签数据集，并基于强化学习构建分类模型，进一步的，可以对分类模型的策略网络以及价值函数进行迭代训练来进行更新优化，以降低其局限性，提高通用性，进而便于分类模块通过分类模型对获取的部分观测下多标签数据集中的数据进行精准的标签分类，从而提高部分观测下多标签分类的系统对标签分类的精确性。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及人工智能，尤其是涉及一种部分观测下多标签分类的系统、方法及电子设备。

技术介绍

1、随着大规模高质量人工观测数据集构建的难度增加，越来越多的研究者开始关注弱监督学习。根据不同的假设，弱监督学习包括不同的设置。其中，噪声标签学习是指利用包含标签噪声的数据集，包括假阳性和假阴性的情况；部分标签学习是指每个训练实例都观测了一组候选标签，在候选标签中只有一个是目标标签；半监督学习是指利用少量的完全标记数据和一些未标记数据；部分正例标注学习是指使用不完整的正样本和一组未标记样本来学习二元分类器，而没有明确标记的负样本。

2、在相关现有技术中，处理观测问题的方法有多类，比如，在处理具有部分监督的单标签分类任务时可以使用部分条件随机场；在处理多标签分类时，大多数使用的是部分正例标注学习。部分正例标注学习学习方法大致可以分为三类：成本敏感方法，在实现无偏风险估计之前假设数据分布；表示聚类方法，利用对比学习生成伪正例/负例标签；样本选择方法，致力于根据启发式方法或样本置信度从未标记数据中找到可能的负例。同时，在构建强化学习模型方面也有多种方法，比如，可以训练一个作为噪声句子过滤器的代理模型，将开发集上的性能变化或所选样本的概率作为奖励，并采用策略梯度进行更新。

3、然而，在上述相关现有技术中，对于标签数据集而言，事先知道或估计标签分布是不现实的，因此很难为数十个或数百个目标类别学习定义明确的聚类，并且由于标签存在严重的不平衡性，在数据集中负样本选择效率低下，部分观测问题的设定局限性较大。同时，目前的强化学习在

技术实现思路

1、本专利技术旨在至少解决现有技术中存在的技术问题之一。

2、为此，本专利技术的一个目的在于提出一种部分观测下多标签分类的系统。

3、为此，本专利技术的第二个目的在于提出一种部分观测下多标签分类的方法。

4、为此，本专利技术的第三个目的在于提出一种电子设备。

5、为此，本专利技术的第四个目的在于提出一种计算机可读存储介质。

6、为实现上述目的，本专利技术第一方面的实施例公开了一种部分观测下多标签分类的系统，包括：获取模块，用于获取部分观测下多标签数据集，其中，所述多标签数据集中的部分实例的类别已被观测，其余实例的类别未知；构建模块，用于基于强化学习构建分类模型，其中，所述分类模型包括：状态模块、动作模块、策略模块和奖励模块，所述策略模块是基于目标参数构建的神经网络多标签分类器；分类模块，用于通过所述分类模型对所述部分观测下多标签数据集中的数据进行标签分类。

7、根据本专利技术实施例的部分观测下多标签分类的系统，通过设置获取模块、构建模块以及分类模块，可以获取部分观测下多标签数据集，并基于强化学习构建分类模型，进一步的，可以对分类模型的策略网络以及价值函数进行迭代训练来进行更新优化，以降低其局限性，提高通用性，进而便于分类模块通过分类模型对获取的部分观测下多标签数据集中的数据进行精准的标签分类，从而提高部分观测下多标签分类的系统对标签分类的精确性。

8、另外，根据本专利技术上述实施例的部分观测下多标签分类的系统还可以具有如下附加的技术特征：

9、在一些示例中，所述状态模块包括：待标记实例的潜在信息，所述潜在信息由所述待标记实例的特征组成，所述特征包括从神经网络中导出的连续实值向量。

10、在一些示例中，所述动作模块包括每个实例对应的每个类别的标签，所述标签包括真或未知。

11、在一些示例中，所述策略模块包括策略网络，所述策略网络用于确定所述策略网络的输出概率，以确定在当前状态下每个实例的每个动作的条件概率。

12、在一些示例中，所述奖励模块包括微观奖励函数和宏观奖励函数，所述微观奖励函数用于输出微观奖励以估计每个实例的每个动作的即时值，所述宏观奖励函数用于输出宏观奖励以表征每个实例的整体动作序列性能。

13、在一些示例中，所述微观奖励函数用于根据可训练的价值函数对每个动作的置信度计算每个实例的每个动作的奖励，所述微观奖励中包括所述价值函数计算的每个实例的类别为真的概率及该实例对应的夹取函数；若所述概率小于第一预设值，则对应的夹取函数的输出为所述第一预设值；若所述概率大于第二预设值，则对应的夹取函数的输出为所述第二预设值；若所述概率介于所述第一预设值和所述第二预设值之间，则其对应的夹取函数的输出为所述概率，其中，所述第一预设值小于所述第二预设值。

14、在一些示例中，所述宏观奖励函数基于召回率指标对真实标签和预测的标签类别进行评分计算，将得到的召回率得分作为所述宏观奖励。

15、在一些示例中，所述奖励模块还用于根据所述微观奖励与所述宏观奖励计算完整奖励。

16、在一些示例中，所述的部分观测下多标签分类的系统，还包括：训练模块，用于对所述价值函数和策略网络进行迭代训练。

17、在一些示例中，所述训练模块对所述价值函数进行迭代训练，包括：通过学习观测数据来监督模型拟合标签注释的分布，以获取监督目标；基于所述监督目标，采用梯度下降的方式来训练更新所述价值函数的参数。

18、在一些示例中，所述训练模块对所述策略网络进行迭代训练，包括：确定所述策略网络的最大化预期奖励；以最大化预期奖励为所述策略网络的优化目标，并确定目标梯度；基于目标梯度，采用预设的策略梯度算法对策略网络进行训练优化。

19、为实现上述目的，本专利技术第二方面的实施例公开了一种部分观测下多标签分类的方法，包括：获取部分观测下多标签数据集，其中，所述多标签数据集中的部分实例的类别已被观测，其余实例的类别未知；基于强化学习构建分类模型，其中，所述分类模型包括：状态模块、动作模块、策略模块和奖励模块，所述策略模块是基于目标参数构建的神经网络多标签分类器；通过所述分类模型对所述部分观测下多标签数据集中的数据进行标签分类。

20、根据本专利技术实施例的部分观测下多标签分类的方法，可以获取部分观测下多标签数据集，并基于强化学习构建分类模型，进一步的，可以对分类模型的策略网络以及价值函数进行迭代训练来进行更新优化，以降低其局限性，提高通用性，进而便于通过分类模型对获取的部分观测下多标签数据集中的数据进行精准的标签分类，从而提高部分观测下多标签分类的系统对标签分类的精确性。

21、为实现上述目的，本专利技术第三方面实施例公开了一种电子设备，该电子设备包括：如本专利技术上述第一方面实施例所述的部分观测下多标签分类的系统；或者，处理器、存储器，以及存储在存储器上并可在处理器上运行的部分观测下多标签分类的程序，所述部分观测下多标签分类的程序被处理器执行时实现如本专利技术上述第二方面实施例所述的部分观测下多标签分类的方法。

22、根据本专利技术实施例的电子设备，可以获取部分观测下多标签数据集，并基于强化学习构建分类模型，进一步的，可以对分类模型的策略网络以及价值函数进行迭本文档来自技高网...

【技术保护点】

1.一种部分观测下多标签分类的系统，其特征在于，包括：

2.根据权利要求1所述的部分观测下多标签分类的系统，其特征在于，所述状态模块包括：待标记实例的潜在信息，所述潜在信息由所述待标记实例的特征组成，所述特征包括从神经网络中导出的连续实值向量。

3.根据权利要求1所述的部分观测下多标签分类的系统，其特征在于，所述动作模块包括每个实例对于每个类别的标签，所述标签包括真或未知。

4.根据权利要求1所述的部分观测下多标签分类的系统，其特征在于，所述策略模块包括策略网络，所述策略网络用于确定所述策略网络的输出概率，以确定在当前状态下每个实例的每个动作的条件概率。

5.根据权利要求1所述的部分观测下多标签分类的系统，其特征在于，所述奖励模块包括微观奖励函数和宏观奖励函数，所述微观奖励函数用于输出微观奖励以估计每个实例的每个动作的即时值，所述宏观奖励函数用于输出宏观奖励以表征每个实例的整体动作序列性能。

6.根据权利要求5所述的部分观测下多标签分类的系统，其特征在于，所述微观奖励函数用于根据可训练的价值函数对每个动作的置信度计算每个

7.根据权利要求6所述的部分观测下多标签分类的系统，其特征在于，所述宏观奖励函数基于召回率指标对真实标签和预测的标签类别进行评分计算，将得到的召回率得分作为所述宏观奖励。

8.根据权利要求7所述的部分观测下多标签分类的系统，其特征在于，所述奖励模块还用于根据所述微观奖励与所述宏观奖励计算完整奖励。

9.根据权利要求6所述的部分观测下多标签分类的系统，其特征在于，还包括：

10.根据权利要求9所述的部分观测下多标签分类的系统，其特征在于，所述训练模块对所述价值函数进行迭代训练，包括：

11.根据权利要求9所述的部分观测下多标签分类的方法，其特征在于，所述训练模块对所述策略网络进行迭代训练，包括：

12.一种部分观测下多标签分类的方法，其特征在于，包括：

13.一种电子设备，其特征在于，包括：

14.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有部分观测下多标签分类的程序，所述部分观测下多标签分类的程序被处理器执行时实现如权利要求12所述的部分观测下多标签分类的方法。

...

【技术特征摘要】

1.一种部分观测下多标签分类的系统，其特征在于，包括：

3.根据权利要求1所述的部分观测下多标签分类的系统，其特征在于，所述动作模块包括每个实例对于每个类别的标签，所述标签包括真或未知。

6.根据权利要求5所述的部分观测下多标签分类的系统，其特征在于，所述微观奖励函数用于根据可训练的价值函数对每个动作的置信度计算每个实例的每个动作的奖励，所述微观奖励中包括所述价值函数计...

【专利技术属性】
技术研发人员：请求不公布姓名，请求不公布姓名，请求不公布姓名，
申请(专利权)人：北京通用人工智能研究院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人