分类模型训练方法、分类方法、装置和设备制造方法及图纸

技术编号：41327312 阅读：2 留言：0更新日期：2024-05-13 15:05

本申请提供了一种分类模型训练方法、分类方法、装置和设备。该分类模型训练方法包括：响应于训练指令，基于预先建立的风险文本集计算至少一个样本对象对应的交互风险指标值；根据各交互风险指标值，将样本对象划分为预设数量个集群；基于样本对象的原始特征信息进行所有样本对象的群体关联，得到各样本对象对应的优化特征信息；原始特征信息为预先采集得到；将携带有样本对象所在集群对应集群标签的优化特征信息输入初始的集成分类模型，得到训练完成的集成分类模型。本申请的方法能够丰富用于描述样本对象的特征，使得最终训练得到的集成分类模型的预测结果更准确。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及计算机，尤其涉及一种分类模型训练方法、分类方法、装置和设备。

技术介绍

1、上市公司的财务欺诈行为会对投资者、资本市场甚至社会环境造成严重的不良影响，因此，对财务欺诈的有效识别是投资者、中介机构和监管部门共同关注的重要课题。然而，对财务欺诈识别的分析研究存在诸多局限性。

2、常见的财务欺诈识别、风险识别方法因为缺少有效的识别指标，对应的风险识别结果往往不够准确，从而无法实现有效的风险识别。

技术实现思路

1、本申请提供一种分类模型训练方法、分类方法、装置和设备，用以解决现有技术中风险识别准确度低的问题。

2、第一方面，本申请提供一种分类模型训练方法，包括：

3、响应于训练指令，基于预先建立的风险文本集计算至少一个样本对象对应的交互风险指标值；

4、根据各所述交互风险指标值，将所述样本对象划分为预设数量个集群；

5、基于所述样本对象的原始特征信息进行所有所述样本对象的群体关联，得到各所述样本对象对应的优化特征信息；所述原始特征信息为预先采集得到；

6、将携带有所述样本对象所在集群对应集群标签的优化特征信息输入初始的集成分类模型，得到训练完成的集成分类模型。

7、在其中一个实施例中，所述响应于训练指令，基于预先建立的风险文本集计算至少一个样本对象对应的交互风险指标值，包括：

8、响应于所述训练指令，获取所述训练指令对应样本对象的媒体文本信息；

9、将所述媒体文本信息与所

10、在其中一个实施例中，所述训练指令携带有时期标签；

11、所述响应于所述训练指令，获取所述训练指令对应样本对象的媒体文本信息，包括：

12、根据所述时期标签确定所述训练指令对应的目标时间段；

13、获取所述目标时间段内所述样本对象的媒体文本信息。

14、在其中一个实施例中，所述根据各所述交互风险指标值，将所述样本对象划分为预设数量个集群，包括：

15、将所述交互风险指标值与依次排列的预设数量个指标值范围进行比对匹配；所述指标值范围与所述集群一一对应；

16、根据所述交互风险指标值符合的指标值范围，确定所述交互风险指标值对应的集群。

17、在其中一个实施例中，所述基于所述样本对象的原始特征信息进行所有所述样本对象的群体关联，得到各所述样本对象对应的优化特征信息，包括：

18、基于各所述样本对象的原始特征信息，构建两两所述样本对象之间的相似度信息；

19、根据所述相似度信息，建立任一样本对象与其余所有样本对象的群体关联结构；

20、针对所述群体关联结构形成的至少一个分布群体，根据各所述分布群体内样本对象的原始特征信息，处理得到所述样本对象对应的群体特征信息；所述分布群体包含至少一个所述样本对象；

21、将所述原始特征信息和所述群体特征信息作为所述优化特征信息。

22、在其中一个实施例中，所述将携带有所述样本对象所在集群对应集群标签的优化特征信息输入初始的集成分类模型，得到训练完成的集成分类模型之前，包括：

23、根据各所述样本对象所在集群，生成所述优化特征信息对应的集群标签；

24、从至少一个学习算法中确定出目标学习算法，并采用所述目标学习算法得到初始的集成分类模型；所述集成分类模型通过集成至少两个底层模型得到。

25、在其中一个实施例中，所述将携带有所述样本对象所在集群对应集群标签的优化特征信息输入初始的集成分类模型，得到训练完成的集成分类模型，包括：

26、按照预设比例，将携带有所述集群标签的优化特征信息分为训练集和测试集；

27、将所述训练集输入初始的集成分类模型，得到初次训练得到的集成分类模型；

28、将所述测试集输入初次训练得到的集成分类模型，得到各所述样本对象的初次分类结果；

29、根据所述初次分类结果，处理得到所述目标学习算法的预测均值；

30、根据所述初次分类结果和所述集群标签，计算各所述样本对象对应的预测标准差，形成所述目标学习算法对应的预测标准差集合；

31、从所述预测标准差集合中，选取出预设迭代数量个预测标准差对应的优化特征信息加入所述训练集中，形成新的训练集；所述优化特征信息携带有根据所述预测均值生成的初次分类标签；

32、将新的训练集输入初次训练得到的集成分类模型，得到二次训练得到的集成分类模型，以此类推进行训练集的迭代更新，直到最新的训练集满足预设条件，则采用最新的训练集和所述测试集得到训练完成的集成分类模型。

33、在其中一个实施例中，所述按照预设比例，将携带有所述集群标签的优化特征信息分为训练集和测试集之后，还包括：

34、根据所述训练集中的优化特征信息和所述测试集中的优化特征信息，计算得到样本差值；

35、所述从所述预测标准差集合中，选取出预设迭代数量个预测标准差对应的优化特征信息加入所述训练集中，形成新的训练集之后，还包括：

36、根据新的训练集中的优化特征信息和原始的训练集中的优化特征信息，计算得到迭代差值；

37、所述将新的训练集输入初次训练得到的集成分类模型，得到二次训练得到的集成分类模型，以此类推进行训练集的迭代更新，直到最新的训练集满足预设条件，则采用最新的训练集和所述测试集得到训练完成的集成分类模型，包括：

38、将新的训练集输入初次训练得到的集成分类模型，得到二次训练得到的集成分类模型，以此类推进行训练集的迭代更新，当最新的训练集对应的迭代差值达到所述样本差值时，采用最新的训练集和所述测试集得到训练完成的集成分类模型。

39、第二方面，本申请还提供了一种分类方法，包括：

40、响应于分类指令，采集所述分类指令对应目标对象的原始特征信息；

41、将所述目标对象的原始特征信息输入采用如权利要求1-9中任一项所述的分类模型训练方法训练得到的集成分类模型，得到分类结果。

42、第三方面，本申请还提供了一种分类模型训练装置，包括：

43、计算模块，用于响应于训练指令，基于预先建立的风险文本集计算至少一个样本对象对应的交互风险指标值；

44、划分模块，用于根据各所述交互风险指标值，将所述样本对象划分为预设数量个集群；

45、关联模块，用于基于所述样本对象的原始特征信息进行所有所述样本对象的群体关联，得到各所述样本对象对应的优化特征信息；所述原始特征信息为预先采集得到；

46、训练模块，用于将携带有所述样本对象所在集群对应集群标签的优化特征信息输入初始的集成分类模型，得到训练完成的集成分类模型。

47、第四方面，本申请还提供了一种分类装置，包括：<本文档来自技高网...

【技术保护点】

1.一种分类模型训练方法，其特征在于，包括:

2.根据如权利要求1所述的方法，其特征在于，所述响应于训练指令，基于预先建立的风险文本集计算至少一个样本对象对应的交互风险指标值，包括：

3.根据如权利要求1所述的方法，其特征在于，所述训练指令携带有时期标签；

4.根据如权利要求1所述的方法，其特征在于，所述根据各所述交互风险指标值，将所述样本对象划分为预设数量个集群，包括：

5.根据如权利要求1所述的方法，其特征在于，所述基于所述样本对象的原始特征信息进行所有所述样本对象的群体关联，得到各所述样本对象对应的优化特征信息，包括：

6.根据如权利要求1所述的方法，其特征在于，所述将携带有所述样本对象所在集群对应集群标签的优化特征信息输入初始的集成分类模型，得到训练完成的集成分类模型之前，包括：

7.根据如权利要求6所述的方法，其特征在于，所述将携带有所述样本对象所在集群对应集群标签的优化特征信息输入初始的集成分类模型，得到训练完成的集成分类模型，包括：

8.根据如权利要求7所述的方法，其特征在于，所述按

9.一种分类方法，其特征在于，包括：

10.一种分类模型训练装置，其特征在于，包括：

11.一种分类装置，其特征在于，包括：

12.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至8中任一项所述的分类模型训练方法或权利要求10中所述的分类方法的步骤。

13.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至8中任一项所述的分类模型训练方法或权利要求9中所述的分类方法的步骤。

14.一种计算机程序产品，包括计算机程序，其特征在于，该计算机程序被处理器执行时实现权利要求1至8中任一项所述的分类模型训练方法或权利要求9中所述的分类方法的步骤。

...

【技术特征摘要】

1.一种分类模型训练方法，其特征在于，包括:

2.根据如权利要求1所述的方法，其特征在于，所述响应于训练指令，基于预先建立的风险文本集计算至少一个样本对象对应的交互风险指标值，包括：

3.根据如权利要求1所述的方法，其特征在于，所述训练指令携带有时期标签；

4.根据如权利要求1所述的方法，其特征在于，所述根据各所述交互风险指标值，将所述样本对象划分为预设数量个集群，包括：

7.根据如权利要求6所述的方法，其特征在于，所述将携带有所述样本对象所在集群对应集群标签的优化特征信息输入初始的集成分类模型，得到训练完成...

【专利技术属性】
技术研发人员：刘庆富，陆颂华，郑凯鑫，王晓平，毛宇星，
申请(专利权)人：海通证券股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人