一种近线的模型自迭代方法、装置及计算机可读记录介质制造方法及图纸

技术编号：40592969 阅读：4 留言：0更新日期：2024-03-12 21:54

本发明专利技术公开一种近线的模型自迭代方法、装置及计算机可读记录介质，其中，近线的模型自迭代方法包括：筛选过滤在线实时数据得到近线训练数据，生成近线训练数据包；针对近线训练数据包中的近线训练数据进行人工训练标注；将标注后的近线训练数据包反馈给模型进行近线训练，实现模型的近线自迭代；针对模型定期使用全量数据进行离线训练，实现模型的离线自迭代。本发明专利技术通过筛选过滤在线实时数据得到近线训练数据，用于模型的近线自迭代训练，实现模型的近线自迭代优化；另外，针对模型定期使用全量数据进行离线训练，实现模型的离线自迭代更新，确保模型的稳定性。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及数据检索，具体提供一种近线的模型自迭代方法、装置及计算机可读记录介质。

技术介绍

1、随着大数据和人工智能的高速发展，机器学习模型被广泛应用到各个领域。机器学习模型可以被定义为一种能够将输入数据转化为特定输出的算法或数学函数。它们是机器学习的核心组件，通过训练数据，机器学习模型可以自动学习和改进自己，使得其在处理新数据时更加准确和有效。

2、因此，机器学习模型在实际应用的场景，通常要根据新增的数据下进行模型的迭代，常见的模型迭代方法有以下几种：

3、1、全量数据重新训练一个模型，直接合并历史训练数据与新增的数据，模型直接离线学习全量数据，学习得到一个全新的模型。这是实际最为常见的模型迭代方式，通常模型效果也是最好的，但这样模型迭代比较耗时，资源耗费比较多，近线性较差，特别是在大数据场景更为困难。

4、2、在线数据近线训练模型，可以直接利用新增的数据在原来的模型的基础上做进一步更新。增量学习对于模型迭代是很有效率的(特别适用于神经网络的学习)，但是在线数据近线训练模型的方式对于在线近线训练数据的筛选要求较高，在线近线训练数据筛选的数量级过少，则对于模型近线训练优化没有效果，在线近线训练数据筛选的数量级过多，造成模型被实施训练长时间占用，可用性不稳定，对于在线数据的即时反馈性产生影响，影响用户的使用体验。

5、有鉴于此，特提出本专利技术专利。

技术实现思路

1、为了解决上述技术问题，本专利技术提出一种近线的模型自迭代方法、装

2、具体地，采用了如下的技术方案：

3、在第一方面，本专利技术提出一种近线的模型自迭代方法，包括：

4、筛选过滤在线实时数据得到近线训练数据，生成近线训练数据包；

5、针对近线训练数据包中的近线训练数据进行人工训练标注；

6、将标注后的近线训练数据包反馈给模型进行近线训练，实现模型的近线自迭代；

7、针对模型定期使用全量数据进行离线训练，实现模型的离线自迭代。

8、作为本专利技术的可选实施方式，本专利技术的一种近线的模型自迭代方法中，所述筛选过滤近线训练数据，生成近线训练数据包包括：

9、根据预设规则针对在线实时数据按照可调节百分比筛选过滤近线训练数据；

10、根据预设条件判断是否将筛选过滤的近线训练数据推送至队列；

11、通过队列生成近线训练数据包。

12、作为本专利技术的可选实施方式，本专利技术的一种近线的模型自迭代方法中，所述根据预设规则针对在线实时数据按照可调节百分比筛选过滤近线训练数据包括：

13、根据队列的当前长度定期和队列的总长度确定队列占比；

14、根据队列占比和在线实时数据流量确定可调节百分比；

15、根据预设规则针对在线实时数据按照确定后的可调节百分比进行筛选过滤，得到近线训练数据。

16、作为本专利技术的可选实施方式，本专利技术的一种近线的模型自迭代方法中，所述根据预设条件判断是否将筛选过滤的近线训练数据推送至队列包括：

17、根据队列的当前长度、线上数据的当前qps和近线训练数据本身价值判断是否将筛选过滤的近线训练数据推送至队列；

18、若判断结果为是，则将筛选过滤的近线训练数据推送至队列，若判断结果为否，则将筛选过滤的近线训练数据丢弃。

19、作为本专利技术的可选实施方式，本专利技术的一种近线的模型自迭代方法中，所述根据队列的当前长度、线上数据的当前qps和近线训练数据本身价值判断是否将筛选过滤的近线训练数据推送至队列包括：

20、预设队列长度预设阈值和qps预设阈值；

21、预设判断近线训练数据本身价值的数据价值判断条件和/或数据价值判断模型，通过判断近线训练数据是否触发数据价值判断条件和/或将近线训练数据输入数据价值判断模型，判断近线训练数据是否为高价值近线训练数据；

22、当队列的当前长度小于队列长度预设阈值，线上数据的当前qps小于qps预设阈值，且近线训练数据被判定为高价值近线训练数据时，则将筛选过滤的近线训练数据推送至队列。

23、作为本专利技术的可选实施方式，本专利技术的一种近线的模型自迭代方法中，所述针对模型定期使用全量数据进行离线训练，实现模型的离线自迭代包括：

24、将模型上一次离线自迭代的历史全量训练数据包和上一次离线自迭代与本次离线自迭代期间所有的近线训练数据包进行汇总，得到模型的本次离线自迭代的全量数据；

25、将全量数据输入至模型进行离线训练，实现模型的离线自迭代。

26、作为本专利技术的可选实施方式，本专利技术的一种近线的模型自迭代方法，包括：

27、拉取离线自迭代得到的最新模型进行重新部署；

28、基于最新模型消费最新在线实时数据，同时筛选过滤最新在线实时数据，进行最新模型的近线自迭代训练。在第二方面，本专利技术提供一种近线的模型自迭代装置，包括：

29、数据筛选模块，筛选过滤在线实时数据得到近线训练数据，推送至队列；

30、标注模块，将队列中的近线训练数据生成近线训练数据包，将近线训练数据包发送给标注人员进行人工训练标注；

31、模型近线训练模块，将标注后的近线训练数据包反馈给模型进行近线训练，实现模型的近线自迭代；

32、模型离线训练模块，针对模型定期使用全量数据进行离线训练，实现模型的离线自迭代。

33、在第三方面，本专利技术提出一种电子设备，包括处理器和存储器，所述存储器用于存储计算机可执行程序，当所述计算机程序被所述处理器执行时，所述处理器执行所述一种近线的模型自迭代方法。

34、在第四方面，本专利技术提出一种计算机可读记录介质，存储有计算机可执行程序，所述计算机可执行程序被执行时，实现所述一种近线的模型自迭代方法。

35、与现有技术相比，本专利技术的有益效果：

36、本专利技术的一种近线的模型自迭代方法，通过筛选过滤在线实时数据得到近线训练数据，用于模型的近线自迭代训练，使得模型能够进行近线自迭代优化，对于在线实时数据的处理效果更好。另外，针对模型定期使用全量数据进行离线训练，进行模型的离线自迭代更新，实现了模型的持续优化，同时确保了模型的稳定性。

37、因此，本专利技术的一种近线的模型自迭代方法，通过筛选一定量的在线实时数据用于模型的近线自迭代训练，本专利技术的近线自迭代训练不同于现有的实时自迭代训练和离线自迭代训练，是一种介于实时自迭代训练和离线自迭代训练之间的自迭代训练方式。本专利技术通过筛选过滤在线实时数据的方式，有选择的过滤一定数量和一定价值的在线实时数据作为近线训练数据，用于模型的自迭代优化训练，一方面避免选取的在线实时数据流量过少对于模型自迭代优化没有效果，另一方面避免选取的在线实时数据流量过大对于模型自迭代训练造成压力，影本文档来自技高网...

【技术保护点】

1.一种近线的模型自迭代方法，其特征在于，包括：

2.根据权利要求1所述的一种近线的模型自迭代方法，其特征在于，所述筛选过滤近线训练数据，生成近线训练数据包包括：

3.根据权利要求2所述的一种近线的模型自迭代方法，其特征在于，所述根据预设规则针对在线实时数据按照可调节百分比筛选过滤，生成近线训练数据包括：

4.根据权利要求2所述的一种近线的模型自迭代方法，其特征在于，所述根据预设条件判断是否将筛选过滤的近线训练数据推送至队列包括：

5.根据权利要求4所述的一种近线的模型自迭代方法，其特征在于，所述根据队列的当前长度、线上数据的当前qps和近线训练数据本身价值判断是否将筛选过滤的近线训练数据推送至队列包括：

6.根据权利要求1所述的一种近线的模型自迭代方法，其特征在于，所述针对模型定期使用全量数据进行离线训练，实现模型的离线自迭代包括：

7.根据权利要求1所述的一种近线的模型自迭代方法，其特征在于，包括：

8.一种近线的模型自迭代装置，其特征在于，包括：

9.电子设备，包括处理器和存储器

10.一种计算机可读记录介质，其特征在于，存储有计算机可执行程序，所述计算机可执行程序被执行时，实现如权利要求1-7任意一项所述的一种近线的模型自迭代方法。

...

【技术特征摘要】

1.一种近线的模型自迭代方法，其特征在于，包括：

2.根据权利要求1所述的一种近线的模型自迭代方法，其特征在于，所述筛选过滤近线训练数据，生成近线训练数据包包括：

4.根据权利要求2所述的一种近线的模型自迭代方法，其特征在于，所述根据预设条件判断是否将筛选过滤的近线训练数据推送至队列包括：

5.根据权利要求4所述的一种近线的模型自迭代方法，其特征在于，所述根据队列的当前长度、线上数据的当前qps和近线训练数据本身价值判断是否将筛选过滤的近线训练数据推送至队列包括：...

【专利技术属性】
技术研发人员：黄鹤南，王岩，程童，王敏，李泽贤，黄康，
申请(专利权)人：北京百舸飞驰科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人