System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于零样本重放的增量学习方法技术_技高网

一种基于零样本重放的增量学习方法技术

技术编号:39987246 阅读:13 留言:0更新日期:2024-01-09 01:59
本发明专利技术涉及一种基于零样本重放的增量学习方法,属于机器学习方法领域。该方法包括以下步骤:获取物联网设备的实时监控数据;构建物联网监控模型,利用所述物联网监控模型对所述监控数据进行预测得到预测后的监控数据;利用完善的标签体系对预测后的监控数据进行自动化标注;基于零样本重放的方法构建训练样本集对所述物联网监控模型进行训练得到训练好的物联网监控模型;将标注后的监控数据输入训练好的物联网监控模型得到高亮显示的关键信息。该方法使用标注过的样本集进行模型训练,提高了模型抽取信息的准确率以及训练的效率;在增量学习过程中通过同时使用旧样本的样本特征和新样本,在避免产生灾难性遗忘的同时节省了数据存储的开销。

【技术实现步骤摘要】

本专利技术涉及机器学习方法领域,尤其涉及一种基于零样本重放的增量学习方法


技术介绍

1、结构化数据是一种常见的数据结构,常用于服务器和客户端之间的数据交换。在物联网监控告警业务中,物联网设备会产生大量的实时数据,如充电桩实时状态、交通灯实时状态等信息,因此使用轻量级的json格式数据实现服务器与各联网设备间的数据传输。为了使监控人员能够快速准确地发现关键信息,需要利用自然语言处理技术抽取关键信息并进行高亮显示。

2、为实现上述需求,目前常用的方法是用标注后的样本集训练模型,然后用该模型对实际数据进行预测。现有的样本集构建方法主要有两种,一种是人工方式,由标注人员对所有新数据进行标注形成样本集;另一种是基于翻译模型将一部分人工标注的数据作为源语言,先将源语言翻译为英语、俄语、德语等中间语言,再将中间语言翻译回源语言,从而将一份数据扩充成多份数据形成样本集。现有模型的训练方法主要基于训练样本集,在每次训练时输入新的样本,容易造成模型过度学习新知识,对旧知识造成灾难性遗忘。

3、现有技术主要存在以下缺陷,一是人工标注数据成本高、效率低、易出错、依赖标注人员的专业性;二是基于翻译模型扩充数据依赖翻译模型的准确性、易丢失特定信息、对专业化程度高的领域支持效果差;三是在模型训练过程中过度学习新知识,对旧知识造成灾难性遗忘。


技术实现思路

1、鉴于上述的分析,本专利技术旨在提供一种基于零样本重放的增量学习方法,用以解决现有训练数据标注成本高、效率低、质量差、严重依赖标注人员或翻译模型的专业性,现有模型训练过程中过度学习新知识、对旧知识造成灾难性遗忘的问题。

2、本专利技术提供了一种基于零样本重放的增量学习方法,所述方法包括以下步骤:

3、获取物联网设备的实时监控数据;

4、构建物联网监控模型,利用所述物联网监控模型对所述监控数据进行预测得到预测后的监控数据;

5、利用完善的标签体系对预测后的监控数据进行自动化标注;

6、基于零样本重放的方法构建训练样本集对所述物联网监控模型进行训练得到训练好的物联网监控模型;

7、将标注后的监控数据输入训练好的物联网监控模型得到高亮显示的关键信息。

8、进一步地,所述完善的标签体系包括一级分类、二级分类、三级分类、四级分类4个等级,所述四级分类具有相应的别名库;

9、所述利用完善的标签体系对预测后的监控数据进行自动化标注包括:利用所述别名库中的别名对所述数据的特征值进行自动化标注。

10、进一步地,所述基于零样本重放的方法构建训练样本集对所述物联网监控模型进行训练得到训练好的物联网监控模型包括:

11、基于标注后的数据构建训练样本集;

12、首轮次训练时,按照已设置的批大小将训练集中的样本输入物联网监控模型进行训练,得到并保存每个别名的特征向量的平均值;

13、后续轮次训练时,基于上一轮次获取的所述每个别名的特征向量的平均值得到每个别名的样本特征,将所述样本特征与训练集中的样本一起输入物联网监控模型进行训练,得到并保存每个别名的特征向量的平均值;

14、当训练轮次达到阈值后得到训练好的物联网监控模型。

15、进一步地,所述将标注后的监控数据输入训练好的物联网监控模型得到高亮显示的关键信息包括:

16、所述标注后的监控数据通过所述物联网监控模型的编码器将标注的特征值进行编码得到该特征值的特征向量;

17、所述特征向量通过所述物联网监控模型的解码器进行相应的实体抽取和关系抽取,抽取的实体为所述标签体系四级分类的别名,抽取的关系为该别名的起始和结束位置;

18、通过所述别名得到相应的特征值,根据所述起始和结束位置得到所述特征值的标注位置并进行高亮显示。

19、进一步地,对所述物联网监控模型进行训练时,还包括如下步骤:

20、对于新增的属性,对所述完善的标签体系增加相应的分类名和别名得到优化的标签体系,然后用该优化的标签体系对预测后的监控数据进行标注,构建第二训练样本集;

21、基于第二训练样本集对物联网监控模型进行训练得到优化的物联网监控模型。

22、进一步地,采用如下方式得到所述每个别名的特征向量的平均值:

23、

24、其中,vk为第k个别名所有样本特征向量的平均值,m是每个别名的样本数,rd为包含d个别名的实数向量,ct为所有别名的集合,f(x)为将输入的样本映射为每个别名的特征向量的函数,为第k个别名的第i个样本。

25、进一步地,在进行下一轮训练时,通过如下方式得到所述样本特征:

26、

27、其中,sk为第k个别名的样本特征,e为标准高斯分布采样噪声,r为不确定尺度,zik为第k个别名的第i个样本的特征向量,d为特征向量中包含的元素个数,c1为别名的集合。

28、进一步地,所述损失函数的公式为:

29、

30、其中,n为训练集中的样本总数,样本i包含别名j时yij为1否则为0,zij为第j个别名的第i个样本的特征向量的未归一化分数,zip为所有别名的第i个样本的特征向量之和,e为自然常数。

31、进一步地,所述完善的标签体系通过下述方法得到:

32、建立初始标签体系;

33、将监控数据输入训练好的bert模型得到相应的特征值,基于所述特征值得到相应的特征参数名,所述特征参数名为标签体系中的别名,将所述特征参数名进行核查后加入初始标签体系的别名库得到完善的标签体系。

34、进一步地,将完善的标签体系以树形结构的形式展示到前端页面以供用户进行增删改查,然后将增删改查后的标签同步到所述标签体系中得到优化的标签体系。

35、与现有技术相比,本专利技术至少可实现如下有益效果之一:

36、1、本专利技术通过结构化数据对模型进行训练得到相应的特征值,基于所述特征值得到完善的标签体系,因此可以自动地生成大量业务所需的特征标签,实现了对特征标签的体系化管理,并且对于同类问题可以复用所述标签体系,提高了开发的效率。

37、2、本专利技术利用标签体系对源源不断的实时监控数据进行自动化的标注,因此可以大大提高数据标注的效率,降低出错率,有效解决了现有数据标注成本高、效率低、质量差、严重依赖标注人员或翻译模型的专业性的问题。

38、3、本专利技术对于新增的属性,通过前端页面对标签体系进行增删改查,因此可根据实际实时监控数据方便快捷地对标签体系不断进行优化,从而提高实时监控数据标注的质量。

39、4、本专利技术利用标签体系对大量实时监控数据进行自动化的标注,大大减少了生成物联网监控模型训练样本集的时间,从而提高了开发效率。

40、5、本专利技术使用标注过的样本集对物联网监控模型进行训练,因此提高了物联网监控模型对关键信息进行实体抽取的准确率以及训练的效率。...

【技术保护点】

1.一种基于零样本重放的物联网信息抽取方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的基于零样本重放的物联网信息抽取方法,其特征在于,所述完善的标签体系包括一级分类、二级分类、三级分类、四级分类4个等级,所述四级分类具有相应的别名库;

3.根据权利要求1所述的基于零样本重放的物联网信息抽取方法,其特征在于,所述基于零样本重放的方法构建训练样本集对所述物联网监控模型进行训练得到训练好的物联网监控模型包括:

4.根据权利要求1所述的基于零样本重放的物联网信息抽取方法,其特征在于,所述将标注后的监控数据输入训练好的物联网监控模型得到高亮显示的关键信息包括:

5.根据权利要求3所述的基于零样本重放的物联网信息抽取方法,其特征在于,对所述物联网监控模型进行训练时,还包括如下步骤:

6.根据权利要求3所述的基于零样本重放的物联网信息抽取方法,其特征在于,采用如下方式得到所述每个别名的特征向量的平均值:

7.根据权利要求3所述的基于零样本重放的物联网信息抽取方法,其特征在于,在进行下一轮训练时,通过如下方式得到所述样本特征:

8.根据权利要求3所述的基于零样本重放的物联网信息抽取方法,其特征在于,所述损失函数的公式为:

9.根据权利要求1所述的基于零样本重放的物联网信息抽取方法,其特征在于,所述完善的标签体系通过下述方法得到:

10.根据权利要求1所述的基于零样本重放的物联网信息抽取方法,其特征在于,将完善的标签体系以树形结构的形式展示到前端页面以供用户进行增删改查,然后将增删改查后的标签同步到所述标签体系中得到优化的标签体系。

...

【技术特征摘要】

1.一种基于零样本重放的物联网信息抽取方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的基于零样本重放的物联网信息抽取方法,其特征在于,所述完善的标签体系包括一级分类、二级分类、三级分类、四级分类4个等级,所述四级分类具有相应的别名库;

3.根据权利要求1所述的基于零样本重放的物联网信息抽取方法,其特征在于,所述基于零样本重放的方法构建训练样本集对所述物联网监控模型进行训练得到训练好的物联网监控模型包括:

4.根据权利要求1所述的基于零样本重放的物联网信息抽取方法,其特征在于,所述将标注后的监控数据输入训练好的物联网监控模型得到高亮显示的关键信息包括:

5.根据权利要求3所述的基于零样本重放的物联网信息抽取方法,其特征在于,对所述物联网监控模型进行训练时,还包括如...

【专利技术属性】
技术研发人员:彭龙孟英谦纪沈江杨亮王嘉岩杜宏博李晓政李皓谢志豪张世超王文哲薛行王静阳
申请(专利权)人:中国兵器工业计算机应用技术研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1