System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及自然语言处理领域,尤其涉及一种基于标签体系的结构化数据增量学习方法。
技术介绍
1、结构化数据是一种常见的数据结构,常用于服务器和客户端之间的数据交换。在物联网监控告警业务中,物联网设备会产生大量的实时数据,如充电桩实时状态、交通灯实时状态等信息,因此使用轻量级的json格式数据实现服务器与各联网设备间的数据传输。为了使监控人员能够快速准确地发现关键信息,需要利用自然语言处理技术抽取关键信息并进行高亮显示。
2、为实现上述需求,目前常用的方法是用标注后的样本集训练模型,然后用该模型对实际数据进行预测。现有的样本集构建方法主要有两种,一种是人工方式,由标注人员对所有新数据进行标注形成样本集;另一种是基于翻译模型将一部分人工标注的数据作为源语言,先将源语言翻译为英语、俄语、德语等中间语言,再将中间语言翻译回源语言,从而将一份数据扩充成多份数据形成样本集。
3、现有技术主要存在以下缺陷,一是人工标注数据成本高、效率低、易出错、依赖标注人员的专业性;二是基于翻译模型扩充数据依赖翻译模型的准确性、易丢失特定信息、对专业化程度高的领域支持效果差。
技术实现思路
1、鉴于上述的分析,本专利技术旨在提供一种基于标签体系的结构化数据增量学习方法,用以解决现有训练数据标注成本高、效率低、质量差、严重依赖标注人员或翻译模型的专业性的问题。
2、本专利技术提供了一种基于标签体系的结构化数据增量学习方法,所述方法包括以下步骤:
3、建立初始标签体
4、构建bert模型,基于第一训练样本集对bert模型进行训练得到训练好的bert模型;
5、将业务数据输入训练好的bert模型得到相应的特征值,基于所述特征值得到完善的标签体系;
6、构建物联网监控模型,利用所述物联网监控模型对业务数据进行预测得到预测后的业务数据;
7、利用所述完善的标签体系对预测后的业务数据进行标注,构建第二训练样本集;
8、基于第二训练样本集对所述物联网监控模型进行训练得到训练好的物联网监控模型。
9、进一步地,所述方法还包括以下步骤:
10、对于新增的属性,对所述完善的标签体系增加相应的分类名和别名得到优化的标签体系,然后用该优化的标签体系对预测后的业务数据进行标注,构建第三训练样本集;
11、基于第三训练样本集对物联网监控模型进行训练得到优化的物联网监控模型。
12、进一步地,所述基于第一训练样本集对bert模型进行训练得到训练好的bert模型包括:
13、将第一训练样本集分为第一训练集和第一验证集;
14、设置训练的批大小和训练轮次阈值;
15、每轮训练时,按照设置的批大小将第一训练集中的样本输入bert模型进行一轮训练,一轮训练后将第一验证集中的样本输入bert模型并基于精确率、召回率以及f1分数评价指标计算所述评价指标得分;
16、训练轮次达到阈值后,评价指标得分最高的轮次对应的bert模型为训练好的bert模型。
17、进一步地,所述基于所述特征值得到完善的标签体系包括:
18、基于所述特征值得到相应的特征参数名,所述特征参数名为标签体系中的别名,将所述特征参数名进行核查后加入初始标签体系的别名库得到完善的标签体系。
19、进一步地,所述标签体系包括一级分类、二级分类、三级分类、四级分类4个等级,所述四级分类具有相应的别名库。
20、进一步地,所述基于第二训练样本集对物联网监控模型进行训练得到训练好的物联网监控模型包括:
21、首轮次训练时,按照已设置的批大小将第二训练集中的样本输入物联网监控模型进行训练,得到相应的别名以及标注位置,保存每个别名的特征向量的平均值;
22、后续轮次训练时,基于上一轮次获取的所述每个别名的特征向量的平均值得到每个别名的样本特征,将所述样本特征与第二训练集一起输入物联网监控模型进行训练,得到相应的别名以及标注位置,保存每个别名的特征向量的平均值;
23、当训练轮次达到阈值后得到训练好的物联网监控模型。
24、进一步地,采用如下方式得到所述每个别名的特征向量的平均值:
25、
26、其中,vk为第k个别名所有样本特征向量的平均值,m是每个别名的样本数,rd为包含d个别名的实数向量,ct为所有别名的集合,f(x)为将输入的样本映射为每个别名的特征向量的函数,为第k个别名的第i个样本。
27、进一步地,在进行下一轮训练时,通过如下方式得到所述样本特征:
28、sk=vk+(e*r),
29、其中,sk为第k个别名的样本特征,e为标准高斯分布采样噪声,r为不确定尺度,zik为第k个别名的第i个样本的特征向量,d为特征向量中包含的元素个数,c1为别名的集合。
30、进一步地,所述损失函数的公式为:
31、
32、其中,n为训练集中的样本总数,样本i包含别名j时yij为1否则为0,zij为第j个别名的第i个样本的特征向量的未归一化分数,zip为所有别名的第i个样本的特征向量之和,e为自然常数。
33、进一步地,所述bert模型transformer层数为12层,维度为768维,多头自注意力的头的个数为12。
34、与现有技术相比,本专利技术至少可实现如下有益效果之一:
35、1、本专利技术通过结构化数据对模型进行训练得到相应的特征值,基于所述特征值得到完善的标签体系,因此可以自动地生成大量业务所需的特征标签,实现了对特征标签的体系化管理,并且对于同类问题可以复用所述标签体系,提高了开发的效率。
36、2、本专利技术利用标签体系对源源不断的业务数据进行自动化的标注,因此可以大大提高数据标注的效率,降低出错率,有效解决了现有数据标注成本高、效率低、质量差、严重依赖标注人员或翻译模型的专业性的问题。
37、3、本专利技术对于新增的属性,通过前端页面对标签体系进行增删改查,因此可根据实际业务数据方便快捷地对标签体系不断进行优化,从而提高业务数据标注的质量。
38、4、本专利技术利用标签体系对大量业务数据进行自动化的标注,大大减少了生成物联网监控模型训练样本集的时间,从而提高了开发效率。
39、5、本专利技术使用标注过的样本集对物联网监控模型进行训练,因此提高了物联网监控模型对关键信息进行实体抽取的准确率以及训练的效率。
40、6、本专利技术使用零样本重放的方法对物联网监控模型进行训练,通过旧样本的特征向量得到旧样本的样本特征,并在下一轮训练时同时使用旧样本的样本特征和新样本,因此在避免增量学习过程中产生灾难性遗忘的同时节省了数据存储的开销。
41、本专利技术中,上述各技术方案之间还可以相互组合,以实现更多的优选本文档来自技高网...
【技术保护点】
1.一种基于标签体系的物联网监控模型构建方法,其特征在于,所述方法包括以下步骤:
2.根据权利要求1所述的基于标签体系的结构化数据增量学习方法,其特征在于,所述方法还包括以下步骤:
3.根据权利要求1所述的基于标签体系的结构化数据增量学习方法,其特征在于,所述基于第一训练样本集对Bert模型进行训练得到训练好的Bert模型包括:
4.根据权利要求1所述的基于标签体系的结构化数据增量学习方法,其特征在于,所述基于所述特征值得到完善的标签体系包括:
5.根据权利要求1所述的基于标签体系的结构化数据增量学习方法,其特征在于,所述标签体系包括一级分类、二级分类、三级分类、四级分类4个等级,所述四级分类具有相应的别名库。
6.根据权利要求1所述的基于标签体系的结构化数据增量学习方法,其特征在于,所述基于第二训练样本集对物联网监控模型进行训练得到训练好的物联网监控模型包括:
7.根据权利要求6所述的基于标签体系的结构化数据增量学习方法,其特征在于,采用如下方式得到所述每个别名的特征向量的平均值:
8.根据权利
9.根据权利要求6所述的基于标签体系的结构化数据增量学习方法,其特征在于,所述损失函数的公式为:
10.根据权利要求1或3所述的基于标签体系的结构化数据增量学习方法,其特征在于,所述Bert模型Transformer层数为12层,维度为768维,多头自注意力的头的个数为12。
...【技术特征摘要】
1.一种基于标签体系的物联网监控模型构建方法,其特征在于,所述方法包括以下步骤:
2.根据权利要求1所述的基于标签体系的结构化数据增量学习方法,其特征在于,所述方法还包括以下步骤:
3.根据权利要求1所述的基于标签体系的结构化数据增量学习方法,其特征在于,所述基于第一训练样本集对bert模型进行训练得到训练好的bert模型包括:
4.根据权利要求1所述的基于标签体系的结构化数据增量学习方法,其特征在于,所述基于所述特征值得到完善的标签体系包括:
5.根据权利要求1所述的基于标签体系的结构化数据增量学习方法,其特征在于,所述标签体系包括一级分类、二级分类、三级分类、四级分类4个等级,所述四级分类具有相应的别名库。
6.根据权利要求1所述的...
【专利技术属性】
技术研发人员:彭龙,孟英谦,纪沈江,杨亮,王嘉岩,杜宏博,李晓政,李皓,谢志豪,张世超,王文哲,薛行,王静阳,
申请(专利权)人:中国兵器工业计算机应用技术研究所,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。