信创环境下基于机器学习实现数据标注的方法、装置、处理器及其计算机可读存储介质制造方法及图纸

技术编号:37334601 阅读:32 留言:0更新日期:2023-04-21 23:13
本发明专利技术涉及一种信创环境下基于机器学习实现数据标注的方法,其中,该方法包括:(1)对获取到的原始数据进行数据清洗;(2)合并来自多个数据源的数据,进行数据集成处理;(3)对获取到的数据进行降维操作;(4)对数据进行形式上的数据变换处理;(5)将数据进行词向量化处理,以获取不同特征之间的相似性;(6)使用注意力模块对获取到的数据进行注意力增强操作;(7)利用趋向性粒子搜索算法对神经网络进行优化。本发明专利技术还涉及一种相应的装置、处理器及其存储介质。采用了本发明专利技术的该信创环境下基于机器学习实现数据标注的方法、装置、处理器及其存储介质,能有效提高模型对数据标签的分类精度,提高模型的自适应细化能力。提高模型的自适应细化能力。提高模型的自适应细化能力。

【技术实现步骤摘要】
信创环境下基于机器学习实现数据标注的方法、装置、处理器及其计算机可读存储介质


[0001]本专利技术涉及计算机软件
,尤其涉及数据治理和人工智能
,具体是指一种信创环境下基于机器学习实现数据标注的方法、装置、处理器及其计算机可读存储介质。

技术介绍

[0002]随着分布式存储、分布式计算等相关技术的成熟,大数据产业也获得了快速的发展,无论是政府和企业都看到了大数据中所孕育的巨大的价值,开始对过去众多业务系统所累积的庞大的数据进行价值挖掘,而要实现数据进行价值挖掘,对数据进行标注是非常关键的一个环节。但是要让这些海量数据释放出其蕴含的强大力量,必须要保证这些数据的准确性、可靠性以及及时性,如果没有合适、高效的数据标注方法仅靠人力是难以完成的,因此我们有必要为用户提供一套行之有效的方法来协助用户在信创环境下进行数据标注。通过一种基于机器学习的数据自动标注方法可以解决目前在信创环境下基于人工的数据标注耗时耗力的问题,从而满足政府和企业数据标注需求;但是现有技术所采用的方法大多精确率难以得到保障,而基于深层网络的模型容易消耗大量的计算资源,本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种信创环境下基于机器学习实现数据标注的方法,其特征在于,所述的方法包括以下步骤:(1)对获取到的原始数据进行数据清洗;(2)待完成数据清洗后,合并来自多个数据源的数据,进行数据集成处理;(3)采用主成分分析法对获取到的数据进行降维操作,以降低数据集的大小;(4)采用标准化变换方法和正则化变换方法对数据进行形式上的数据变换处理;(5)将经过数据变换后得到的数据进行词向量化处理,以获取不同特征之间的相似性;(6)使用注意力模块对获取到的数据进行注意力增强操作,以获取新的特征向量;(7)利用趋向性粒子搜索算法对神经网络进行优化,并通过获得数据标签以实现数据分类处理。2.根据权利要求1所述的信创环境下基于机器学习实现数据标注的方法,其特征在于,所述的步骤(1)包括:对获取到的数据进行缺失值处理、重复值去除、降低噪声和去除离群点的数据清洗处理,其中,采用全局填充法进行缺失值的补全处理;通过显示唯一一行来降低储存消耗,从而实现重复值的去除处理;采用噪声光滑分箱法对噪声进行处理,以降低噪声;所述的离群点则通过箱线图进行识别并将其剔出。3.根据权利要求1所述的信创环境下基于机器学习实现数据标注的方法,其特征在于,所述的步骤(2)具体为:在实体识别方面,将根据数值范围、数据类型、名字、含义等来对属性进行集成;在相关性分析方面,通过检验不同数据源中字段的相关性进行数据集成处理。4.根据权利要求2或3所述的信创环境下基于机器学习实现数据标注的方法,其特征在于,所述的步骤(6)具体包括以下步骤:(6.1)设计一挤压和通道网络注意力模块对获取到的特征向量进行挤压操作,并使用全局平均池化将一个通道的整个空间特征转换为一个全局空间特征作为该通道的表示,具体通过以下公式表示:其中,X
m
(i,j)表示第m个特征映射X
m
在(i,j)位置上的通道特征值,i表示第i行,j表示第j列,H为输入数据的长,W为输入数据的宽,F
sq
()表示进行挤压操作,即GAP操作,Z
m
表示挤压操作的输出特征;(6.2)待获取全局特征之后,通过激励操作抓取通道间的相关性,得到新的特征向量。5.根据权利要求4所述的所述的信创环境下基于机器学习实现数据标注的方法,其特征在于,所述的步骤(6.2)具体为:采用含有两个全连接层的神经网络结构,第一个全连接层负责降维,并采用ReLU函数激活后,再采用第二个全连接层恢复原始的维度,同时引入Sigmoid形式的门控机制,以得到0至1之间的权重值,从而对原始的每个原始特征乘以对应通道的权重,得到新的特征向量,其运算过程如下:u=F
ex
(Z,W)=f(W
U
δ(W
X
));
其中,f()和δ()分别表示...

【专利技术属性】
技术研发人员:魏明李卜
申请(专利权)人:普元信息技术股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1