System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于选定行业数据清洗的产品服务识别标记方法技术_技高网

一种基于选定行业数据清洗的产品服务识别标记方法技术

技术编号:40843539 阅读:4 留言:0更新日期:2024-04-01 15:11
本发明专利技术公开了一种基于选定行业数据清洗的产品服务识别标记方法,涉及的产品服务识别标记方法领域,本发明专利技术数据清洗时对数据的缺失值处理、异常数据处理、数据去重、错误数据处理和数据格式转换等进行操作,提高数据清洗时的准确率,使得清洗后的数据更加清晰明了,为后续对数据的标记提供良好的基础,其中通过对数据进行层归一化操作,可达到缓解数据之间的梯度消失和爆炸问题,从而保证数据的安全,通过在数据标记完成后,设置数据校验环节,配合对原始数据、订正人工标记或使用其他方法来确认正确的标签或分类结果,并加以重新校验和记录审核结果,提高数据标记的准确性。

【技术实现步骤摘要】

本专利技术涉及的产品服务识别标记方法领域,具体为一种基于选定行业数据清洗的产品服务识别标记方法


技术介绍

1、数据清洗技术主要存在于以下三个领域:数据挖掘、数据仓以及数据质量管理,其目的是在于发现数据集中异常的数据点,并将它们修复。所以,能否正确检测到所有的异常点,修复的结果是否能够很好地贴近真实值,是数据清洗技术的两个最主要的评价标准,数据标注与标记是指在数据清洗与整理过程中,对数据进行注释与标记的方法,通过给数据打上标签或注释,可以使数据的信息更加清晰明了,为后续的数据分析和应用提供基础。

2、现有技术中,通常在数据清洗后对数据进行标记,但标记时容易出现标记错误、漏标和标记不完整的情况,会影响数据正确率,对后续对数据访问和检索造成较大影响,因此亟须一种基于选定行业数据清洗的产品服务识别标记方法来解决此类问题。


技术实现思路

1、(一)解决的技术问题

2、针对现有技术的不足,本专利技术提供了一种基于选定行业数据清洗的产品服务识别标记方法,解决现有技术中标记时容易出现标记错误、漏标和标记不完整的情况,会影响数据正确率,对后续对数据访问和检索造成较大影响的问题。

3、(二)技术方案

4、为实现以上目的,本专利技术通过以下技术方案予以实现,本专利技术提供了一种基于选定行业数据清洗的产品服务识别标记方法,包括:

5、步骤一、数据收集:从数据库、日志文件、api接口等获取系统中的原始数据,确保数据的完整性和代表性,以便后续标记的准确性和可靠性;

6、步骤二、数据预处理:对收集到的原始数据进行预处理和清洗;

7、步骤三、数据标记:利用标记工具或脚本程序对预处理后的数据标记;

8、步骤四、校验和审核:对标记后的数据进行校验和审核,保证标记的准确性和一致性;

9、步骤五、数据存储与管理:建立数据管理机制,将标记好的数据进行存储。

10、本专利技术进一步地设置为:所述原始数据收集具体为:

11、a、确定数据类型、格式、时间和来源;

12、b.根据数据不同的来源,采用手动复制粘贴、网络爬虫和api调用等方式实现采集,并将其存储至数据库或本地文件等位置;

13、本专利技术进一步地设置为:述数据预处理具体步骤为:

14、c.对获取的数据集采用z-score标准化算法进行归一化处理,设数据集为:标准化处理后的值为:其中,为标准化后的数据,l和p分别为数据集的均值和标准差,经过处理的数据符合标准正态分布,即均值为0,标准差为1,避免了放大某些数量级较大的值的影响,从而使预测结果更加准确;

15、d.创建informer模型,具体包括位置编码、编码器和解码器,所述编码器核心为稀疏性自注意力机制,利用稀疏性自注意力机制提取数据的主要特征,所述编码器将学习和编码的信息通过编码器-解码器注意力层发送给解码器,为解码器提供输入数据与预测数据之间的依赖关,提高数据预测的精准度;

16、e.所述编码器和解码器的各个子层之间增添有残差连接,所述子层使用层归一化操作达到缓解梯度消失和爆炸问题,所述层归一化操作具体为:

17、p=layernorm(a+sublayer(a)),其中sublayer()包括多头稀疏性注意力机制和前馈神经网络,layernorm()为层归一化处理函数,其中全连接层提供非线性变换,而残差连接和归一化层可以防止网络发生梯度爆炸。

18、本专利技术进一步地设置为:所述数据清洗包括:

19、缺失值处理:识别并处理数据中的缺失值,可以通过删除含有缺失值的记录、使用默认值进行填充、使用均值或中位数或众数进行填充、使用回归模型等方法进行处理;

20、异常数据处理:识别并处理数据中的异常值;

21、数据去重:识别并删除数据集中的重复记录,以避免影响后续分析的准确性;

22、错误数据处理:使用修正或删除的方式修改数据中的错误值;

23、数据格式转换:将数据转换为正确的格式,以便后续分析和处理;

24、本专利技术进一步地设置为:所述异常数据识别,将目标数据集输入已训练好的informer模型中得到预测数据集,取以输入数据x时的窗口,计算窗口内预测值的均值w和标准差r,定义监测数据x若满足|x-w|>kr,条件则为异常点,并将其记录,这样,x的异常判断仅取决于在某时刻窗口内预测值的分布,从而不会受到其他异常监测数据的影响

25、本专利技术进一步地设置为:所述数据标记通过手动标记或半监督学习方法标记,所述半监督学习法配合co-training和self-training方法,以增加半监督时带有label的节点,从而提高其性能

26、本专利技术进一步地设置为:所述co-training采用parwalks算法,达到增加label的节点数量,其伪代码为:

27、d=(l+aa)-1

28、for each class k do

29、

30、find the top t vertices in d

31、add them to the training set with label k

32、end for

33、其中,d为吸收概率矩阵,l为拉普拉斯矩阵,dij表示节点i被节点j吸收的概率,即表示节点i、j拥有相同label的概率;

34、所述self-training在现有数据上预训练半监督上所有节点label,对每个labelk,选出t个置信度最高的节点,添加标签k,伪代码为:

35、a=g(r)∈tn*w,the output of g

36、for each class k do

37、find the top t vertices in ak

38、add them to the training set with label l

39、end for。

40、本专利技术进一步地设置为:所述数据校验包括:

41、审核标记错误:检查校验结果中标记错误的数据样本,找出标记错误的原因并进行修正。这可能需要比对原始数据、订正人工标记或使用其他方法来确认正确的标签或分类结果;

42、重新校验:在修正标记错误后,重新计算校验和指标,确保数据的准确性。如果发现仍有错误,继续修正和校验的循环,直到达到满意的准确性;

43、记录审核结果:记录校验和审核的结果,包括准确性和可能的错误类型和修正方式。

44、本专利技术进一步地设置为:所述数据存储与管理具体包括:

45、使用数据库存储和管理数据,并创建便于数据检索和更新的表结构和索引;

46、将标记好的数据加载至数据仓库中,通过数据仓库的数据模型和etl工具进行数据集成和数据转换:

47、将数据存储至云平本文档来自技高网...

【技术保护点】

1.一种基于选定行业数据清洗的产品服务识别标记方法,其特征在于,包括:

2.根据权利要求1所述的一种基于选定行业数据清洗的产品服务识别标记方法,其特征在于,所述原始数据收集具体为:

3.根据权利要求2所述的一种基于选定行业数据清洗的产品服务识别标记方法,其特征在于,所述数据预处理具体步骤为:

4.根据权利要求1所述的一种基于选定行业数据清洗的产品服务识别标记方法,其特征在于,所述数据清洗包括:

5.根据权利要求4所述的一种基于选定行业数据清洗的产品服务识别标记方法,其特征在于,所述异常数据识别,将目标数据集输入已训练好的Informer模型中得到预测数据集,取以输入数据x时的窗口,计算窗口内预测值的均值w和标准差r,定义监测数据x若满足|x-w|>kr,条件则为异常点,并将其进行单独标记。

6.根据权利要求1所述的一种基于选定行业数据清洗的产品服务识别标记方法,其特征在于,所述数据标记通过手动标记或半监督学习方法标记,所述半监督学习法配合Co-training和Self-training方法,以增加半监督时带有label的节点,从而提高其性能。

7.根据权利要求6所述的一种基于选定行业数据清洗的产品服务识别标记方法,其特征在于,所述Co-training采用ParWalks算法,达到增加label的节点数量,其伪代码为:

8.根据权利要求6所述的一种基于选定行业数据清洗的产品服务识别标记方法,其特征在于,所述数据校验包括:

9.根据权利要求6所述的一种基于选定行业数据清洗的产品服务识别标记方法,其特征在于,所述数据存储与管理具体包括:

...

【技术特征摘要】

1.一种基于选定行业数据清洗的产品服务识别标记方法,其特征在于,包括:

2.根据权利要求1所述的一种基于选定行业数据清洗的产品服务识别标记方法,其特征在于,所述原始数据收集具体为:

3.根据权利要求2所述的一种基于选定行业数据清洗的产品服务识别标记方法,其特征在于,所述数据预处理具体步骤为:

4.根据权利要求1所述的一种基于选定行业数据清洗的产品服务识别标记方法,其特征在于,所述数据清洗包括:

5.根据权利要求4所述的一种基于选定行业数据清洗的产品服务识别标记方法,其特征在于,所述异常数据识别,将目标数据集输入已训练好的informer模型中得到预测数据集,取以输入数据x时的窗口,计算窗口内预测值的均值w和标准差r,定义监测数据x若满足|x-w|>kr,条件则为异常点...

【专利技术属性】
技术研发人员:邓承贵潘雪松雷优健陈杏慧
申请(专利权)人:成都乐云互动网络技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1