一种数据处理方法及装置制造方法及图纸

技术编号:39570646 阅读:10 留言:0更新日期:2023-12-03 19:21
一种数据处理方法及装置,用以更精细化更智能化地对接入数据进行处理

【技术实现步骤摘要】
一种数据处理方法及装置


[0001]本申请涉及数据处理
,尤其涉及一种数据处理方法及装置


技术介绍

[0002]随着物联网的发展,物联网资产设备在持续

快速的增长

物联网资产设备会产生各种类型的数据比如日志型数据

资产型数据

风险型数据

统计型数据等

目前对于这些物联网资产设备产生的大量数据通常采用的是单一的数据接入方式,即通过预先定义待接入数据字段的格式与字段值,然后根据预先设定的数据过滤规则和数据匹配方式对待接入数据进行处理,得到所需类型的数据

[0003]此种数据接入方式的缺点在于,数据提供方无法自定义自己的数据格式和类型,不同类型的数据无法做区别处理

并且数据过滤规则设定较死板,导致很多实际有价值的数据被视为无用的数据而丢弃

[0004]因此,目前亟需一种方案,用以更精细化更智能化地对接入数据进行处理


技术实现思路

[0005]本申请提供一种数据处理方法及装置,用以更精细化更智能化地对接入数据进行处理

[0006]第一方面,本申请提供一种数据处理方法,该方法包括:接收设备上报的自定义格式的待处理数据;对于所述待处理数据中可处置的第一数据,提取第一数据的第一特征信息,对所述第一特征信息进行双向语义分析,得到与所述第一特征信息存在关联关系的第二特征信息;基于所述第一特征信息和所述第二特征信息,得到符合所述第一数据对应的设定标准格式的第二数据

[0007]上述技术方案中,用户无需严格按照字典字段规范上传数据,可以根据自己场景的数据特性上传数据,本申请在接收到设备上报的自定义格式的待处理数据后,会根据待处理数据的特点自动对数据进行识别补全,得到标准格式的数据,以实现对待处理数据进行统一处理自动关联入库,降低人工校对的成本

[0008]在一种可能的设计中,所述基于所述第一特征信息和所述第二特征信息,得到符合所述第一数据对应的设定标准格式的第二数据,包括:通过所述第一数据对应的设定标准格式,对所述第一数据进行扩充,并获取扩充的第三特征信息;按照所述第一特征信息

所述第二特征信息

所述第三特征信息,得到符合所述第一数据对应的设定标准格式的第二数据

[0009]上述技术方案中,不仅可以对待处理数据中缺失的信息进行补充,还根据待处理数据中已有的特征信息对数据进行扩充,得到更详细的信息

使得数据处理后所包含的信息更加完整详尽

[0010]在一种可能的设计中,所述提取第一数据的第一特征信息,对所述第一特征信息进行双向语义分析,得到与所述第一特征信息存在关联关系的第二特征信息,包括:将所述
第一数据输入至数据处理模型的编码模块,通过所述编码模块中多个编码器的自注意力机制确定第一数据的类型,并对提取的第一数据的第一特征信息进行双向语义分析,得到与所述第一特征信息存在关联关系的第二特征信息

[0011]上述技术方案中,通过多个编码器的自注意力机制对输入的第一数据执行编码过程,根据第一数据中每个词的所有上下文信息,隔断数据及分类,捕捉可利用信息,补全相关内容

[0012]在一种可能的设计中,所述通过所述第一数据对应的设定标准格式,对所述第一数据进行扩充,并获取扩充的第三特征信息,包括:将数据处理模型的编码模块输出的第一数据的编码信息,以及所述第一数据的类型对应的预设提示语输入至数据处理模型的解码模块,对所述第一数据进行扩充,并获取扩充的第三特征信息;所述解码模块包括至少一个解码器

[0013]上述技术方案中,通过编码模块根据已有的特征信息对第一数据进行扩充,可以得到更详细的信息

并且,通过预设提示词限定解码模块对第一数据的扩充方向,可以减少解码模块生成无关信息的可能性,避免数据的过量分析与无效生成

[0014]在一种可能的设计中,所述方法还包括:确定用于预训练的标准格式的第一训练数据;对所述第一训练数据增加掩码得到带有掩码的第一训练数据;对所述第一训练数据进行标注得到所述第一训练数据的类型;通过所述带有掩码的第一训练数据

所述第一训练数据的类型,以及所述标准格式的第一训练数据,对数据处理模型的编码模块进行预训练;确定对所述标准格式的第一训练数据进行扩充后的标准格式的第二训练数据;设定所述第一训练数据的类型对应的提示词;通过所述标准格式的第一训练数据

所述标准格式的第二训练数据,所述提示词对数据处理模型的解码模块进行预训练

[0015]在一种可能的设计中,掩码方式至少包括对所述第一训练数据进行词元屏蔽

词元删除

文本填充

分段排列

词元转动

分段增加和分段逆序操作中的至少一种;所述词元屏蔽为对词元进行随机遮挡;所述词元删除为对词元进行随机删除;所述文本填充为对文本范围进行采样,并进行遮挡;所述分段排列为根据分句结果对句子的顺序进行重新排列;所述词元转动为对词元进行循环转动;所述分段增加为根据分句结果在句子前或后增加一个遮挡;所述分段逆序为根据分句结果将句子中的词元进行逆序排列;所述第一训练数据至少包括两个句子,每个句子至少包括一个词元

[0016]上述技术方案中,对于第一训练数据,通过随机屏蔽句子中的部分词元,或者对词元的顺序进行适当调整,使训练数据中缺失的内容或者错误的内容多样化,并以标准格式的第一数据作为对照,使得模型可以更好地学习到词元之间的语义关联

[0017]在一种可能的设计中,所述方法还包括:对于待处理数据中不可处置的第二待处理数据,若所述第二待处理数据为需要使用的数据,则由人工对所述第二待处理数据进行特征标注,并将特征标注后的第二待处理数据输入至数据处理模型的编码模块和解码模块中,对数据处理模型的编码模块和解码模块进行预训练

[0018]上述技术方案中,不可处置的数据是指数据处理模型无法对其进行分析的数据

不可处置数据的存在,可能是由于训练数据不够全面,使得数据处理模型无法对第二待处理数据进行分析处理

对于此部分数据,可以由人工对判断其是否为所需数据,并对需要使用的数据进行标注,将标注后的数据作为训练数据对数据处理模型进行预训练,以使数据
处理模型后续具有处理这部分数据的能力

[0019]第二方面,本申请实施例提供一种数据处置装置,该装置包括:
[0020]接收模块,用于接收设备上报的自定义格式的待处理数据;
[0021]处理模块,用于对于所述待处理数据中可处置的第一数据,提本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种数据处理方法,其特征在于,所述方法包括:接收设备上报的自定义格式的待处理数据;对于所述待处理数据中可处置的第一数据,提取第一数据的第一特征信息,对所述第一特征信息进行双向语义分析,得到与所述第一特征信息存在关联关系的第二特征信息;基于所述第一特征信息和所述第二特征信息,得到符合所述第一数据对应的设定标准格式的第二数据
。2.
根据权利要求1所述的方法,其特征在于,所述基于所述第一特征信息和所述第二特征信息,得到符合所述第一数据对应的设定标准格式的第二数据,包括:通过所述第一数据对应的设定标准格式,对所述第一数据进行扩充,并获取扩充的第三特征信息;按照所述第一特征信息

所述第二特征信息

所述第三特征信息,得到符合所述第一数据对应的设定标准格式的第二数据
。3.
根据权利要求1所述的方法,其特征在于,所述提取第一数据的第一特征信息,对所述第一特征信息进行双向语义分析,得到与所述第一特征信息存在关联关系的第二特征信息,包括:将所述第一数据输入至数据处理模型的编码模块,通过所述编码模块中多个编码器的自注意力机制确定第一数据的类型,并对提取的第一数据的第一特征信息进行双向语义分析,得到与所述第一特征信息存在关联关系的第二特征信息
。4.
根据权利要求2所述的方法,其特征在于,所述通过所述第一数据对应的设定标准格式,对所述第一数据进行扩充,并获取扩充的第三特征信息,包括:将数据处理模型的编码模块输出的第一数据的编码信息,以及所述第一数据的类型对应的预设提示语输入至数据处理模型的解码模块,对所述第一数据进行扩充,并获取扩充的第三特征信息;所述解码模块包括至少一个解码器
。5.
根据权利要求3或4所述的方法,其特征在于,所述方法还包括
:
确定用于预训练的标准格式的第一训练数据;对所述第一训练数据增加掩码得到带有掩码的第一训练数据;对所述第一训练数据进行标注得到所述第一训练数据的类型;通过所述带有掩码的第一训练数据

所述第一训练数据的类型,以及所述标准格式的第一训练数据,对数据处理模型的编码模块进行预训练;确定对所述标准格式的第一训练数据进行扩充后的标准格式的第二训练...

【专利技术属性】
技术研发人员:黄自力邱震尧熊璐秦璐张叶杨阳陈舟
申请(专利权)人:中国银联股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1