多源异构数据预处理方法、装置、计算机设备及存储介质制造方法及图纸

技术编号:33280135 阅读:32 留言:0更新日期:2022-04-30 23:40
本发明专利技术公开了一种多源异构数据预处理方法、装置、计算机设备及存储介质,该方法基于区块链和词向量对多源异构数据进行预处理,包括:基于数据类别对多源异构数据进行分组;获取所述多源异构数据对应的文字信息;获取与所述文字信息对应的字向量,形成字向量集合;融合所述字向量集合为一维向量;根据所述一维向量进行联邦学习共建模型。该方案能够解决包含语音数据、图像数据、视频数据等多种类型的数据难以融合分析的问题,进而能够实现根据融合分析后的数据进行建模训练。并且通过对数据根据重要度进行打分得到分数,并将分数和与分数对应的数据存储位置上传至区块链,能够保障重要数据的可信溯源,保障政务数据的安全不可篡改。改。改。

【技术实现步骤摘要】
多源异构数据预处理方法、装置、计算机设备及存储介质


[0001]本专利技术属于计算机
,具体涉及一种多源异构数据预处理方法、装置、计算机设备及存储介质。

技术介绍

[0002]在政务大数据,即各个政府机构内部收集的会议音频视频数据、机构人员内部个人信息、政府机构采购预算账单等政务机关内部关键隐私信息,具有数据来源广泛、数据结构复杂、数据类型多样、内容含义不易理解、部分数据可信度低的特性。现有技术中,无法针对包含语音数据、图像数据、视频数据等多种类型的数据进行融合分析,进而导致难以进行建模训练。
[0003]上述内容仅用于辅助理解本专利技术的技术方案,并不代表承认上述内容是现有技术。

技术实现思路

[0004]本专利技术的目的在于,提供一种多源异构数据预处理方法、装置、计算机设备及存储介质,以解决包含语音数据、图像数据、视频数据等多种类型的数据难以融合分析,导致无法进行建模训练的问题。
[0005]本专利技术提供一种多源异构数据预处理方法,所述方法基于区块链和词向量对多源异构数据进行预处理,包括:基于数据类别本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种多源异构数据预处理方法,其特征在于,所述方法基于区块链和词向量对多源异构数据进行预处理,包括:基于数据类别对多源异构数据进行分组;获取所述多源异构数据对应的文字信息;获取与所述文字信息对应的字向量,形成字向量集合;融合所述字向量集合为一维向量;根据所述一维向量进行联邦学习共建模型。2.根据权利要求1所述的多源异构数据预处理方法,其特征在于,所述基于数据类别对多源异构数据进行分组,包括:通过分类器将同一数据类别的所述多源异构数据分为一组;所述数据类别包括语音类数据、图像类数据和视频类数据。3.根据权利要求1所述的多源异构数据预处理方法,其特征在于,所述获取所述目标数据对应的文字信息,包括:将所述多源异构数据送入对应的模型中获取对应的所述文字信息。4.根据权利要求1所述的多源异构数据预处理方法,其特征在于,所述获取与所述文字信息对应的字向量,形成字向量集合,包括:获取所述文字信息中每个文字对应的所述字向量,每段文字对应的所述字向量形成所述字向量集合。5.根据权利要求1所述的多源异构数据预处理方法,其特征在于,所述基于数据类别对多源异构数据进行分组之后,还包括:每组所述多源异构数据中,根据所述多源异构数据的属性去除冗余;所述多源异构数据的属性包括数据名称、数据大小和数据关键词;若每组所述多源异构数据中,多条数据的名称、大小和内容相同则保留一条;若每组所述多源异构数据中,多条数据的关键词相同,则随机保留5%~15%的数据;若每组所述多源异构数据中,多条数据的名称和...

【专利技术属性】
技术研发人员:袁煜明宋子龙温志龙
申请(专利权)人:海南火链科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1