多源异构数据预处理方法、装置、计算机设备及存储介质制造方法及图纸

技术编号：33280135 阅读：32 留言：0更新日期：2022-04-30 23:40

本发明专利技术公开了一种多源异构数据预处理方法、装置、计算机设备及存储介质，该方法基于区块链和词向量对多源异构数据进行预处理，包括：基于数据类别对多源异构数据进行分组；获取所述多源异构数据对应的文字信息；获取与所述文字信息对应的字向量，形成字向量集合；融合所述字向量集合为一维向量；根据所述一维向量进行联邦学习共建模型。该方案能够解决包含语音数据、图像数据、视频数据等多种类型的数据难以融合分析的问题，进而能够实现根据融合分析后的数据进行建模训练。并且通过对数据根据重要度进行打分得到分数，并将分数和与分数对应的数据存储位置上传至区块链，能够保障重要数据的可信溯源，保障政务数据的安全不可篡改。改。改。

全部详细技术资料下载

【技术实现步骤摘要】
多源异构数据预处理方法、装置、计算机设备及存储介质

[0001]本专利技术属于计算机
，具体涉及一种多源异构数据预处理方法、装置、计算机设备及存储介质。

技术介绍

[0002]在政务大数据，即各个政府机构内部收集的会议音频视频数据、机构人员内部个人信息、政府机构采购预算账单等政务机关内部关键隐私信息，具有数据来源广泛、数据结构复杂、数据类型多样、内容含义不易理解、部分数据可信度低的特性。现有技术中，无法针对包含语音数据、图像数据、视频数据等多种类型的数据进行融合分析，进而导致难以进行建模训练。
[0003]上述内容仅用于辅助理解本专利技术的技术方案，并不代表承认上述内容是现有技术。

技术实现思路

[0004]本专利技术的目的在于，提供一种多源异构数据预处理方法、装置、计算机设备及存储介质，以解决包含语音数据、图像数据、视频数据等多种类型的数据难以融合分析，导致无法进行建模训练的问题。
[0005]本专利技术提供一种多源异构数据预处理方法，所述方法基于区块链和词向量对多源异构数据进行预处理...

【技术保护点】

【技术特征摘要】
1.一种多源异构数据预处理方法，其特征在于，所述方法基于区块链和词向量对多源异构数据进行预处理，包括：基于数据类别对多源异构数据进行分组；获取所述多源异构数据对应的文字信息；获取与所述文字信息对应的字向量，形成字向量集合；融合所述字向量集合为一维向量；根据所述一维向量进行联邦学习共建模型。2.根据权利要求1所述的多源异构数据预处理方法，其特征在于，所述基于数据类别对多源异构数据进行分组，包括：通过分类器将同一数据类别的所述多源异构数据分为一组；所述数据类别包括语音类数据、图像类数据和视频类数据。3.根据权利要求1所述的多源异构数据预处理方法，其特征在于，所述获取所述目标数据对应的文字信息，包括：将所述多源异构数据送入对应的模型中获取对应的所述文字信息。4.根据权利要求1所述的多源异构数据预处理方法，其特征在于，所述获取与所述文字信息对应的字向量，形成字向量集合，包括：获取所述文字信息中每个文字对应的所述字向量，每段文字对应的所述字向量形成所述字向量集合。5.根据权利要求1所述的多源异构数据预处理方法，其特征在于，所述基于数据类别对多源异构数据进行分组之后，还包括：每组所述多源异构数据中，根据所述多源异构数据的属性去除冗余；所述多源异构数据的属性包括数据名称、数据大小和数据关键词；若每组所述多源异构数据中，多条数据的名称、大小和内容相同则保留一条；若每组所述多源异构数据中，多条数据的关键词相同，则随机保留5％～15％的数据；若每组所述多源异构数据中，多条数据的名称和...

【专利技术属性】
技术研发人员：袁煜明，宋子龙，温志龙，
申请(专利权)人：海南火链科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人