【技术实现步骤摘要】
多源异构数据预处理方法、装置、计算机设备及存储介质
[0001]本专利技术属于计算机
,具体涉及一种多源异构数据预处理方法、装置、计算机设备及存储介质。
技术介绍
[0002]在政务大数据,即各个政府机构内部收集的会议音频视频数据、机构人员内部个人信息、政府机构采购预算账单等政务机关内部关键隐私信息,具有数据来源广泛、数据结构复杂、数据类型多样、内容含义不易理解、部分数据可信度低的特性。现有技术中,无法针对包含语音数据、图像数据、视频数据等多种类型的数据进行融合分析,进而导致难以进行建模训练。
[0003]上述内容仅用于辅助理解本专利技术的技术方案,并不代表承认上述内容是现有技术。
技术实现思路
[0004]本专利技术的目的在于,提供一种多源异构数据预处理方法、装置、计算机设备及存储介质,以解决包含语音数据、图像数据、视频数据等多种类型的数据难以融合分析,导致无法进行建模训练的问题。
[0005]本专利技术提供一种多源异构数据预处理方法,所述方法基于区块链和词向量对多源异构数据进行预处理 ...
【技术保护点】
【技术特征摘要】
1.一种多源异构数据预处理方法,其特征在于,所述方法基于区块链和词向量对多源异构数据进行预处理,包括:基于数据类别对多源异构数据进行分组;获取所述多源异构数据对应的文字信息;获取与所述文字信息对应的字向量,形成字向量集合;融合所述字向量集合为一维向量;根据所述一维向量进行联邦学习共建模型。2.根据权利要求1所述的多源异构数据预处理方法,其特征在于,所述基于数据类别对多源异构数据进行分组,包括:通过分类器将同一数据类别的所述多源异构数据分为一组;所述数据类别包括语音类数据、图像类数据和视频类数据。3.根据权利要求1所述的多源异构数据预处理方法,其特征在于,所述获取所述目标数据对应的文字信息,包括:将所述多源异构数据送入对应的模型中获取对应的所述文字信息。4.根据权利要求1所述的多源异构数据预处理方法,其特征在于,所述获取与所述文字信息对应的字向量,形成字向量集合,包括:获取所述文字信息中每个文字对应的所述字向量,每段文字对应的所述字向量形成所述字向量集合。5.根据权利要求1所述的多源异构数据预处理方法,其特征在于,所述基于数据类别对多源异构数据进行分组之后,还包括:每组所述多源异构数据中,根据所述多源异构数据的属性去除冗余;所述多源异构数据的属性包括数据名称、数据大小和数据关键词;若每组所述多源异构数据中,多条数据的名称、大小和内容相同则保留一条;若每组所述多源异构数据中,多条数据的关键词相同,则随机保留5%~15%的数据;若每组所述多源异构数据中,多条数据的名称和...
【专利技术属性】
技术研发人员:袁煜明,宋子龙,温志龙,
申请(专利权)人:海南火链科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。