多源异构数据预处理方法、装置、计算机设备及存储介质制造方法及图纸

技术编号:33280135 阅读:16 留言:0更新日期:2022-04-30 23:40
本发明专利技术公开了一种多源异构数据预处理方法、装置、计算机设备及存储介质,该方法基于区块链和词向量对多源异构数据进行预处理,包括:基于数据类别对多源异构数据进行分组;获取所述多源异构数据对应的文字信息;获取与所述文字信息对应的字向量,形成字向量集合;融合所述字向量集合为一维向量;根据所述一维向量进行联邦学习共建模型。该方案能够解决包含语音数据、图像数据、视频数据等多种类型的数据难以融合分析的问题,进而能够实现根据融合分析后的数据进行建模训练。并且通过对数据根据重要度进行打分得到分数,并将分数和与分数对应的数据存储位置上传至区块链,能够保障重要数据的可信溯源,保障政务数据的安全不可篡改。改。改。

【技术实现步骤摘要】
多源异构数据预处理方法、装置、计算机设备及存储介质


[0001]本专利技术属于计算机
,具体涉及一种多源异构数据预处理方法、装置、计算机设备及存储介质。

技术介绍

[0002]在政务大数据,即各个政府机构内部收集的会议音频视频数据、机构人员内部个人信息、政府机构采购预算账单等政务机关内部关键隐私信息,具有数据来源广泛、数据结构复杂、数据类型多样、内容含义不易理解、部分数据可信度低的特性。现有技术中,无法针对包含语音数据、图像数据、视频数据等多种类型的数据进行融合分析,进而导致难以进行建模训练。
[0003]上述内容仅用于辅助理解本专利技术的技术方案,并不代表承认上述内容是现有技术。

技术实现思路

[0004]本专利技术的目的在于,提供一种多源异构数据预处理方法、装置、计算机设备及存储介质,以解决包含语音数据、图像数据、视频数据等多种类型的数据难以融合分析,导致无法进行建模训练的问题。
[0005]本专利技术提供一种多源异构数据预处理方法,所述方法基于区块链和词向量对多源异构数据进行预处理,包括:基于数据类别对多源异构数据进行分组;获取所述多源异构数据对应的文字信息;获取与所述文字信息对应的字向量,形成字向量集合;融合所述字向量集合为一维向量;根据所述一维向量进行联邦学习共建模型。
[0006]在一些实施方式中,所述基于数据类别对多源异构数据进行分组,包括:通过分类器将同一数据类别的所述多源异构数据分为一组;所述数据类别包括语音类数据、图像类数据和视频类数据。
[0007]在一些实施方式中,所述获取所述目标数据对应的文字信息,包括:将所述多源异构数据送入对应的模型中获取对应的所述文字信息。
[0008]在一些实施方式中,所述获取与所述文字信息对应的字向量,形成字向量集合,包括:获取所述文字信息中每个文字对应的所述字向量,每段文字对应的所述字向量形成所述字向量集合。
[0009]在一些实施方式中,所述基于数据类别对多源异构数据进行分组之后,还包括:每组所述多源异构数据中,根据所述多源异构数据的属性去除冗余;所述多源异构数据的属性包括数据名称、数据大小和数据关键词;若每组所述多源异构数据中,多条数据的名称、大小和内容相同则保留一条;若每组所述多源异构数据中,多条数据的关键词相同,则随机保留5%~15%的数据;若每组所述多源异构数据中,多条数据的名称和大小相同,且内容不同,则修改数据的名称。
[0010]在一些实施方式中,所述每组所述多源异构数据中,根据所述多源异构数据的属
性去除冗余之后,还包括:对去除冗余后的每组所述多源异构数据根据重要度进行打分得到分数,并将分数和与分数对应的数据存储位置上传至区块链;
[0011]所述多源异构数据每出现一次或所述多源异构数据的关键字每出现一次,则加第一分数;所述多源异构数据被收藏,则加第二分数。
[0012]与上述方法相匹配,本专利技术另一方面提供一种多源异构数据预处理装置,所述装置基于区块链和词向量对多源异构数据进行预处理,包括:分组单元,被配置为基于数据类别对多源异构数据进行分组;获取单元,被配置为获取所述多源异构数据对应的文字信息,并获取与所述文字信息对应的字向量,形成字向量集合;融合单元,被配置为融合所述字向量集合为一维向量;建模单元,被配置为根据所述一维向量进行联邦学习共建模型。
[0013]在一些实施方式中,所述基于数据类别对多源异构数据进行分组,包括:所述分组单元包括分类器,通过所述分类器将同一数据类别的所述多源异构数据分为一组;所述数据类别包括语音类数据、图像类数据和视频类数据。
[0014]在一些实施方式中,所述获取所述多源异构数据对应的文字信息,并获取与所述文字信息对应的字向量,形成字向量集合,包括:将所述多源异构数据送入对应的模型中获取对应的所述文字信息,获取所述文字信息中每个文字对应的所述字向量,每段文字对应的所述字向量形成所述字向量集合。
[0015]在一些实施方式中,多源异构数据预处理装置还包括:去冗单元,被配置为在每组所述多源异构数据中,根据所述多源异构数据的属性去除冗余;所述多源异构数据的属性包括数据名称、数据大小和数据关键词;若每组所述多源异构数据中,多条数据的名称、大小和内容相同则保留一条;若每组所述多源异构数据中,多条数据的关键词相同,则随机保留5%~15%的数据;若每组所述多源异构数据中,多条数据的名称和大小相同,且内容不同,则修改数据的名称。
[0016]在一些实施方式中,多源异构数据预处理装置还包括:打分单元,被配置为对去除冗余后的每组所述多源异构数据根据重要度进行打分得到分数,将分数和与分数对应的数据存储位置上传至区块链;所述多源异构数据每出现一次或所述多源异构数据的关键字每出现一次,则加第一分数;所述多源异构数据被收藏,则加第二分数。
[0017]与上述装置相匹配,本专利技术再一方面提供一种计算机设备,包括:如上述的多源异构数据预处理装置。
[0018]与上述方法相匹配,本专利技术再一方面提供一种存储介质,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行上述的多源异构数据预处理方法。
[0019]由此,本专利技术的方案,通过基于数据类别对多源异构数据进行分组,并获取多源异构数据对应的文字信息,以及获取与文字信息对应的字向量,形成字向量集合,解决了多种类型的数据难以融合分析的问题,通过融合字向量集合为一维向量,并根据一维向量进行联邦学习共建模型,能够简化政府机关人员工作流程,提高工作质量和效率。
[0020]通过对去除冗余后的每组所述多源异构数据根据重要度进行打分得到分数,并将分数和与分数对应的数据存储位置上传至区块链,能够保障重要数据的可信溯源,保障政务数据的安全不可篡改。
[0021]本专利技术的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变
得显而易见,或者通过实施本专利技术而了解。
[0022]下面通过附图和实施例,对本专利技术的技术方案做进一步的详细描述。
附图说明
[0023]图1为本专利技术的多源异构数据预处理方法的一实施例的流程示意图;
[0024]图2为本专利技术的多源异构数据预处理装置的一实施例的结构示意图。
[0025]结合附图,本专利技术实施例中附图标记如下:
[0026]101、分组单元;102、去冗单元;103、打分单元;104、获取单元;105、融合单元;106、建模单元。
具体实施方式
[0027]为使本专利技术的目的、技术方案和优点更加清楚,下面将结合本专利技术具体实施例及相应的附图对本专利技术技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0028]根据本专利技术的实施例,提供了一种多源异构数据预处理方法,如图1所示,本专利技术的方法的一实施例的流程示意图本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种多源异构数据预处理方法,其特征在于,所述方法基于区块链和词向量对多源异构数据进行预处理,包括:基于数据类别对多源异构数据进行分组;获取所述多源异构数据对应的文字信息;获取与所述文字信息对应的字向量,形成字向量集合;融合所述字向量集合为一维向量;根据所述一维向量进行联邦学习共建模型。2.根据权利要求1所述的多源异构数据预处理方法,其特征在于,所述基于数据类别对多源异构数据进行分组,包括:通过分类器将同一数据类别的所述多源异构数据分为一组;所述数据类别包括语音类数据、图像类数据和视频类数据。3.根据权利要求1所述的多源异构数据预处理方法,其特征在于,所述获取所述目标数据对应的文字信息,包括:将所述多源异构数据送入对应的模型中获取对应的所述文字信息。4.根据权利要求1所述的多源异构数据预处理方法,其特征在于,所述获取与所述文字信息对应的字向量,形成字向量集合,包括:获取所述文字信息中每个文字对应的所述字向量,每段文字对应的所述字向量形成所述字向量集合。5.根据权利要求1所述的多源异构数据预处理方法,其特征在于,所述基于数据类别对多源异构数据进行分组之后,还包括:每组所述多源异构数据中,根据所述多源异构数据的属性去除冗余;所述多源异构数据的属性包括数据名称、数据大小和数据关键词;若每组所述多源异构数据中,多条数据的名称、大小和内容相同则保留一条;若每组所述多源异构数据中,多条数据的关键词相同,则随机保留5%~15%的数据;若每组所述多源异构数据中,多条数据的名称和...

【专利技术属性】
技术研发人员:袁煜明宋子龙温志龙
申请(专利权)人:海南火链科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1