【技术实现步骤摘要】
基于多数据源的数据处理方法、装置、设备及存储介质
[0001]本申请涉及数据处理技术,尤其涉及一种基于多数据源的数据处理方法、装置、设备及存储介质。
技术介绍
[0002]随着金融领域的应用逐渐趋向信息化,用户办理的业务数据量越来越多。用户在办理业务时,工作人员会将用户信息和业务信息等多个数据源的数据信息进行录入,便于进行后续的信息核验和业务办理。例如,工作人员与用户签订合同,工作人员提供合同纸质件,并录入用户与工作人员的视频信息等。
[0003]现有技术中,图像、视频和语音等各个数据源的数据信息需要分开存证,录入到系统磁盘中进行留存。当需要办理业务时,从数据信息的各自存储路径中调用相关数据,再进行单独的核验和处理。
[0004]然而,图片、视频和语音等多源数据的存储空间大,不易快速读取。每次办理业务时均需要重复调取这些数据进行数据核对,无法快速对原始数据进行结构化数据输出,多源数据的处理效率较低。
技术实现思路
[0005]本申请提供一种基于多数据源的数据处理方法、装置、设备及存储介质,用以 ...
【技术保护点】
【技术特征摘要】
1.一种基于多数据源的数据处理方法,其特征在于,包括:从至少两个数据源,提取与所述数据源对应的数据集;其中,所述数据源中包括多种数据集,所述数据集中包括至少一个原始数据;提取所述原始数据中的目标数据,得到所述原始数据的待处理数据;对所述原始数据的待处理数据进行校验,得到所述原始数据的待处理数据的数据校验结果;根据各所述数据校验结果,将各所述原始数据的待处理数据,输入至预先生成的初始结构化模板中,生成目标结构化数据。2.根据权利要求1所述的方法,其特征在于,提取所述原始数据中的目标数据,得到所述原始数据的待处理数据,包括:根据预设的关联关系,从所述数据源对应的数据集中的原始数据中提取目标数据,将所述目标数据确定为所述原始数据的待处理数据;其中,所述预设的关联关系为数据源与数据提取规则之间的关联关系。3.根据权利要求2所述的方法,其特征在于,根据预设的关联关系,从所述数据源对应的数据集中的原始数据中提取目标数据,包括:根据预设的数据源与数据提取规则之间的关联关系,确定任一数据源所对应的所述数据集的目标数据提取规则;根据所述目标数据提取规则,从所述原始数据中得到所述目标数据。4.根据权利要求3所述的方法,其特征在于,所述数据集为视频数据集,所述原始数据为所述视频数据集中的原始视频;相应地,根据所述目标数据提取规则,从所述原始数据中得到所述目标数据,包括:根据预设的视频分析算法,对所述原始视频中的画面进行特征提取,得到视频特征值;将所述视频特征值作为场景信息,构建视频数据集的结构化场景信息集合,并将所述结构化场景信息集合确定为所述目标数据。5.根据权利要求4所述的方法,其特征在于,根据预设的视频分析算法,对所述原始视频中的画面进行特征提取,得到视频特征值,包括:根据预设的视频人物分析算法,确定所述原始视频中的人物数量;根据所述人物数量和业务场景标识之间的关联关系,确定所述视频数据集的目标业务场景标识;根据预设的人物特征提取算法,对所述原始视频中的任一人物进行特征提取,得到人物特征值;将所述目标业务场景标识和所述人物特征值确定为所述视频特征值。6.根据权利要求5所述的方法,其特征在于,将所述视频特征值作为场景信息,构建视频数据集的结构化场景信息集合,包括:获取预设的视频数据集的初始场景信息集合;将所述目标业务场景标识和所述人物特征值输入至所述初始场景信息集合中,得到所述视频数据集的结构化场景信息集合。7.根据权利要求4所述的方法,其特征在于,根据所述目标数据提取规则,从所述原始数据中得到所述目标数据,还包括:
获取所述原始视频中的语音,根据预设的语音识别算法,将所述原始视频中的语音转换为文字,生成语音文本;根据预设的关键词抽取算法,从所述语音文本中获取语音关键词;根据所述语音关键词构建视频数据集的结构化关键词信息集合,作为所述目标数据。8.根据权利要求3所述的方法,其特征在于,所述数据集为用户信息图片集和/或业务信息图片集,所述原始数据为用户信息图片和/或业务信息图片;相应地,根据所述目标数据提取规则,从所述原始数据中得到所述目标数据,包括:通过预设的文...
【专利技术属性】
技术研发人员:丁平,毛亚妮,
申请(专利权)人:中国建设银行股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。