数据入库方法、装置、设备、介质及产品制造方法及图纸

技术编号:29584130 阅读:12 留言:0更新日期:2021-08-06 19:42
本发明专利技术实施例提供一种数据入库方法、装置、设备、介质及产品,该方法包括:获取至少一行目标数据,各行目标数据中包括至少一列格式异常字段;针对每行目标数据,依次获取每列字段及每列字段对应的逻辑回归模型;按照预设的字段识别策略,从逻辑回归模型中确定与每列字段最相关的逻辑回归模型,采用最相关的逻辑回归模型识别对应列是否为格式异常字段;根据各识别结果构建目标数据中至少一列字段与目标数据库表结构中对应列的映射关系;根据映射关系将各列字段导入到目标数据库中。尽可能使两个数据库之间的数据一致,保证数据需求方系统在处理业务需要调用对应的数据库时,正常处理业务,防止错误现象发生。

【技术实现步骤摘要】
数据入库方法、装置、设备、介质及产品
本专利技术实施例涉及数据处理
,尤其涉及一种数据入库方法、装置、设备、介质及产品。
技术介绍
随着移动互联网的发展,各个系统对应的数据库之间需要进行数据交互以满足业务需求。在数据库之间进行数据交互时,数据提供方系统将数据从数据提供方的数据库中导出成数据文件,通过网络或移动存储介质传递到数据需求方的系统上,再加载到数据需求方的数据库中。但由于数据在导出环节、网络传输环节会有出错的问题,或者由于数据本身内容或数据编码等问题,导致需要导入的数据的格式与数据库配置的表结构不匹配,进而出现无法正常导入到数据需求方数据库的格式异常数据,这些格式异常数据简称为“脏数据”。现有技术中,面对格式异常数据处理方式是直接进行抛弃,不再导入到数据需求方的数据库中。这就导致两个数据库之间的数据不一致的现象。在数据需求方系统在处理业务需要调用对应的数据库时,会出现无法处理业务或业务处理错误的现象发生。
技术实现思路
本专利技术实施例提供一种数据入库方法、装置、设备、介质及产品,用以解决现有技术中,导入数据时两个数据库之间的数据不一致的现象,在数据需求方系统在处理业务需要调用对应的数据库时,会出现无法处理业务或业务处理错误的现象发生的技术问题。第一方面,本专利技术实施例提供一种数据入库方法,包括:获取至少一行目标数据,各行目标数据中包括至少一列格式异常字段;针对每行目标数据,依次获取每列字段及每列字段对应的逻辑回归模型;按照预设的字段识别策略,从所述逻辑回归模型中确定与每列字段最相关的逻辑回归模型,采用所述最相关的逻辑回归模型识别对应列是否为格式异常字段;根据各识别结果构建目标数据中至少一列字段与目标数据库表结构中对应列的映射关系;根据所述映射关系将各列字段导入到目标数据库中。第二方面,本专利技术实施例提供一种数据入库装置,包括:第一获取模块,用于获取至少一行目标数据,各行目标数据中包括至少一列格式异常字段;第二获取模块,用于针对每行目标数据,依次获取每列字段及每列字段对应的逻辑回归模型;确定模块,用于按照预设的字段识别策略,从所述逻辑回归模型中确定与每列字段最相关的逻辑回归模型,采用所述最相关的逻辑回归模型识别对应列是否为格式异常字段;构建模块,用于根据各识别结果构建目标数据中至少一列字段与目标数据库表结构中对应列的映射关系;导入模块,用于根据所述映射关系将各列字段导入到目标数据库中。第三方面,本专利技术实施例提供一种电子设备,包括:至少一个处理器及存储器;所述存储器存储计算机执行指令;所述至少一个处理器执行所述存储器存储的计算机执行指令,使得所述至少一个处理器执行如第一方面中任一项所述的方法。第四方面,本专利技术实施例提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现如第一方面任一项所述的方法。第五方面,本专利技术实施例提供一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现第一方面任一项所述的方法。本专利技术实施例提供的数据入库方法、装置、设备、介质及产品,通过获取至少一行目标数据,各行目标数据中包括至少一列格式异常字段;针对每行目标数据,依次获取每列字段及每列字段对应的逻辑回归模型;按照预设的字段识别策略,从逻辑回归模型中确定与每列字段最相关的逻辑回归模型,采用最相关的逻辑回归模型识别对应列是否为格式异常字段;根据各识别结果构建目标数据中至少一列字段与目标数据库表结构中对应列的映射关系;根据映射关系将各列字段导入到目标数据库中。由于该方案通过最相关的逻辑回归模型识别出每列字段是否为格式异常字段,可有效筛选出格式异常字段,将消除格式异常的数据导入到目标数据库中的表结构中,尽可能使两个数据库之间的数据一致,保证数据需求方系统在处理业务需要调用对应的数据库时,正常处理业务,防止错误现象发生。附图说明此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。图1是可以实现本专利技术实施例的数据入库方法的一种网络架构图;图2是本专利技术一实施例提供的数据入库方法的流程示意图;图3是本专利技术另一实施例提供的数据入库方法的流程示意图;图4是本专利技术又一实施例提供的数据入库方法的流程示意图;图5是本专利技术实施例中目标数据的字段识别策略的示意图;图6是本专利技术一实施例提供的数据入库装置的结构示意图;图7是用来实现本专利技术实施例的数据入库方法的电子设备的第一框图;图8是用来实现本专利技术实施例的数据入库方法的电子设备的第二框图。通过上述附图,已示出本公开明确的实施例,后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本公开构思的范围,而是通过参考特定实施例为本领域技术人员说明本公开的概念。具体实施方式这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。为了清楚理解本申请的技术方案,首先对现有技术的方案进行详细介绍。数据库中的数据来源,除了用户的输入数据,还有从其他系统或数据库导入的数据。数据导入到数据库除了整个数据库的镜像文件、sql文件导入以外,就是使用数据文件进行导入。基本方法就是数据提供方将数据从数据库中导出成数据文件,通过网络或者移动存储介质传递到数据需求方的系统上,再加载到数据需求方的数据库中。一般来说,在数据提供方的数据库表结构与需求方的表结构一致的情况下,数据文件是能够完全正常入库的。但是由于数据在导出环节、网络传输环节会有出错的问题,或者由于数据本身内容或数据编码等问题,导致需要导入的数据的格式与数据库配置的表结构不匹配。示例性的,数据文件中存储的数据按行进行存储。每行数据都有固定的格式,如相邻两个字段之间有预设分隔符,但是若在数据中,由于字段本身内容中有分隔符,该本属于字段内容中的分隔符与相邻字段间分割标记的预设分隔符一样,就导致该数据在导入到数据需求方的数据库的时候,识别出的字段多于表结构中所要求的每行数据中的字段,出现了格式异常,不能导入到数据需求方的数据库中。或者在网络传输时,进行传输的数据不完整,原本在一行中的数据,被分成了两行数据,导致两行数据的格式均出现了格式异常,不能导入到数据需求方的数据库中。现有技术中,面对格式异常数据处理方式是直接进行抛弃,不再导入到数据需求方的数据库中。这就导致两个数据库之间的数据不一致的现象。在数据需求方系统在处理业务需要调用对应的数据库时,会出现无法处理业务或业务处理错误的现象发生。所以在面对现有技术中的技术问题时,发本文档来自技高网...

【技术保护点】
1.一种数据入库方法,其特征在于,包括:/n获取至少一行目标数据,各行目标数据中包括至少一列格式异常字段;/n针对每行目标数据,依次获取每列字段及每列字段对应的逻辑回归模型;/n按照预设的字段识别策略,从所述逻辑回归模型中确定与每列字段最相关的逻辑回归模型,采用所述最相关的逻辑回归模型识别对应列是否为格式异常字段;/n根据各识别结果构建目标数据中至少一列字段与目标数据库表结构中对应列的映射关系;/n根据所述映射关系将各列字段导入到目标数据库中。/n

【技术特征摘要】
1.一种数据入库方法,其特征在于,包括:
获取至少一行目标数据,各行目标数据中包括至少一列格式异常字段;
针对每行目标数据,依次获取每列字段及每列字段对应的逻辑回归模型;
按照预设的字段识别策略,从所述逻辑回归模型中确定与每列字段最相关的逻辑回归模型,采用所述最相关的逻辑回归模型识别对应列是否为格式异常字段;
根据各识别结果构建目标数据中至少一列字段与目标数据库表结构中对应列的映射关系;
根据所述映射关系将各列字段导入到目标数据库中。


2.根据权利要求1所述的方法,其特征在于,获取每列字段对应的逻辑回归模型之前,还包括:
获取所述表结构中每列字段对应的特征;
除第一列和最后一列字段以外,针对第N列字段,将第N-1列字段对应的特征作为训练负样本,将第N列字段对应的特征作为训练正样本,对预设逻辑回归模型进行训练,以获得第N列字段对应的第一逻辑回归模型;将第N列字段对应的特征作为训练正样本,将第N+1列字段对应的特征作为训练负样本,对预设逻辑回归模型进行训练,以获得第N列字段对应的第二逻辑回归模型,将第一逻辑回归模型和第二逻辑回归模型均确定为第N列字段对应的逻辑回归模型;N为大于等于2的整数;
针对第一列字段和最后一列字段,将本列字段对应的特征作为训练正样本,将相邻列字段对应的特征作为训练负样本,对预设逻辑回归模型进行训练,以获得本列字段对应的逻辑回归模型。


3.根据权利要求2所述的方法,其特征在于,所述采用所述最相关的逻辑回归模型识别对应列字段是否为格式异常字段,包括:
若确定最相关的逻辑回归模型为一个,则将字段输入到最相关的逻辑回归模型中,输出是否为格式异常字段的识别结果;
若确定最相关的逻辑回归模型为两个,则将字段分别输入到最相关的两个逻辑回归模型中,分别输出是否为格式异常字段的识别结果,若确定至少一个逻辑回归模型对应的识别结果为格式异常字段,则确定该字段对应的识别结果为格式异常字段。


4.根据权利要求1-3任一项所述的方法,其特征在于,所述按照预设的字段识别策略,从所述逻辑回归模型中确定与每列字段最相关的逻辑回归模型,包括:
按照字段从前往后的顺序进行识别,直到某一列字段的识别结果为格式异常字段,再按照字段从后往前的顺序进行识别,直到某一列字段的识别结果为格式异常字段,针对从前往后的顺序进行识别以及从后往前的顺序进行识别的每一列字段,确定其对应的逻辑回归模型为最相关的逻辑回归模型;
针对两列字段识别结果为格式异常字段之间的至少一列字段,按照从头往后的顺序进行识别,确定识别结果为格式异常字段的第一列...

【专利技术属性】
技术研发人员:叶林
申请(专利权)人:中国农业银行股份有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1