数据入库方法、装置、设备、介质及产品制造方法及图纸

技术编号：29584130 阅读：12 留言：0更新日期：2021-08-06 19:42

本发明专利技术实施例提供一种数据入库方法、装置、设备、介质及产品，该方法包括：获取至少一行目标数据，各行目标数据中包括至少一列格式异常字段；针对每行目标数据，依次获取每列字段及每列字段对应的逻辑回归模型；按照预设的字段识别策略，从逻辑回归模型中确定与每列字段最相关的逻辑回归模型，采用最相关的逻辑回归模型识别对应列是否为格式异常字段；根据各识别结果构建目标数据中至少一列字段与目标数据库表结构中对应列的映射关系；根据映射关系将各列字段导入到目标数据库中。尽可能使两个数据库之间的数据一致，保证数据需求方系统在处理业务需要调用对应的数据库时，正常处理业务，防止错误现象发生。

全部详细技术资料下载

【技术实现步骤摘要】
数据入库方法、装置、设备、介质及产品
本专利技术实施例涉及数据处理
，尤其涉及一种数据入库方法、装置、设备、介质及产品。
技术介绍
随着移动互联网的发展，各个系统对应的数据库之间需要进行数据交互以满足业务需求。在数据库之间进行数据交互时，数据提供方系统将数据从数据提供方的数据库中导出成数据文件，通过网络或移动存储介质传递到数据需求方的系统上，再加载到数据需求方的数据库中。但由于数据在导出环节、网络传输环节会有出错的问题，或者由于数据本身内容或数据编码等问题，导致需要导入的数据的格式与数据库配置的表结构不匹配，进而出现无法正常导入到数据需求方数据库的格式异常数据，这些格式异常数据简称为“脏数据”。现有技术中，面对格式异常数据处理方式是直接进行抛弃，不再导入到数据需求方的数据库中。这就导致两个数据库之间的数据不一致的现象。在数据需求方系统在处理业务需要调用对应的数据库时，会出现无法处理业务或业务处理错误的现象发生。
技术实现思路
本专利技术实施例提供一种数据入库方法、装置、设备、介质及产品，用以解决现有技术中，导入数据时两个数据库之间的数据不一致的现象，在数据需求方系统在处理业务需要调用对应的数据库时，会出现无法处理业务或业务处理错误的现象发生的技术问题。第一方面，本专利技术实施例提供一种数据入库方法，包括：获取至少一行目标数据，各行目标数据中包括至少一列格式异常字段；针对每行目标数据，依次获取每列字段及每列字段对应的逻辑回归模型；按照预设的字段识...

【技术保护点】
1.一种数据入库方法，其特征在于，包括：/n获取至少一行目标数据，各行目标数据中包括至少一列格式异常字段；/n针对每行目标数据，依次获取每列字段及每列字段对应的逻辑回归模型；/n按照预设的字段识别策略，从所述逻辑回归模型中确定与每列字段最相关的逻辑回归模型，采用所述最相关的逻辑回归模型识别对应列是否为格式异常字段；/n根据各识别结果构建目标数据中至少一列字段与目标数据库表结构中对应列的映射关系；/n根据所述映射关系将各列字段导入到目标数据库中。/n

【技术特征摘要】
1.一种数据入库方法，其特征在于，包括：
获取至少一行目标数据，各行目标数据中包括至少一列格式异常字段；
针对每行目标数据，依次获取每列字段及每列字段对应的逻辑回归模型；
按照预设的字段识别策略，从所述逻辑回归模型中确定与每列字段最相关的逻辑回归模型，采用所述最相关的逻辑回归模型识别对应列是否为格式异常字段；
根据各识别结果构建目标数据中至少一列字段与目标数据库表结构中对应列的映射关系；
根据所述映射关系将各列字段导入到目标数据库中。

2.根据权利要求1所述的方法，其特征在于，获取每列字段对应的逻辑回归模型之前，还包括：
获取所述表结构中每列字段对应的特征；
除第一列和最后一列字段以外，针对第N列字段，将第N-1列字段对应的特征作为训练负样本，将第N列字段对应的特征作为训练正样本，对预设逻辑回归模型进行训练，以获得第N列字段对应的第一逻辑回归模型；将第N列字段对应的特征作为训练正样本，将第N+1列字段对应的特征作为训练负样本，对预设逻辑回归模型进行训练，以获得第N列字段对应的第二逻辑回归模型，将第一逻辑回归模型和第二逻辑回归模型均确定为第N列字段对应的逻辑回归模型；N为大于等于2的整数；
针对第一列字段和最后一列字段，将本列字段对应的特征作为训练正样本，将相邻列字段对应的特征作为训练负样本，对预设逻辑回归模型进行训练，以获得本列字段对应的逻辑回归模型。

3.根据权利要求2所述的方法，其特征在于，所述采用所述最相关的逻辑回归模型识别对应列字段是否为格式异常字段，包括：
若确定最相关的逻辑回归模型为一个，则将字段输入到最相关的逻辑回归模型中，输出是否为格式异常字段的识别结果；
若确定最相关的逻辑回归模型为两个，则将字段分别输入到最相关的两个逻辑回归模型中，分别输出是否为格式异常字段的识别结果，若确定至少一个逻辑回归模型对应的识别结果为格式异常字段，则确定该字段对应的识别结果为格式异常字段。

4.根据权利要求1-3任一项所述的方法，其特征在于，所述按照预设的字段识别策略，从所述逻辑回归模型中确定与每列字段最相关的逻辑回归模型，包括：
按照字段从前往后的顺序进行识别，直到某一列字段的识别结果为格式异常字段，再按照字段从后往前的顺序进行识别，直到某一列字段的识别结果为格式异常字段，针对从前往后的顺序进行识别以及从后往前的顺序进行识别的每一列字段，确定其对应的逻辑回归模型为最相关的逻辑回归模型；
针对两列字段识别结果为格式异常字段之间的至少一列字段，按照从头往后的顺序进行识别，确定识别结果为格式异常字段的第一列...

【专利技术属性】
技术研发人员：叶林，
申请(专利权)人：中国农业银行股份有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人