数据录入方法、装置、电子设备及计算机可读存储介质制造方法及图纸

技术编号：25223940 阅读：10 留言：0更新日期：2020-08-11 23:13

本发明专利技术涉及大数据领域，揭露了一种数据录入的方法，包括：获取原始数据集，对所述原始数据集进行预处理，得到标准数据集；识别所述标准数据集中的特征词，根据所述特征词筛选出所述标准数据集的数据类型，利用预设的分类模型对所述数据类型进行分类处理，得到目标数据集；将所述目标数据集与预构建数据库的目标表进行数据类型匹配；在所述数据类型匹配失败时，对所述分类模型中的分类器函数进行参数调整后重新对所述数据类型进行分类处理，得到目标数据集；在所述数据类型匹配成功时，将所述目标数据集中的数据录入至对应的目标表中。本发明专利技术还提出一种数据录入装置、电子设备以及计算机可读存储介质。本发明专利技术可以实现智能化的数据录入。

全部详细技术资料下载

【技术实现步骤摘要】
数据录入方法、装置、电子设备及计算机可读存储介质
本专利技术涉及大数据
，尤其涉及一种数据录入的方法、装置、电子设备及计算机可读存储介质。
技术介绍
目前，在数据录入数据库时，有一部分数据需要用户手动上传，例如业务数据、产品数据以及财务数据，这些数据由于来源不同，通常表字段类型和大小形式多样，导入的目标库不同，模板格式难以完全统一，非研发同事前期数据准备工作繁琐，容易带来极大的时间和人员成本。
技术实现思路
本专利技术提供一种数据录入的方法、装置、电子设备及计算机可读存储介质，其主要目的在于提供一种数据录入的技术方案，以帮助用户降低在数据录入数据库时的时间和人员成本。为实现上述目的，本专利技术提供的一种数据录入方法，包括：获取原始数据集，对所述原始数据集进行预处理操作，得到标准数据集；利用预构建的语义识别模型识别所述标准数据集中的特征词，根据所述特征词，筛选出所述标准数据集的数据类型，并利用预设的分类模型对所述数据类型进行分类处理，得到目标数据集；通过预设的匹配算法将所述目标数据集与预构建数据库中的目标表进行数据类型匹配；若所述数据类型匹配失败，对所述分类模型中的分类器函数进行参数调整后重新对所述数据类型进行分类处理，得到目标数据集；若所述数据类型匹配成功，将所述目标数据集中的数据录入至对应的目标表中。可选地，所述预处理操作包括去重、去异常以及缺失值检测。可选地，所述去异常包括：利用双边测试剔除、最小值单边测试剔除或最大值单边测...

【技术保护点】
1.一种数据录入方法，其特征在于，所述方法包括：/n获取原始数据集，对所述原始数据集进行预处理操作，得到标准数据集；/n利用预构建的语义识别模型识别所述标准数据集中的特征词，根据所述特征词，筛选出所述标准数据集的数据类型，并利用预设的分类模型对所述数据类型进行分类处理，得到目标数据集；/n通过预设的匹配算法将所述目标数据集与预构建数据库中的目标表进行数据类型匹配；/n若所述数据类型匹配失败，对所述分类模型中的分类器函数进行参数调整后重新对所述数据类型进行分类处理，得到目标数据集；/n若所述数据类型匹配成功，将所述目标数据集中的数据录入至对应的目标表中。/n

【技术特征摘要】
1.一种数据录入方法，其特征在于，所述方法包括：
获取原始数据集，对所述原始数据集进行预处理操作，得到标准数据集；
利用预构建的语义识别模型识别所述标准数据集中的特征词，根据所述特征词，筛选出所述标准数据集的数据类型，并利用预设的分类模型对所述数据类型进行分类处理，得到目标数据集；
通过预设的匹配算法将所述目标数据集与预构建数据库中的目标表进行数据类型匹配；
若所述数据类型匹配失败，对所述分类模型中的分类器函数进行参数调整后重新对所述数据类型进行分类处理，得到目标数据集；
若所述数据类型匹配成功，将所述目标数据集中的数据录入至对应的目标表中。

2.如权利要求1所述的数据录入方法，其特征在于，所述预处理操作包括去重、去异常以及缺失值检测。

3.如权利要求2所述的数据录入方法，其特征在于，所述去异常包括：利用双边测试剔除、最小值单边测试剔除或最大值单边测试剔除，得到去重后的所述原始数据集中的异常数据G；
其中，双边测试剔除数据的计算方法包括：

其中，i属于正整数，表示去重后的所述原始数据集的平均值，S表示去重后的所述原始数据集的标准差，Yi表示去重后的所述原始数据集；
所述最小值单边测试剔除的计算方法包括：

其中，表示去重后的所述原始数据集的平均值，Ymin表示去重后的所述原始数据集中最小的数据，S表示去重后的所述原始数据集的标准差；
所述最大值单边测试剔除的计算方法包括：

其中，表示去重后的所述原始数据集的平均值，Ymmax表示去重后的所述原始数据集中最大的数据，S表示去重后的所述原始数据集的标准差。

4.如权利要求3所述的数据录入方法，其特征在于，所述缺失值检测包括：
通过缺失函数检测去异常后的所述原始数据集中存在的数据缺失值；
利用下述填充算法对数据缺失值进行填充：

其中，L(θ)表示填充的数据缺失值，xi表示第i个数据缺失值，θ表示填充的数据缺失值对应的概率参数，n表示去异常后的所述原始数据集的数量，p(xi|θ)表示填充的数据缺失值概率。

5.如权利要求1所述的数据录入方法，其特征在于，所述通过预设的匹配算法将所述目标数据集与预构建数据库中的目标表进行数据类型匹配，包括：
对所述目标数据集中的数据类型建立目标数据矩阵：
H(i，0)＝0，0≤i≤m；
其中，i表示目标数据集中第i个数据类型的字符串长度，m表示目标数据集中所有数据类型的字符串长度总和；
对所述目标表的数据类型建立目标表矩阵为：
H(0，j)＝0，0≤j≤n；
其中，j表示目标表中第j个数据类...

【专利技术属性】
技术研发人员：孔小敏，
申请(专利权)人：中国平安人寿保险股份有限公司，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人