数据录入方法、装置、电子设备及计算机可读存储介质制造方法及图纸

技术编号:25223940 阅读:10 留言:0更新日期:2020-08-11 23:13
本发明专利技术涉及大数据领域,揭露了一种数据录入的方法,包括:获取原始数据集,对所述原始数据集进行预处理,得到标准数据集;识别所述标准数据集中的特征词,根据所述特征词筛选出所述标准数据集的数据类型,利用预设的分类模型对所述数据类型进行分类处理,得到目标数据集;将所述目标数据集与预构建数据库的目标表进行数据类型匹配;在所述数据类型匹配失败时,对所述分类模型中的分类器函数进行参数调整后重新对所述数据类型进行分类处理,得到目标数据集;在所述数据类型匹配成功时,将所述目标数据集中的数据录入至对应的目标表中。本发明专利技术还提出一种数据录入装置、电子设备以及计算机可读存储介质。本发明专利技术可以实现智能化的数据录入。

【技术实现步骤摘要】
数据录入方法、装置、电子设备及计算机可读存储介质
本专利技术涉及大数据
,尤其涉及一种数据录入的方法、装置、电子设备及计算机可读存储介质。
技术介绍
目前,在数据录入数据库时,有一部分数据需要用户手动上传,例如业务数据、产品数据以及财务数据,这些数据由于来源不同,通常表字段类型和大小形式多样,导入的目标库不同,模板格式难以完全统一,非研发同事前期数据准备工作繁琐,容易带来极大的时间和人员成本。
技术实现思路
本专利技术提供一种数据录入的方法、装置、电子设备及计算机可读存储介质,其主要目的在于提供一种数据录入的技术方案,以帮助用户降低在数据录入数据库时的时间和人员成本。为实现上述目的,本专利技术提供的一种数据录入方法,包括:获取原始数据集,对所述原始数据集进行预处理操作,得到标准数据集;利用预构建的语义识别模型识别所述标准数据集中的特征词,根据所述特征词,筛选出所述标准数据集的数据类型,并利用预设的分类模型对所述数据类型进行分类处理,得到目标数据集;通过预设的匹配算法将所述目标数据集与预构建数据库中的目标表进行数据类型匹配;若所述数据类型匹配失败,对所述分类模型中的分类器函数进行参数调整后重新对所述数据类型进行分类处理,得到目标数据集;若所述数据类型匹配成功,将所述目标数据集中的数据录入至对应的目标表中。可选地,所述预处理操作包括去重、去异常以及缺失值检测。可选地,所述去异常包括:利用双边测试剔除、最小值单边测试剔除或最大值单边测试剔除,得到去重后的所述原始数据集中的异常数据G;其中,所述双边测试剔除数据的计算方法包括:其中,i属于正整数,表示去重后的所述原始数据集的平均值,S表示去重后的所述原始数据集的标准差,Yi表示去重后的所述原始数据集;所述最小值单边测试剔除的计算方法包括:其中,表示去重后的所述原始数据集的平均值,Ymin表示去重后的所述原始数据集中最小的数据,S表示去重后的所述原始数据集的标准差;所述最大值单边测试剔除的计算方法包括:其中,表示去重后的所述原始数据集的平均值,Ymmax表示去重后的所述原始数据集中最大的数据,S表示去重后的所述原始数据集的标准差。可选地,所述缺失值检测包括:通过缺失函数检测去异常后的所述原始数据集中存在的数据缺失值;利用下述填充算法对数据缺失值进行填充:其中,L(θ)表示填充的数据缺失值,xi表示第i个数据缺失值,θ表示填充的数据缺失值对应的概率参数,n表示去异常后的所述原始数据集的数量,p(xi|θ)表示填充的数据缺失值概率。可选地,所述通过预设的匹配算法将所述目标数据集与预构建数据库中的目标表进行数据类型匹配,包括:对所述目标数据集中的数据类型建立目标数据矩阵:H(i,0)=0,0≤i≤m;其中,i表示目标数据集中第i个数据类型的字符串长度,m表示目标数据集中所有数据类型的字符串长度总和;对所述目标表的数据类型建立目标表矩阵为:H(0,j)=0,0≤j≤n;其中,j表示目标表中第j个数据类型的字符串长度,n表示目标表中所有数据类型的字符串长度总和;计算所述目标数据矩阵和目标表矩阵的匹配得分,将所述匹配得分与预设的阈值进行比较,根据比较结果完成所述数据类型的匹配。可选地,所述计算所述目标数据矩阵和目标表矩阵的匹配得分,包括:利用下述计算公式计算所述目标数据矩阵和目标表矩阵的匹配得分:w=(H(i-1,j-1)+S(am,bn))其中,w表示匹配得分,am表示目标数据矩阵中所有数据类型的字符串,bn表示目标表矩阵中所有数据类型的字符串,S(am,bn)表示目标数据矩阵与目标表矩阵的相似系数。为了解决上述问题,本专利技术还提供一种数据录入装置,所述装置包括:预处理模块,用于获取原始数据集,对所述原始数据集进行预处理操作,得到标准数据集;识别模块,用于利用预构建的语义识别模型识别所述标准数据集中的特征词,根据所述特征词,筛选出所述标准数据集的数据类型,并利用预设的分类模型对所述数据类型进行分类处理,得到目标数据集;匹配模块,用于通过预设的匹配算法将所述目标数据集与预构建数据库中的目标表进行数据类型匹配;判断模块,用于在所述数据类型匹配失败时,对所述分类模型中的分类器函数进行参数调整后重新对所述数据类型进行分类处理,得到目标数据集,在所述数据类型匹配成功时,将所述目标数据集中的数据录入至对应的目标表中。可选地,所述通过预设的匹配算法将所述目标数据集与预构建数据库中的目标表进行数据类型匹配,包括:对所述目标数据集中的数据类型建立目标数据矩阵:H(i,0)=0,0≤i≤m;其中,i表示目标数据集中第i个数据类型的字符串长度,m表示目标数据集中所有数据类型的字符串长度总和;对所述目标表的数据类型建立目标表矩阵为:H(0,j)=0,0≤j≤n;其中,j表示目标表中第j个数据类型的字符串长度,n表示目标表中所有数据类型的字符串长度总和;计算所述目标数据矩阵和目标表矩阵的匹配得分,将所述匹配得分与预设的阈值进行比较,根据比较结果完成所述数据类型的匹配。为了解决上述问题,本专利技术还提供一种电子设备,所述电子设备包括:存储器,存储至少一个指令;及处理器,执行所述存储器中存储的指令以实现上述中任意一项所述的数据录入方法。为了解决上述问题,本专利技术还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一个指令,所述至少一个指令被电子设备中的处理器执行以实现上述中任意一项所述的数据录入方法。本专利技术实施例通过对获取的原始数据集进行预处理,保证了得到的数据集中数据的精确性同时可以支持批量数据的录入,节省了大量的前期数据准备时间;利用语义识别算法识别出预处理后所述数据集中的数据类型,得到目标数据集,可以将标准数据集进行一个很好的归类,并结合预设的匹配算法将所述目标数据集与预构建数据库中的目标表进行数据类型匹配,无需人工再次手动一步一步的上传数据就可以快速将数据录入数据库的目标表中。因此本专利技术提出的数据录入的方法、装置及计算机可读存储介质,可以帮助用户降低在数据录入数据库时的时间和人员成本。附图说明图1为本专利技术一实施例提供的数据录入方法的流程示意图;图2为本专利技术一实施例提供的数据录入方法的模块示意图;图3为本专利技术一实施例提供的数据录入方法的电子设备的内部结构示意图;本专利技术目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。具体实施方式应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。本专利技术提供一种数据录入的方法。参照图1所示,为本专利技术一实施例提供的数据录入方法的流程示意图。该方法可以由一个装置执行,该装置可以由本文档来自技高网...

【技术保护点】
1.一种数据录入方法,其特征在于,所述方法包括:/n获取原始数据集,对所述原始数据集进行预处理操作,得到标准数据集;/n利用预构建的语义识别模型识别所述标准数据集中的特征词,根据所述特征词,筛选出所述标准数据集的数据类型,并利用预设的分类模型对所述数据类型进行分类处理,得到目标数据集;/n通过预设的匹配算法将所述目标数据集与预构建数据库中的目标表进行数据类型匹配;/n若所述数据类型匹配失败,对所述分类模型中的分类器函数进行参数调整后重新对所述数据类型进行分类处理,得到目标数据集;/n若所述数据类型匹配成功,将所述目标数据集中的数据录入至对应的目标表中。/n

【技术特征摘要】
1.一种数据录入方法,其特征在于,所述方法包括:
获取原始数据集,对所述原始数据集进行预处理操作,得到标准数据集;
利用预构建的语义识别模型识别所述标准数据集中的特征词,根据所述特征词,筛选出所述标准数据集的数据类型,并利用预设的分类模型对所述数据类型进行分类处理,得到目标数据集;
通过预设的匹配算法将所述目标数据集与预构建数据库中的目标表进行数据类型匹配;
若所述数据类型匹配失败,对所述分类模型中的分类器函数进行参数调整后重新对所述数据类型进行分类处理,得到目标数据集;
若所述数据类型匹配成功,将所述目标数据集中的数据录入至对应的目标表中。


2.如权利要求1所述的数据录入方法,其特征在于,所述预处理操作包括去重、去异常以及缺失值检测。


3.如权利要求2所述的数据录入方法,其特征在于,所述去异常包括:利用双边测试剔除、最小值单边测试剔除或最大值单边测试剔除,得到去重后的所述原始数据集中的异常数据G;
其中,双边测试剔除数据的计算方法包括:



其中,i属于正整数,表示去重后的所述原始数据集的平均值,S表示去重后的所述原始数据集的标准差,Yi表示去重后的所述原始数据集;
所述最小值单边测试剔除的计算方法包括:



其中,表示去重后的所述原始数据集的平均值,Ymin表示去重后的所述原始数据集中最小的数据,S表示去重后的所述原始数据集的标准差;
所述最大值单边测试剔除的计算方法包括:



其中,表示去重后的所述原始数据集的平均值,Ymmax表示去重后的所述原始数据集中最大的数据,S表示去重后的所述原始数据集的标准差。


4.如权利要求3所述的数据录入方法,其特征在于,所述缺失值检测包括:
通过缺失函数检测去异常后的所述原始数据集中存在的数据缺失值;
利用下述填充算法对数据缺失值进行填充:



其中,L(θ)表示填充的数据缺失值,xi表示第i个数据缺失值,θ表示填充的数据缺失值对应的概率参数,n表示去异常后的所述原始数据集的数量,p(xi|θ)表示填充的数据缺失值概率。


5.如权利要求1所述的数据录入方法,其特征在于,所述通过预设的匹配算法将所述目标数据集与预构建数据库中的目标表进行数据类型匹配,包括:
对所述目标数据集中的数据类型建立目标数据矩阵:
H(i,0)=0,0≤i≤m;
其中,i表示目标数据集中第i个数据类型的字符串长度,m表示目标数据集中所有数据类型的字符串长度总和;
对所述目标表的数据类型建立目标表矩阵为:
H(0,j)=0,0≤j≤n;
其中,j表示目标表中第j个数据类...

【专利技术属性】
技术研发人员:孔小敏
申请(专利权)人:中国平安人寿保险股份有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1