数据特征映射方法、装置、设备及存储介质制造方法及图纸

技术编号:33290696 阅读:22 留言:0更新日期:2022-05-01 00:08
本发明专利技术涉及人工智能领域,揭露一种数据特征映射方法,包括:提取待处理数据的多个数据特征值,对多个数据特征值进行分箱,得到多个分箱数据序列;根据分箱数据序列计算数据特征值的特征插值;当数据特征值中不存在缺失值时,则将特征插值及分箱区间边界值分别进行特征映射,得到待处理数据的映射数据;当数据特征值中存在缺失值时,则将缺失值、特征插值和分箱区间边界值分别进行特征映射,得到待处理数据的映射数据。本发明专利技术还涉及一种区块链技术,映射数据可存储在区块链节点中。本发明专利技术还提出一种数据特征映射装置、设备以及介质。本发明专利技术可以提高数据特征值的表达效果。发明专利技术可以提高数据特征值的表达效果。发明专利技术可以提高数据特征值的表达效果。

【技术实现步骤摘要】
数据特征映射方法、装置、设备及存储介质


[0001]本专利技术涉及人工智能
,尤其涉及一种数据特征映射方法、装置、电子设备及计算机可读存储介质。

技术介绍

[0002]当前,随着大数据的发展,数据应用也越来越广泛。在机器学习模型中需要对数据的连续变量进行离散化,可以使得模型更加稳定,降低模型过拟合的风险,在对数据连续变量进行离散化时,常常使用数据分箱方法实现离散化(即数据特征映射)。
[0003]但是,传统的方法实现离散化是将数值特征划分为固定区间,每个区间表示成一个离散特征。例如,某个数值特征的取值范围是1

100,将该数值特征分成10个区间,并对区间内的数值全部用一个特征映射值表示,使得原本不同的数值,因为分在一个区间中用同一个特征映射值表示,导致原始信息丢失,且不能很好的处理数据的空值与缺失值,导致数据表达的效果较差。

技术实现思路

[0004]本专利技术提供一种数据特征映射方法、装置、电子设备及计算机可读存储介质,其主要目的是提高数据特征值的表达效果。
[0005]为实现上述目的,本专利技术提供的一种数据特征映射方法,包括:
[0006]获取待处理数据,提取所述待处理数据的多个数据特征值,对多个所述数据特征值进行分箱,得到多个分箱数据序列,其中,所述分箱数据序列包括数据特征值和分箱区间边界值;
[0007]根据多个所述分箱数据序列计算多个所述数据特征值的特征插值;
[0008]判断多个所述数据特征值中是否存在缺失值;
[0009]若多个所述数据特征值中不存在缺失值,则将所述特征插值及所述分箱区间边界值分别进行特征映射,得到所述待处理数据的映射数据;
[0010]若多个所述数据特征值中存在缺失值,则将所述缺失值、所述特征插值和所述分箱区间边界值分别进行特征映射,得到所述待处理数据的映射数据。
[0011]可选地,所述将所述特征插值及所述分箱区间边界值分别进行特征映射,得到待处理数据的映射数据,包括:
[0012]利用预设的编码器将所述特征插值及所述分箱区间边界值分别进行位置编码,得到待处理数据的特征向量集;
[0013]利用预设的解码器将所述待处理数据的特征向量集转化为特征矩阵;
[0014]将所述特征矩阵映射至低维空间中,得到待处理数据的映射数据。
[0015]可选地,所述利用预设的编码器将所述特征插值及所述分箱区间边界值分别进行位置编码,得到待处理数据的特征向量集,包括:
[0016]利用预设的编码器分别对所述特征插值及所述分箱区间边界值进行位置索引编
码,得到特征插值位置索引和分箱区间边界值位置索引;
[0017]将所述特征插值及所述分箱区间边界值分别转化成对应的向量,得到特征插值向量和分箱区间边界值向量;
[0018]将所述分箱区间边界值位置索引和所述分箱区间边界值向量进行组合,生成分箱区间边界值向量集;
[0019]将所述特征插值位置索引和特征插值向量进行组合,生成特征插值向量集;
[0020]汇总所述分箱区间边界值向量集和所述特征插值向量集,得到待处理数据的特征向量集。
[0021]可选地,所述对多个所述数据特征值进行分箱,得到多个分箱数据序列,包括:
[0022]获取多个所述数据特征值之中的最大值及最小值,以及预设的分箱数量;
[0023]根据所述最大值、所述最小值及所述分箱数量,确定分箱区间,并根据所述分箱区间确定分箱区间边界值;
[0024]根据所述分箱区间边界值和所述分箱区间,对多个所述数据特征值进行等距分箱处理,得到多个分箱数据序列。
[0025]可选地,所述根据多个所述分箱数据序列计算多个所述数据特征值的特征插值,包括:
[0026]确定多个所述数据特征值所处的分箱数据序列,并获取所述分箱数据序列中的所述分箱区间边界值;
[0027]利用所述分箱区间边界值和预设公式计算多个所述数据特征值的特征插值。
[0028]可选地,所述将所述缺失值、所述特征插值、所述分箱区间边界值进行特征映射,得到所述待处理数据的映射数据之后,所述方法还包括:
[0029]获取所述缺失值的缺失位置,在所述缺失位置填充预设的填充参数,并计算所述填充参数的缺失值概率;
[0030]根据所述缺失位置、填充参数以及缺失值概率,生成填充的缺失值。
[0031]可选地,所述提取所述待处理数据的多个数据特征值之后,所述方法还包括:
[0032]对多个数据特征值进行数据清洗处理,得到清洗后的数据特征值,所述数据清洗处理包括删除所述数据特征值中的异常数据或无效值。
[0033]为了解决上述问题,本专利技术还提供一种数据特征映射装置,所述装置包括:
[0034]分箱模块,用于获取待处理数据,提取所述待处理数据的多个数据特征值,对多个所述数据特征值进行分箱,得到多个分箱数据序列,其中,所述分箱数据序列包括数据特征值和分箱区间边界值;
[0035]特征插值计算模块,用于根据多个所述分箱数据序列计算多个所述数据特征值的特征插值;
[0036]特征映射模块,用于判断多个所述数据特征值中是否存在缺失值;若多个所述数据特征值中不存在缺失值,则将所述特征插值及所述分箱区间边界值分别进行特征映射,得到所述待处理数据的映射数据;若多个所述数据特征值中存在缺失值,则将所述缺失值、所述特征插值和所述分箱区间边界值分别进行特征映射,得到所述待处理数据的映射数据。
[0037]为了解决上述问题,本专利技术还提供一种电子设备,所述电子设备包括:
[0038]存储器,存储至少一个计算机程序;及
[0039]处理器,执行所述存储器中存储的计算机程序以实现上述所述的数据特征映射方法。
[0040]为了解决上述问题,本专利技术还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一个计算机程序,所述至少一个计算机程序被电子设备中的处理器执行以实现上述所述的数据特征映射方法。
[0041]本专利技术实施例中,首先获取待处理数据,提取所述待处理数据的多个数据特征值,对多个所述数据特征值进行分箱,得到多个分箱数据序列,其中,所述分箱数据序列包括数据特征值和分箱区间边界值,进行分箱后的数据特征值有很强的鲁棒性,分箱后的数据特征值可以进行特征交叉,可以提升数据特征值的表达性,保证原始数据信息的完整性;其次,根据多个所述分箱数据序列计算多个所述数据特征值的特征插值,通过计算特征插值可以提高后续提取信息的准确性;最后,若是存在多个数据特征值中的缺失值,则将所述缺失值、所述特征插值、所述分箱区间边界值进行特征映射,得到待处理数据的映射数据,可以实现用不同的映射数据来表示分箱区间中不同的数值,即使两个数值有很微小的差异,也可以有不同的映射数据表示,还可以表示缺失值,从而提高数据特征值的表达效果。因此本专利技术实施例提出的数据特征映射方法、装置、电子设备及可存储介质可以提高数据特征值的表达效果。本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据特征映射方法,其特征在于,所述方法包括:获取待处理数据,提取所述待处理数据的多个数据特征值,对多个所述数据特征值进行分箱,得到多个分箱数据序列,其中,所述分箱数据序列包括数据特征值和分箱区间边界值;根据多个所述分箱数据序列计算多个所述数据特征值的特征插值;判断多个所述数据特征值中是否存在缺失值;若多个所述数据特征值中不存在缺失值,则将所述特征插值及所述分箱区间边界值分别进行特征映射,得到所述待处理数据的映射数据;若多个所述数据特征值中存在缺失值,则将所述缺失值、所述特征插值和所述分箱区间边界值分别进行特征映射,得到所述待处理数据的映射数据。2.如权利要求1所述的数据特征映射方法,其特征在于,所述将所述特征插值及所述分箱区间边界值分别进行特征映射,得到待处理数据的映射数据,包括:利用预设的编码器将所述特征插值及所述分箱区间边界值分别进行位置编码,得到待处理数据的特征向量集;利用预设的解码器将所述待处理数据的特征向量集转化为特征矩阵;将所述特征矩阵映射至低维空间中,得到待处理数据的映射数据。3.如权利要求2所述的数据特征映射方法,其特征在于,所述利用预设的编码器将所述特征插值及所述分箱区间边界值分别进行位置编码,得到待处理数据的特征向量集,包括:利用预设的编码器分别对所述特征插值及所述分箱区间边界值进行位置索引编码,得到特征插值位置索引和分箱区间边界值位置索引;将所述特征插值及所述分箱区间边界值分别转化成对应的向量,得到特征插值向量和分箱区间边界值向量;将所述分箱区间边界值位置索引和所述分箱区间边界值向量进行组合,生成分箱区间边界值向量集;将所述特征插值位置索引和特征插值向量进行组合,生成特征插值向量集;汇总所述分箱区间边界值向量集和所述特征插值向量集,得到待处理数据的特征向量集。4.如权利要求1至3中任一项所述的数据特征映射方法,其特征在于,所述对多个所述数据特征值进行分箱,得到多个分箱数据序列,包括:获取多个所述数据特征值之中的最大值及最小值,以及预设的分箱数量;根据所述最大值、所述最小值及所述分箱数量,确定分箱区间,并根据所述分箱区间确定分箱区间边界值;根据所述分箱区间边界值和所述分箱区间,对多个所述数据特征值进行等距分箱处理,得到多个分箱数据序列。5.如权利要求...

【专利技术属性】
技术研发人员:陆凯
申请(专利权)人:中国平安人寿保险股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1