数据向量化处理方法、装置、电子设备及存储介质制造方法及图纸

技术编号:39317929 阅读:9 留言:0更新日期:2023-11-12 16:00
本公开提供了一种数据向量化处理方法、装置、电子设备及存储介质,涉及建模技术领域。本公开通过获取待处理的连续特征数据;对连续特征数据进行切分处理,得到多个子连续特征数据,确定并生成每个子连续特征数据第一端点值对应的第一向量以及第二端点值对应的第二向量;将每个子连续特征数据对应的第一向量、第二向量以及每个子连续特征数据对应第一端点值和第二端点值之间各个连续特征值对应的向量,生成每个子连续特征数据对应的向量化处理结果,最终得到整个连续特征数据对应的向量化处理结果。本公开使得连续特征数据的向量化结果兼顾了非线性能力和连续能力,进而优化现有模型训练特征中连续特征的表达能力。模型训练特征中连续特征的表达能力。模型训练特征中连续特征的表达能力。

【技术实现步骤摘要】
数据向量化处理方法、装置、电子设备及存储介质


[0001]本公开涉及建模
,尤其涉及一种数据向量化处理方法、装置、电子设备及存储介质。

技术介绍

[0002]数据处理在建模过程中尤为重要,通常可以将数据的特征分为类别型特征和连续特征,类别特征处理有onehot encoding及序列编码等方式,连续特征可以采用线性归一化、非线性变换、多项式变化及自定义变换的方式处理,而这些方式只保持了连续能力,没有增加非线性能力;现有方法中,通过离散化可以增加连续特征的非线性表达,但是同时也失去了连续性能力。
[0003]因此在对连续特征数据进行向量化处理时,如何兼顾连续特征数据的非线性能力和连续性能力是亟待解决的技术问题。
[0004]需要说明的是,在上述
技术介绍
部分公开的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

技术实现思路

[0005]本公开提供一种数据向量化处理方法、装置、电子设备及存储介质,至少在一定程度上克服相关技术中对连续特征数据的向量化处理不能兼顾连续特征数据的连续性能力和非线性能力的问题。
[0006]本公开的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本公开的实践而习得。
[0007]根据本公开的一个方面,提供了一种数据向量化处理方法,包括:获取待处理的连续特征数据;对所述连续特征数据进行切分处理,得到多个子连续特征数据,其中,每个子连续特征数据包括:第一端点值、第二端点值以及位于第一端点值和第二端点值之间的多个连续特征值;确定第一端点值对应的第一向量以及第二端点值对应的第二向量;根据第一端点值对应的第一向量以及第二端点值对应的第二向量,生成第一端点值和第二端点值之间每个连续特征值对应的向量;将每个子连续特征数据对应的第一向量、第二向量以及每个子连续特征数据对应第一端点值和第二端点值之间各个连续特征值对应的向量,生成每个子连续特征数据对应的向量化处理结果;根据所述连续特征数据中多个子连续特征数据对应的向量化处理结果,生成所述连续特征数据对应的向量化处理结果。
[0008]在一些实施例中,根据第一端点值对应的第一向量以及第二端点值对应的第二向量,生成第一端点值和第二端点值之间每个连续特征值对应的向量,包括:确定第一向量对应的第一系数以及第二向量对应的第二系数,所述第一系数用于表征每个连续特征值与第一端点值之间的向量距离权重,所述第二系数用于表征每个连续特征值与第二端点值之间的向量距离权重;根据第一端点值对应的第一向量、第二端点值对应的第二向量、第一向量对应的第一系数以及第二向量对应的第二系数,生成第一端点值和第二端点值之间每个连
续特征值对应的向量。
[0009]在一些实施例中,确定第一向量对应的第一系数以及第二向量对应的第二系数,包括:对第一端点值和第二端点值分别进行编码,生成第一端点值对应的第一编码值以及第二端点值对应的第二编码值;根据第一端点值对应的第一编码值以及第二端点值对应的第二编码值,确定所述第一端点值和第二端点值之间每个连续特征值对应的编码值;根据所述第一端点值和第二端点值之间每个连续特征值对应的编码值,确定第一向量对应的第一系数以及第二向量对应的第二系数。
[0010]在一些实施例中,确定第一向量对应的第一系数以及第二向量对应的第二系数,包括:通过如下公式确定所述第一端点值和第二端点值之间每个连续特征值对应的编码权重值:t=(x

x
i1
)/(x
i2

x
i1
)其中,x表示连续特征值,t表示连续特征值x的编码权重值,x
i1
表示第一端点值,x
i2
表示第二端点值,所述编码权重值t用于确定第一向量对应的第一系数以及第二向量对应的第二系数。
[0011]在一些实施例中,通过如下公式确定第一端点值和第二端点值之间每个连续特征值对应的向量:v=(1

t)v1+tv2;其中,v表示每个连续特征值对应的向量,v1表示第一向量,v2表示第二向量。
[0012]在一些实施例中,确定第一端点值对应的第一向量以及第二端点值对应的第二向量,包括:根据第一端点值对应的编码值确定第一端点值对应的第一向量;根据第二端点值对应的编码值确定第二端点值对应的第二向量。
[0013]在一些实施例中,上述方法还包括:根据第一端点值、第二端点值以及所述第一端点值和第二端点值之间每个连续特征值,确定每个连续特征值对应的第一距离权重值和第二距离权重值,所述第一距离权重值用于表征每个连续特征值与第一端点值之间的距离,所述第二距离权重值用于表征每个连续特征值与第二端点值之间的距离;根据第一端点值对应的编码值确定第一端点值对应的第一向量;根据第二端点值对应的编码值确定第二端点值对应的第二向量;根据第一向量、第二向量以及所述第一端点值和第二端点值之间每个连续特征值对应的编码值,生成所述第一端点值和第二端点值之间每个连续特征值对应的向量;将每个子连续特征数据对应的第一向量、第二向量以及每个子连续特征数据对应第一端点值和第二端点值之间各个连续特征值对应的向量,确定为每个子连续特征数据对应的向量化处理结果;根据所述连续特征数据中多个子连续特征数据对应的向量化处理结果,生成所述连续特征数据对应的向量化处理结果。
[0014]根据本公开的另一个方面,还提供了一种数据向量化处理装置,包括:连续特征数据获取模块,用于获取待处理的连续特征数据;连续特征数据切分模块,用于对所述连续特征数据进行切分处理,得到多个子连续特征数据,其中,每个子连续特征数据包括:第一端点值、第二端点值以及位于第一端点值和第二端点值之间的多个连续特征值;子连续特征向量生成模块,用于确定第一端点值对应的第一向量以及第二端点值对应的第二向量;根据第一端点值对应的第一向量以及第二端点值对应的第二向量,生成第一端点值和第二端点值之间每个连续特征值对应的向量;将每个子连续特征数据对应的第一向量、第二向量以及每个子连续特征数据对应第一端点值和第二端点值之间各个连续特征值对应的向量,生成每个子连续特征数据对应的向量化处理结果;连续特征向量生成模块,用于根据所述连续特征数据中多个子连续特征数据对应的向量化处理结果,生成所述连续特征数据对应
的向量化处理结果。
[0015]根据本公开的另一个方面,还提供了一种电子设备,该电子设备包括:处理器;以及存储器,用于存储所述处理器的可执行指令;其中,所述处理器配置为经由执行所述可执行指令来执行上述任意一项所述的数据向量化处理方法。
[0016]根据本公开的另一个方面,还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任意一项所述的数据向量化处理方法。
[0017]根据本公开的另一个方面,还提供了一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现上述任意一项的数据向量化处理方法。
[0本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据向量化处理方法,其特征在于,包括:获取待处理的连续特征数据;对所述连续特征数据进行切分处理,得到多个子连续特征数据,其中,每个子连续特征数据包括:第一端点值、第二端点值以及位于第一端点值和第二端点值之间的多个连续特征值;确定第一端点值对应的第一向量以及第二端点值对应的第二向量;根据第一端点值对应的第一向量以及第二端点值对应的第二向量,生成第一端点值和第二端点值之间每个连续特征值对应的向量;将每个子连续特征数据对应的第一向量、第二向量以及每个子连续特征数据对应第一端点值和第二端点值之间各个连续特征值对应的向量,生成每个子连续特征数据对应的向量化处理结果;根据所述连续特征数据中多个子连续特征数据对应的向量化处理结果,生成所述连续特征数据对应的向量化处理结果。2.根据权利要求1所述的数据向量化处理方法,其特征在于,根据第一端点值对应的第一向量以及第二端点值对应的第二向量,生成第一端点值和第二端点值之间每个连续特征值对应的向量,包括:确定第一向量对应的第一系数以及第二向量对应的第二系数,所述第一系数用于表征每个连续特征值与第一端点值之间的向量距离权重,所述第二系数用于表征每个连续特征值与第二端点值之间的向量距离权重;根据第一端点值对应的第一向量、第二端点值对应的第二向量、第一向量对应的第一系数以及第二向量对应的第二系数,生成第一端点值和第二端点值之间每个连续特征值对应的向量。3.根据权利要求2所述的数据向量化处理方法,其特征在于,确定第一向量对应的第一系数以及第二向量对应的第二系数,包括:对第一端点值和第二端点值分别进行编码,生成第一端点值对应的第一编码值以及第二端点值对应的第二编码值;根据第一端点值对应的第一编码值以及第二端点值对应的第二编码值,确定所述第一端点值和第二端点值之间每个连续特征值对应的编码值;根据所述第一端点值和第二端点值之间每个连续特征值对应的编码值,确定第一向量对应的第一系数以及第二向量对应的第二系数。4.根据权利要求2所述的数据向量化处理方法,其特征在于,确定第一向量对应的第一系数以及第二向量对应的第二系数,包括:通过如下公式确定所述第一端点值和第二端点值之间每个连续特征值对应的编码权重值:t=(x

x
i1
)/(x
i2

x
i1
)其中,x表示连续特征值,t表示连续特征值x的编码权重值,x
i1
表示第一端点值,x
i2
表示第二端点值,所述编码权重值t用于确定第一向量对应的第一系数以及第二向量对应的第二系数。5.根据权利要求4所述的数据向量化处理方法,其特征在于,
通过如下公式确定第一端点值和第二端点值之间每个连续特征值...

【专利技术属性】
技术研发人员:郭枝虾李馨迟
申请(专利权)人:中国电信股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1