一种特征维度筛选方法、装置、计算机设备及存储介质制造方法及图纸

技术编号:38207844 阅读:6 留言:0更新日期:2023-07-21 16:56
本公开提供了一种特征维度筛选方法、装置、计算机设备及存储介质,其中,该方法包括:获取样本数据集;其中,所述样本数据集中的每个样本数据包含在待筛选的多个特征维度下的特征数据;基于各样本数据在多个特征维度组合下的特征数据,对逻辑回归模型进行训练,确定每次训练使用的特征维度组合对应的分类性能指标值;所述分类性能指标值用于表征所述逻辑回归模型对各样本数据的分类能力;基于所述分类性能指标值,确定目标特征维度组合;其中,各样本数据在所述目标特征维度组合下的各特征数据用于进行神经网络训练。数据用于进行神经网络训练。数据用于进行神经网络训练。

【技术实现步骤摘要】
一种特征维度筛选方法、装置、计算机设备及存储介质


[0001]本公开涉及神经网络
,具体而言,涉及一种特征维度筛选方法、装置、计算机设备及存储介质。

技术介绍

[0002]特征工程是一项工程活动,目的是从原始数据中提取特征数据以供算法或模型使用。
[0003]相关技术中,在进行特征工程时,开发人员往往根据开发经验选择对原始数据采用何种处理方式进行处理,并对得到的特征数据的特征维度进行手动筛选和验证,以得到需要的目标特征维度下的特征数据。在这一过程中需要耗费较多的人力,筛选效率较低,另外,受限于开发人员的个人经验,选择出的目标特征维度可能难以满足实际需要,由此可能会导致后续网络模型训练效果较差的问题。

技术实现思路

[0004]本公开实施例至少提供一种特征维度筛选方法、装置、计算机设备及存储介质。
[0005]第一方面,本公开实施例提供了一种特征维度筛选方法,包括:
[0006]获取样本数据集;其中,所述样本数据集中的每个样本数据包含在待筛选的多个特征维度下的特征数据;
[0007]基于各样本数据在多个特征维度组合下的特征数据,对逻辑回归模型进行训练,确定每次训练使用的特征维度组合对应的分类性能指标值;所述分类性能指标值用于表征所述逻辑回归模型对各样本数据的分类能力;
[0008]基于所述分类性能指标值,确定目标特征维度组合;其中,各样本数据在所述目标特征维度组合下的各特征数据用于进行神经网络训练。
[0009]第二方面,本公开实施例还提供一种特征维度筛选装置,包括:
[0010]获取模块,用于获取样本数据集;其中,所述样本数据集中的每个样本数据包含在待筛选的多个特征维度下的特征数据;
[0011]训练模块,用于基于各样本数据在多个特征维度组合下的特征数据,对逻辑回归模型进行训练,确定每次训练使用的特征维度组合对应的分类性能指标值;所述分类性能指标值用于表征所述逻辑回归模型对各样本数据的分类能力;
[0012]确定模块,用于基于所述分类性能指标值,确定目标特征维度组合;其中,各样本数据在所述目标特征维度组合下的各特征数据用于进行神经网络训练。
[0013]第三方面,本公开实施例还提供一种计算机设备,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当计算机设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行上述第一方面,或第一方面中任一种可能的实施方式中的步骤。
[0014]第四方面,本公开实施例还提供一种计算机可读存储介质,该计算机可读存储介
质上存储有计算机程序,该计算机程序被处理器运行时执行上述第一方面,或第一方面中任一种可能的实施方式中的步骤。
[0015]本公开实施例提供的特征维度筛选方法、装置、计算机设备及存储介质,基于样本数据集中各样本数据在多个特征维度组合下的特征数据,对逻辑回归模型进行训练,并基于每次训练过程中使用的特征维度组合对应的分类性能指标值,自动确定出能够用于进行神经网络训练的目标特征维度组合,实现了自动对特征维度进行筛选,提高了特征维度的筛选效率;并且基于训练过程中的分类性能指标值可以筛选出使得分类性能较佳的特征维度组合,提高了筛选出的特征维度的质量,进一步有利于后续神经网络训练效果的提升。
[0016]为使本公开的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
[0017]为了更清楚地说明本公开实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,此处的附图被并入说明书中并构成本说明书中的一部分,这些附图示出了符合本公开的实施例,并与说明书一起用于说明本公开的技术方案。应当理解,以下附图仅示出了本公开的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
[0018]图1示出了本公开实施例所提供的一种特征维度筛选方法的流程图;
[0019]图2示出了本公开实施例所提供的特征维度筛选方法中,对逻辑回归模型进行一轮训练的示意图;
[0020]图3a示出了本公开实施例所提供的特征维度筛选方法中,连续两轮训练中的第一轮训练的示意图;
[0021]图3b示出了本公开实施例所提供的特征维度筛选方法中,连续两轮训练中的第二轮训练的示意图;
[0022]图4示出了本公开实施例所提供的特征维度筛选方法中,进行特征维度筛选的示意图;
[0023]图5示出了本公开实施例所提供的一种特征维度筛选装置的架构示意图;
[0024]图6示出了本公开实施例所提供的一种计算机设备的结构示意图。
具体实施方式
[0025]为使本公开实施例的目的、技术方案和优点更加清楚,下面将结合本公开实施例中附图,对本公开实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本公开一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本公开实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本公开的实施例的详细描述并非旨在限制要求保护的本公开的范围,而是仅仅表示本公开的选定实施例。基于本公开的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本公开保护的范围。
[0026]应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
[0027]本文中术语“和/或”,仅仅是描述一种关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中术语“至少一种”表示多种中的任意一种或多种中的至少两种的任意组合,例如,包括A、B、C中的至少一种,可以表示包括从A、B和C构成的集合中选择的任意一个或多个元素。
[0028]可以理解的是,在使用本公开各实施例公开的技术方案之前,均应当依据相关法律法规通过恰当的方式对本公开所涉及个人信息的类型、使用范围、使用场景等告知用户并获得用户的授权。
[0029]例如,在响应于接收到用户的主动请求时,向用户发送提示信息,以明确地提示用户,其请求执行的操作将需要获取和使用到用户的个人信息。从而,使得用户可以根据提示信息来自主地选择是否向执行本公开技术方案的操作的电子设备、应用程序、服务器或存储介质等软件或硬件提供个人信息。
[0030]作为一种可选的但非限定性的实现方式,响应于接收到用户的主动请求,向用户发送提示信息的方式例如可以是弹窗的方式,弹窗中可以以文字的方式呈现提示信息。此外,弹窗中还可以承载供用户选择“同意”或者“不同意”向电子设备提供个人信息的选择控件。
[0031]可以理解的是,上述通知和获取用户授权过程仅是示意性的,不对本公开的实现方式构成限定,其它满足相关法本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种特征维度筛选方法,其特征在于,包括:获取样本数据集;其中,所述样本数据集中的每个样本数据包含在待筛选的多个特征维度下的特征数据;基于各样本数据在多个特征维度组合下的特征数据,对逻辑回归模型进行训练,确定每次训练使用的特征维度组合对应的分类性能指标值;所述分类性能指标值用于表征所述逻辑回归模型对各样本数据的分类能力;基于所述分类性能指标值,确定目标特征维度组合;其中,各样本数据在所述目标特征维度组合下的各特征数据用于进行神经网络训练。2.根据权利要求1所述的方法,其特征在于,所述基于各样本数据在多个特征维度组合下的特征数据,对逻辑回归模型进行训练,包括:将待筛选的多个特征维度中的每个特征维度分别作为一个候选特征维度组合,基于所述样本数据在各所述候选特征维度组合下的特征数据,对逻辑回归模型进行训练,确定各候选特征维度组合对应的分类性能指标值;基于各候选特征维度组合对应的分类性能指标值,从各候选特征维度组合中确定分类性能指标值最高的候选特征维度组合,作为中间特征维度组合;将待筛选的多个特征维度中,除所述中间特征维度组合外的每个特征维度分别加入所述中间特征维度组合,得到各个更新后的候选特征维度组合;返回基于所述样本数据在各所述候选特征维度组合下的特征数据,对逻辑回归模型进行训练的步骤,直至达到预设的截止条件,将最后得到的中间特征维度组合作为所述目标特征维度组合;其中,所述截止条件包括返回执行所述训练的轮数达到预设轮数,和/或,当前轮得到的所述中间特征维度组合的分类性能指标值,与上一轮的得到的所述中间特征维度组合的分类性能指标值的差值小于设定阈值。3.根据权利要求2所述的方法,其特征在于,所述基于所述样本数据在各所述候选特征维度组合下的特征数据,对逻辑回归模型进行训练,包括:根据当前轮训练过程中使用的所述候选特征维度组合中特征维度的个数,对当前轮使用的样本数据进行切分,得到多份样本数据;从所述多份样本数据中确定本轮训练过程中每次训练使用的样本数据,基于确定的样本数据对逻辑回归模型进行训练;其中,每次训练使用的样本数据的份数随训练次数的增加而增加,且每次训练使用的候选特征维度组合的数量随训练次数的增加而减少。4.根据权利要求3所述的方法,其特征在于,在每一轮所述训练中,根据以下步骤确定每次训练使用的候选特征组合;选取全部候选特征维度组合作为首次训练使用的候选特征维度组合;在得到当前次训练的各个候选特征维度组合的分类性能指标值后,将各个候选特征维度组合按照分类性能指标值从高到底的顺序进行排序后,按照预设比例选取排序在前的候选特征维度组合,作为下一次训练使用的候选特征维度组合。5.根据权利要求2所述的方法,其特征在于,所述基于所述分类性能指标值,确定目标特征维度组合...

【专利技术属性】
技术研发人员:刘宇
申请(专利权)人:抖音视界有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1