一种计算特征与标签关联度的方法、装置及电子设备制造方法及图纸

技术编号:37290217 阅读:20 留言:0更新日期:2023-04-21 01:39
本申请实施例提供一种计算特征与标签关联度的方法、装置及电子设备,应用于信息技术领域。应用本申请的方法,可以对已经训练好的待检测模型进行目标特征与目标标签关联度的检测,检测出的关联度是与该待检测模型相关且准确的。通过将验证数据集输入待检测模型中,对验证数据集中的目标特征值进行多次扰动,预测目标标签的值,实现了能够自动分析待检测模型中目标特征和目标标签的关联度,避免人工进行输入计算。在检测目标标签与目标特征关联度时,得到的是一个直接可以表示目标特征对目标标签影响力的关联度,而不需预测所有特征对目标标签的影响,因此,应用本申请的方法,还可以大幅减少算力的浪费。大幅减少算力的浪费。大幅减少算力的浪费。

【技术实现步骤摘要】
一种计算特征与标签关联度的方法、装置及电子设备


[0001]本申请涉及信息
,特别是涉及一种计算特征与标签关联度的方法、装置及电子设备。

技术介绍

[0002]随着人工智能的应用越来越广泛,传统上认为深度神经网络无需特征筛选,可以将全量的特征全部加载到深度模型中,让模型自动学习,对于重要的特征,其权重就较高;对于不重要的特征,则权重较低。但是全量特征的计算是需要大量算力,对于一个实际模型来说,通常每天都要基于最新的训练数据进行全量训练,因此不做任何特征筛选将会造成大量算力的浪费。
[0003]为了减少算力的浪费,在相关技术中,人们常用计算特征与标签之前的皮尔逊相关性系数得出特征与标签的相关性,或利用删除某一个特征后,重新训练模型,然后根据实际的效果,反推出特征是否重要。
[0004]然而,计算特征与标签之前的皮尔逊相关性系数只能获得理论上的常见的数学相关关系,而现实环境较为复杂,因此,采用计算特征与标签之前的皮尔逊相关性系数的方法,并不适用于现实模型中。
[0005]还有一种方法,是通过增减特征后模型的最终效果来判断特征与标签的关联度,该方法虽然能够应用在实际场景,但是当样本中包含多个特征时,需要对增减每一个特征来进行预测,从而对比多次的预测结果,才能确定出待检测模型中目标特征对目标标签的权重大小。该方法的好处是得到的关联度是通过实际验证的,可以应用在实际模型中,例如可以应用在预测房产额度的模型、预测视频播放流量的模型等网络模型。但如果要分析所有特征与目标标签的关联度,通常是需要对去掉某个特征后的数据进行训练,例如有N个特征,需要训练N次;而通常N>50,因此,应用通过增减特征后模型的最终效果来判断特征与标签的关联度的方法,仍然会消耗较多算力。

技术实现思路

[0006]本申请实施例的目的在于提供一种计算特征与标签关联度的方法、装置及电子设备,以实现在低算力消耗情况下获得特征与标签的关联度。具体技术方案如下:
[0007]在本申请实施的第一方面,首先提供了一种计算特征与标签关联度的方法,所述方法包括:
[0008]接收来自客户端组件的检测参数;其中,所述检测参数包括计算目标特征与目标标签之间关联度所需要的参数;
[0009]根据所述检测参数,调用待检测模型;其中,所述待检测模型用于依据输入的目标特征预测目标标签的值;
[0010]通过所述检测参数获取验证数据集;其中,所述验证数据集包括所述目标特征的取值,所述验证数据集用于输入进所述待检测模型中;
[0011]将所述验证数据集输入所述待检测模型,获得第一预测结果;
[0012]按照所述检测参数修改所述验证数据集中所述目标特征的取值,得到修改后的验证数据集;
[0013]将修改后的验证数据集输入所述待检测模型进行预测,得到第二预测结果;
[0014]根据所述第二预测结果与所述第一预测结果计算所述待检测模型中所述目标特征与所述目标标签的关联度。
[0015]在一种可能的实施方式中,所述检测参数包括扰动方法和扰动次数;其中,所述扰动方法表示修改所述目标特征取值的方法,所述扰动次数表示修改所述目标特征取值的次数,所述按照所述检测参数修改所述验证数据集中所述目标特征的取值,得到修改后的验证数据集,包括:
[0016]按照所述扰动方法,修改所述验证数据集中每条验证数据中目标特征的取值,得到修改后的验证数据集;
[0017]根据所述扰动次数,重复所述按照所述扰动方法,修改所述验证数据集中每条验证数据中目标特征的取值的步骤,得到与所述扰动次数相同个数的修改后的验证数据集。
[0018]在一种可能的实施方式中,所述扰动方法为按照正态分布方式扰动;所述按照所述扰动方法,修改所述验证数据集中每条验证数据中目标特征的取值,包括:
[0019]计算所述目标特征的取值在所述验证数据集内的呈正态分布时的均值及方差值,得到所述目标特征的取值在所述验证数据集内的正态分布曲线;
[0020]沿所述正态分布曲线随机改动每条验证数据中目标特征的取值。
[0021]在一种可能的实施方式中,所述根据所述第二预测结果与所述第一预测结果计算所述待检测模型中所述目标特征与所述目标标签的关联度,包括:
[0022]计算所述第二预测结果与所述第一预测结果的差值的平均值,得到所述待检测模型中所述目标特征与所述目标标签的关联度。
[0023]在一种可能的实施方式中,所述方法还包括:
[0024]将每次预测的第二预测结果作为中间结果反馈给所述客户端组件。
[0025]在一种可能的实施方式中,所述方法还包括:
[0026]将所述关联度,和/或,所述中间结果存储在数据库内;
[0027]接收来自所述客户端组件的查询信息,所述查询信息中包括待查询的目标特征及目标标签名称;
[0028]从所述数据库内查找到所述目标特征及目标标签名称对应的关联度,将包含所述关联度的查询结果反馈给所述客户端组件。
[0029]在本申请实施的第二方面,还提供了一种计算特征与标签关联度的装置,所述装置包括:
[0030]检测参数接收模块,用于接收来自客户端组件的检测参数;其中,所述检测参数包括计算目标特征与目标标签之间关联度所需要的参数;
[0031]待检测模型调用模块,用于根据所述检测参数,调用待检测模型;其中,所述待检测模型用于依据输入的目标特征预测目标标签的值;
[0032]验证数据集获取模块,用于通过所述检测参数获取验证数据集;其中,所述验证数据集包括所述目标特征的取值,所述验证数据集用于输入进所述待检测模型中;
[0033]第一预测结果获得模块,用于将所述验证数据集输入所述待检测模型,获得第一预测结果;
[0034]验证数据集修改模块,用于按照所述检测参数修改所述验证数据集中所述目标特征的取值,得到修改后的验证数据集;
[0035]第二预测结果获得模块,用于将修改后的验证数据集输入所述待检测模型进行预测,得到第二预测结果;
[0036]关联度计算模块,用于根据所述第二预测结果与所述第一预测结果计算所述待检测模型中所述目标特征与所述目标标签的关联度。
[0037]在一种可能的实施方式中,所述检测参数包括扰动方法和扰动次数;其中,所述扰动方法表示修改所述目标特征取值的方法,所述扰动次数表示修改所述目标特征取值的次数,所述验证数据集修改模块,包括:
[0038]修改验证数据集子模块,具体用于按照所述扰动方法,修改所述验证数据集中每条验证数据中目标特征的取值,得到修改后的验证数据集;
[0039]重复修改子模块,具体用于根据所述扰动次数,重复所述按照所述扰动方法,修改所述验证数据集中每条验证数据中目标特征的取值的步骤,得到与所述扰动次数相同个数的修改后的验证数据集。
[0040]在一种可能的实施方式中,所述扰动方法为按照正态分布方式扰动;所述修改验证数据集子模块本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种计算特征与标签关联度的方法,其特征在于,所述方法包括:接收来自客户端组件的检测参数;其中,所述检测参数包括计算目标特征与目标标签之间关联度所需要的参数;根据所述检测参数,调用待检测模型;其中,所述待检测模型用于依据输入的目标特征预测目标标签的值;通过所述检测参数获取验证数据集;其中,所述验证数据集包括所述目标特征的取值,所述验证数据集用于输入进所述待检测模型中;将所述验证数据集输入所述待检测模型,获得第一预测结果;按照所述检测参数修改所述验证数据集中所述目标特征的取值,得到修改后的验证数据集;将修改后的验证数据集输入所述待检测模型进行预测,得到第二预测结果;根据所述第二预测结果与所述第一预测结果计算所述待检测模型中所述目标特征与所述目标标签的关联度。2.根据权利要求1所述的方法,其特征在于,所述检测参数包括扰动方法和扰动次数;其中,所述扰动方法表示修改所述目标特征取值的方法,所述扰动次数表示修改所述目标特征取值的次数,所述按照所述检测参数修改所述验证数据集中所述目标特征的取值,得到修改后的验证数据集,包括:按照所述扰动方法,修改所述验证数据集中每条验证数据中目标特征的取值,得到修改后的验证数据集;根据所述扰动次数,重复所述按照所述扰动方法,修改所述验证数据集中每条验证数据中目标特征的取值的步骤,得到与所述扰动次数相同个数的修改后的验证数据集。3.根据权利要求2所述的方法,其特征在于,所述扰动方法为按照正态分布方式扰动;所述按照所述扰动方法,修改所述验证数据集中每条验证数据中目标特征的取值,包括:计算所述目标特征的取值在所述验证数据集内的呈正态分布时的均值及方差值,得到所述目标特征的取值在所述验证数据集内的正态分布曲线;沿所述正态分布曲线随机改动每条验证数据中目标特征的取值。4.根据权利要求1所述的方法,其特征在于,所述根据所述第二预测结果与所述第一预测结果计算所述待检测模型中所述目标特征与所述目标标签的关联度,包括:计算所述第二预测结果与所述第一预测结果的差值的平均值,得到所述待检测模型中所述目标特征与所述目标标签的关联度。5.根据权利要求1所述的方法,其特征在于,所述方法还包括:将每次预测的第二预测结果作为中间结果反馈给所述客户端组件。6.根据权利要求5所述的方法,其特征在于,所述方法还包括:将所述关联度,和/或,所述中间结果存储在数据库内;接收来自所...

【专利技术属性】
技术研发人员:李灏
申请(专利权)人:北京奇艺世纪科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1