System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种特征筛选方法、装置、设备及可读存储介质制造方法及图纸_技高网

一种特征筛选方法、装置、设备及可读存储介质制造方法及图纸

技术编号:40297455 阅读:8 留言:0更新日期:2024-02-07 20:45
本发明专利技术公开了一种特征筛选方法、装置、设备及可读存储介质,应用于计算机技术领域,包括:预先将存储区域划分为老年区和新生区;新生区和老年区用于存储特征和特征频率;当新生区中的特征数量达到合并阈值时,则将满足合并条件的特征数据合并到老年区;特征数据包括各个特征和各个特征相对应的频率值;当老年区中的特征数量达到丢弃阈值时,则将满足丢弃条件的特征数据进行丢弃处理,将老年区未丢弃的特征作为最终特征。本方法通过将用于存储特征数据的存储空间分为老年区和新生区,并采用丢弃和合并操作,可以在有限的内存下,高效地计算特征频率,实现了对特征数据的高效管理;并且节约了数据存储空间。

【技术实现步骤摘要】

本专利技术涉及计算机,特别涉及一种特征筛选方法、装置、设备及可读存储介质


技术介绍

1、推荐模型或者ctr(click-through rate,点击率)预估模型都有一个突出特点,即存在大量低频特征,并且低频特征通常服从幂律分布,即低频特征占比大,高频特征占比小,若直接利用包含大量低频特征的特征数据对模型进行训练,那么训练过程是非常复杂且无法保证模型质量。

2、现有的机器学习算法在处理大量低频特征时,通常需要大量的内存资源,例如预先统计每个特征的频率,保留高频特征,丢弃低频特征,由于在统计过程中涉及到用key和value的成对存储,对大量特征进行成对存储统计需要大量内存,这限制了在有限内存环境下对特征的处理。

3、因此,现有的特征筛选方法会占用大量内存,无法在有限内存条件下完成特征的筛选工作。


技术实现思路

1、有鉴于此,本专利技术的目的在于提供一种特征筛选方法、装置、设备及可读存储介质,解决了现有技术中特征筛选方法会占用大量内存,无法在有限内存条件下完成特征的筛选工作的问题。

2、为解决上述技术问题,本专利技术提供了一种特征筛选方法,包括:

3、预先将存储区域划分为老年区和新生区;所述新生区和所述老年区用于存储特征和特征频率;

4、当所述新生区中的特征数量达到合并阈值时,则将满足合并条件的特征数据合并到所述老年区;所述特征数据包括各个特征和各个特征相对应的频率值;

5、当所述老年区中的特征数量达到丢弃阈值时,则将满足丢弃条件的特征数据进行丢弃处理,将所述老年区未丢弃的特征作为最终特征。

6、可选的,所述新生区和所述老年区用于存储特征和特征频率,包括:

7、实时获取特征信息;所述特征信息至少包括1个特征;

8、确定所述特征信息中与所述老年区中的相同特征,并将所述老年区中存储的所述相同特征的特征频率加1;

9、确定所述特征信息中与所述老年区中的不同特征,判断所述新生区中是否存在所述不同特征;

10、将所述新生区中存在所述不同特征的特征频率加1;

11、将所述新生区中不存在所述不同特征的新特征存储在所述新生区中,并将所述新特征的特征频率置1。

12、可选的,所述将满足合并条件的特征数据合并到所述老年区,包括:

13、对所述新生区的特征数据进行抽样采样,得到抽样特征的频率值;

14、将所述抽样采样的频率值从高到低排序,将前预设百分比对应的频率值作为筛选频率阈值;

15、遍历所述新生区中的所有特征,将所述新生区中特征频率大于所述筛选频率阈值的特征数据放于所述老年区。

16、可选的,所述将所述新生区中特征频率大于所述筛选频率阈值的特征数据放于所述老年区,包括:

17、将所述新生区中特征频率大于所述筛选频率阈值的特征数据拷贝到所述老年区。

18、可选的,还包括:

19、当拷贝完成后,清空所述新生区中的所有的特征数据。

20、可选的,所述将满足丢弃条件的特征数据进行丢弃处理,包括:

21、对所述老年区的特征数据进行抽样采样,得到抽样特征的频率值;

22、将所述抽样特征的频率值从高到低排序,将后预设百分比对应的频率值作为丢弃频率阈值;

23、遍历所述老年区中的所有特征,将所述老年区中特征频率小于所述丢弃频率阈值对应的特征数据进行丢弃。

24、可选的,所述将所述老年区未丢弃的特征作为最终特征,包括:

25、将所述最终特征加入到模型训练特征列表中,用于模型训练。

26、本专利技术还提供了一种特征筛选装置,包括:

27、存储区域划分模块,用于预先将存储区域划分为老年区和新生区;所述新生区和所述老年区用于存储特征和特征频率;

28、合并模块,用于当所述新生区中的特征数量达到合并阈值时,则将满足合并条件的特征数据合并到所述老年区;所述特征数据包括各个特征和各个特征相对应的频率值;

29、丢弃模块,用于当所述老年区中的特征数量达到丢弃阈值时,则将满足丢弃条件的特征数据进行丢弃处理,将所述老年区未丢弃的特征作为最终特征。

30、本专利技术还提供了一种特征筛选设备,包括:

31、存储器,用于存储计算机程序;

32、处理器,用于执行所述计算机程序时实现上述的特征筛选方法的步骤。

33、本专利技术还提供了一种可读存储介质,所述计算机可读存储介质中存储有计算机可执行指令,所述计算机可执行指令被处理器加载并执行时,实现上述的特征筛选方法的步骤。

34、可见,本专利技术通过预先将存储区域划分为老年区和新生区;新生区和老年区用于存储特征和特征频率;当新生区中的特征数量达到合并阈值时,则将满足合并条件的特征数据合并到老年区;特征数据包括各个特征和各个特征相对应的频率值;当老年区中的特征数量达到丢弃阈值时,则将满足丢弃条件的特征数据进行丢弃处理,将老年区未丢弃的特征作为最终特征。本方法通过将用于存储特征数据的存储空间分为老年区和新生区,并采用丢弃和合并操作,可以在有限的内存下,高效地计算特征频率,实现了对特征数据的高效管理;并且节约了数据存储空间。

35、此外,本专利技术还提供了一种特征筛选装置、设备及存储介质,同样具有上述有益效果。

本文档来自技高网...

【技术保护点】

1.一种特征筛选方法,其特征在于,包括:

2.根据权利要求1所述的特征筛选方法,其特征在于,所述新生区和所述老年区用于存储特征和特征频率,包括:

3.根据权利要求1所述的特征筛选方法,其特征在于,所述将满足合并条件的特征数据合并到所述老年区,包括:

4.根据权利要求3所述的特征筛选方法,其特征在于,所述将所述新生区中特征频率大于所述筛选频率阈值的特征数据放于所述老年区,包括:

5.根据权利要求4所述的特征筛选方法,其特征在于,还包括:

6.根据权利要求1所述的特征筛选方法,其特征在于,所述将满足丢弃条件的特征数据进行丢弃处理,包括:

7.根据权利要求1至6任一项所述的特征筛选方法,其特征在于,所述将所述老年区未丢弃的特征作为最终特征,包括:

8.一种特征筛选装置,其特征在于,包括:

9.一种特征筛选设备,其特征在于,包括:

10.一种可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机可执行指令,所述计算机可执行指令被处理器加载并执行时,实现如权利要求1至7任一项所述的特征筛选方法的步骤。

...

【技术特征摘要】

1.一种特征筛选方法,其特征在于,包括:

2.根据权利要求1所述的特征筛选方法,其特征在于,所述新生区和所述老年区用于存储特征和特征频率,包括:

3.根据权利要求1所述的特征筛选方法,其特征在于,所述将满足合并条件的特征数据合并到所述老年区,包括:

4.根据权利要求3所述的特征筛选方法,其特征在于,所述将所述新生区中特征频率大于所述筛选频率阈值的特征数据放于所述老年区,包括:

5.根据权利要求4所述的特征筛选方法,其特征在于,还包括:

6.根据权...

【专利技术属性】
技术研发人员:王新根陈伟汪陈笑沈华马顺华
申请(专利权)人:浙江邦盛科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1