System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术属于数学建模,具体涉及一种建模样本特征编码方法、装置、设备及存储介质。
技术介绍
1、在使用数据进行数学模型搭建时,很多时候需要将离散的定性特征转换为可供模型识别的连续数值,一般对这类特征做特征编码。现有的特征编码方式主要有以下两种:(1)标签编码方式,即对于有序的非数值离散特征,按顺序标记数值;(2)onehot编码,即对于无序的非数值离散特征,按其是否属于某一类别,赋值为0或1。
2、但是,上述两种特征编码方式都存在有自身的缺陷:(1)对于标签编码方式,由于其要求特征具有一定的顺序,且在特征中类别间的间隔往往固定,使得在编码后缺乏区分能力,导致实际使用时适用面少,建模效果一般,难以体现特征包含的全部信息;(2)对于onehot编码方式,虽然可以处理无序的离散特征,但当离散特征的类别数量很大时,会造成编码后的特征空间非常大,影响模型的效果。
技术实现思路
1、本专利技术的目的是提供一种建模样本特征编码方法、装置、计算机设备及计算机可读存储介质,用以解决现有特征编码方式所存在难以体现特征包含的全部信息或会造成编码后的特征空间非常大,进而影响模型效果的问题。
2、为了实现上述目的,本专利技术采用以下技术方案:
3、第一方面,提供了一种建模样本特征编码方法,包括:
4、获取建模样本集合,并将所述建模样本集合拆分为训练样本集合和测试样本集合,其中,在所述建模样本集合中的每个建模样本包含有至少一个样本特征并对应有一个样本标签;
>5、针对各个样本标签类别,根据所述训练样本集合统计得到对应的先验概率;
6、针对各个样本特征类别,根据所述训练样本集合统计得到对应的且在所述各个样本标签类别下的后验概率;
7、根据所述训练样本集合,自定义如下的权重函数λ(f):
8、
9、式中,f表示待优化参数,表示所述训练样本集合的最低完全信任样本量,n表示所述训练样本集合的总样本量;
10、针对所述待优化参数f的各个不同取值,按照如下方式对所述测试样本集合进行特征编码以得到对应的特征编码结果:针对所述各个样本特征类别以及所述各个样本标签类别,将在所述测试样本集合中的、属于对应样本特征类别的且相应样本标签属于对应样本标签类别的样本特征编码为λ(f)×p2+(1-λ(f))×p1,其中,p1表示对应样本标签类别的先验概率,p2表示对应样本特征类别的且在对应样本标签类别下的后验概率;
11、针对所述各个不同取值,基于对应的特征编码结果建立模型,并得到对应的模型评价效果;
12、将与最优的模型评价效果对应的取值作为最优取值fopt,并代入所述权重函数λ(f),得到最优权重λ(fopt);
13、针对所述各个样本标签类别,根据所述建模样本集合统计得到对应的新先验概率;
14、针对所述各个样本特征类别,根据所述建模样本集合统计得到对应的且在所述各个样本标签类别下的新后验概率;
15、根据所述最优权重λ(fopt),按照如下方式对所述建模样本集合进行特征编码以得到最终的特征编码结果:针对所述各个样本特征类别以及所述各个样本标签类别,将在所述建模样本集合中的、属于对应样本特征类别的且相应样本标签属于对应样本标签类别的样本特征编码为λ(fopt)×p′2+(1-λ(fopt))×p′1,其中,p′1表示对应样本标签类别的新先验概率,p′2表示对应样本特征类别的且在对应样本标签类别下的新后验概率。
16、基于上述
技术实现思路
,提供了一种基于先后验概率及权重函数进行特征编码的新方案,即先将建模样本集合拆分为训练样本集合和测试样本集合,然后基于训练样本集合,统计得到各个样本标签类别的先验概率及各个样本特征类别在各个样本标签类别下的后验概率,并自定义权重函数,再然后针对在权重函数中的待优化参数的各个不同取值,基于前述数据对测试样本集合进行特征编码及建模,并得到对应的模型评价效果,再然后将与最优的模型评价效果对应的取值作为最优取值并代入权重函数,同时基于建模样本集合,统计得到各个样本标签类别的新先验概率及各个样本特征类别在各个样本标签类别下的新后验概率,最后基于前述更新数据对建模样本集合进行特征编码,得到最终的特征编码结果,如此由于是基于样本标签来确定特征的编码,可相对于标签编码及onehot编码,使编码结果更能体现样本标签在特征上的分布情况,赋予编码结果与标签相关的更多信息,进而可利于在构造模型时能发挥更好的效果,便于实际应用和推广。
17、在一个可能的设计中,将所述建模样本集合拆分为训练样本集合和测试样本集合,包括:
18、对所述建模样本集合进行k折切分,得到k份建模样本,其中,k表示大于等于3的正整数;
19、取所述k份建模样本中的k-1份建模样本组成训练样本集合,以及取剩余的一份建模样本组成测试样本集合。
20、在一个可能的设计中,将与最优的模型评价效果对应的取值作为最优取值fopt,包括:
21、针对所述各个不同取值,根据所述k份建模样本,采用k折交叉验证法得到对应的且在k次建模后所得的模型评价平均效果;
22、将与最优的模型评价平均效果对应的取值作为最优取值fopt。
23、在一个可能的设计中,针对各个样本标签类别,根据所述训练样本集合统计得到对应的先验概率,包括:
24、针对各个样本标签类别,根据所述训练样本集合,按照如下公式计算得到对应的先验概率p1:
25、
26、式中,m1表示在所述训练样本集合中的且相应样本标签属于对应样本标签类别的建模样本的总量,n表示所述训练样本集合的总样本量。
27、在一个可能的设计中,针对各个样本特征类别,根据所述训练样本集合统计得到对应的且在所述各个样本标签类别下的后验概率,包括:
28、针对各个样本特征类别,根据所述训练样本集合,按照如下公式计算得到对应的且在某个样本标签类别下的后验概率p2:
29、
30、式中,m2表示在所述训练样本集合中的、包含有属于对应样本特征类别的样本特征的且相应样本标签属于所述某个样本标签类别的建模样本的总量,n′表示在所述训练样本集合中的且包含有属于对应样本特征类别的样本特征的建模样本的总量。
31、在一个可能的设计中,所述模型评价效果采用模型的acu值和/或ks值来评价。
32、在一个可能的设计中,在得到最终的特征编码结果之后,所述方法还包括:
33、根据所述最终的特征编码结果进行最终的模型搭建。
34、第二方面,提供了一种建模样本特征编码装置,包括有样本集合取拆模块、先验概率计算模块、后验概率计算模块、权重函数定义模块、特征编码模块、模型建立模块和最优权重计算模块;
35、所述样本集合取拆模块,用于获取建模样本集合,并将所述建模样本集合拆分为训练样本集合和测试样本集合,其中,在本文档来自技高网...
【技术保护点】
1.一种建模样本特征编码方法,其特征在于,包括:
2.根据权利要求1所述的建模样本特征编码方法,其特征在于,将所述建模样本集合拆分为训练样本集合和测试样本集合,包括:
3.根据权利要求2所述的建模样本特征编码方法,其特征在于,将与最优的模型评价效果对应的取值作为最优取值fopt,包括:
4.根据权利要求1所述的建模样本特征编码方法,其特征在于,针对各个样本标签类别,根据所述训练样本集合统计得到对应的先验概率,包括:
5.根据权利要求1所述的建模样本特征编码方法,其特征在于,针对各个样本特征类别,根据所述训练样本集合统计得到对应的且在所述各个样本标签类别下的后验概率,包括:
6.根据权利要求1所述的建模样本特征编码方法,其特征在于,所述模型评价效果采用模型的ACU值和/或KS值来评价。
7.根据权利要求1所述的建模样本特征编码方法,其特征在于,在得到最终的特征编码结果之后,所述方法还包括:
8.一种建模样本特征编码装置,其特征在于,包括有样本集合取拆模块、先验概率计算模块、后验概率计算模块、权重函数
9.一种计算机设备,其特征在于,包括有依次通信连接的存储器、处理器和收发器,其中,所述存储器用于存储计算机程序,所述收发器用于收发消息,所述处理器用于读取所述计算机程序,执行如权利要求1~7中任意一项所述的建模样本特征编码方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有指令,当所述指令在计算机上运行时,执行如权利要求1~7中任意一项所述的建模样本特征编码方法。
...【技术特征摘要】
1.一种建模样本特征编码方法,其特征在于,包括:
2.根据权利要求1所述的建模样本特征编码方法,其特征在于,将所述建模样本集合拆分为训练样本集合和测试样本集合,包括:
3.根据权利要求2所述的建模样本特征编码方法,其特征在于,将与最优的模型评价效果对应的取值作为最优取值fopt,包括:
4.根据权利要求1所述的建模样本特征编码方法,其特征在于,针对各个样本标签类别,根据所述训练样本集合统计得到对应的先验概率,包括:
5.根据权利要求1所述的建模样本特征编码方法,其特征在于,针对各个样本特征类别,根据所述训练样本集合统计得到对应的且在所述各个样本标签类别下的后验概率,包括:
6.根据权利要求1所述的建模样本特征编码方法,其特征在于,所述模型评价效果采用模型的acu值和/...
【专利技术属性】
技术研发人员:顾凌云,张涛,代宇,孟轩,郭志攀,张帅欣,
申请(专利权)人:上海冰鉴信息科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。