基于分段统计的特征变换方法及装置制造方法及图纸

技术编号:19635653 阅读:28 留言:0更新日期:2018-12-01 16:17
本发明专利技术公开了基于分段统计的特征变换方法及装置,该方法包括数据截取、数据分段、分段统计、分段叠加四个步骤,使用统一的方法进行两个尺度上的特征变换,同时有效解决某特征值对另一特征在尺度特征变化上的干扰,能够适用于机器学习。本发明专利技术通过关键特征搜索的方法,针对周期差异大的多种特征混合的序列,分段统计后利用统计结果代替原始值卷积的方法,促使特征变换的输出具有更好的正交性从而提升机器学习的效率。

Feature Transform Method and Device Based on Segmental Statistics

The invention discloses a feature transformation method and device based on subsection statistics, which includes four steps: data interception, data subsection, subsection statistics and subsection superposition. The method uses a unified method to transform features on two scales, and effectively resolves the interference of one feature value on the change of scale characteristics of another feature. It can be applied to machine learning. The method of searching key features and substituting the original convolution method with the statistical results after segment statistics for the sequence of multiple features with large periodic differences can improve the orthogonality of the output of feature transformation and improve the efficiency of machine learning.

【技术实现步骤摘要】
基于分段统计的特征变换方法及装置
本专利技术涉及机器学习领域中的特征变换子域,尤其涉及基于分段统计的特征变换方法及装置。
技术介绍
在机器学习系统/软件中,特征工程是很重要的步骤,而特征工程中特征的定位又是核心,往往使用卷积方法。但现有卷积方法是对异常值没有任何排除能力,尤其是当异常值本身也是一种特征的情况下,参照图1,图中A和B分别是两个特征,但是周期差异巨大,且A出现的时机不确定(图例中只是可能的出现时机之一),因此当进行B级别尺度执行卷特征变换(例如卷积)的时候A值就会对结果造成干扰。
技术实现思路
为了克服现有技术的不足,本专利技术的目的在于提供基于分段统计的特征变换方法及装置,旨在解决现有技术的特征工程中某特征的值干扰其他特征执行卷特征变换的问题。本专利技术的目的采用以下技术方案实现:一种基于分段统计的特征变换方法,包括:数据截取步骤,使用特征子对原始数据进行数据截取,得到截取数据;数据分段步骤,对截取数据进行数据分段,得到分段数据;分段统计步骤,对分段数据进行分段统计,得到统计数据;分段叠加步骤,对统计数据进行分段叠加,得到分段统计特征变换结果。在上述实施例的基础上,优选的,本文档来自技高网...

【技术保护点】
1.一种基于分段统计的特征变换方法,其特征在于,包括:数据截取步骤,使用特征子对原始数据进行数据截取,得到截取数据;数据分段步骤,对截取数据进行数据分段,得到分段数据;分段统计步骤,对分段数据进行分段统计,得到统计数据;分段叠加步骤,对统计数据进行分段叠加,得到分段统计特征变换结果。

【技术特征摘要】
1.一种基于分段统计的特征变换方法,其特征在于,包括:数据截取步骤,使用特征子对原始数据进行数据截取,得到截取数据;数据分段步骤,对截取数据进行数据分段,得到分段数据;分段统计步骤,对分段数据进行分段统计,得到统计数据;分段叠加步骤,对统计数据进行分段叠加,得到分段统计特征变换结果。2.根据权利要求1所述的基于分段统计的特征变换方法,其特征在于,所述数据截取步骤,具体为:步骤S11,选择特征子Fa1,Fa1的长度为fl1且fl1为奇数,维度为1×fl1;步骤S12,以原始数据Raw的第个元素为中心,截取一个长度、维度与Fa1相同的矩阵,用Ra1表示;步骤S13,依次以Raw的第个元素为中心,截取一个长度、维度与Fa1相同的矩阵,分别用Ra2、Ra3、Ra4、......、Ran表示;n为正整数;步骤S14,将所截取得到的Ra1、Ra2、Ra3、Ra4、......、Ran称为截取数据。3.根据权利要求2所述的基于分段统计的特征变换方法,其特征在于,所述数据分段步骤,具体为:步骤S21,将Ra1按照的比例平均分为p段,得到Ra11、Ra12、……、Ra1p;其中,p为正整数;步骤S22,以步骤S21中的方法分别对Ra2、Ra3、Ra4、......、Ran进行数据分段,得到Ra21、Ra22、……、Ra2p、……、Ran1、Ran2、……、Ranp;步骤S23,将Ra11、Ra12、……、Ra1p、Ra21、Ra22、……、Ra2p、……、Ran1、Ran2、……、Ranp称为分段数据。4.根据权利要求3所述的基于分段统计的特征变换方法,其特征在于,所述分段统计步骤中,采用中位数法获取分段数据的统计特征值,得到:Raf11=median(Ra11)、Raf12=median(Ra12)、……、Raf1p=median(Ra1p);Raf21=median(Ra21)、Raf22=median(Ra22)、……、Raf2p=median(Ra2p);……Rafn1=median(Ran1)、Rafn2=median(Ran2)、……、Rafnp=median(Ranp);将Raf11、Raf12、……、Raf1p、Raf21、Raf22、……、Raf2p、……、Rafn1、Rafn2、……、Rafnp称为统计数据。5.根据权利要求4所述的基于分段统计的特征变换方法,其特征在于,所述分段叠加步骤,具体为:步骤S41,将Fa1按照的比例平均分为p段,得到Fa11、Fa12、……、Fa1p;其中,步骤S42,计算Fa11、Fa12、……、Fa1p的均值,得到:Faf11=avg(Fa11)、Faf12=avg(Fa12)、……、Faf1p=avg(Fa1p);步骤S43,以步骤S41中的方法分别对Fa2、Fa3、Fa4、......、Fan进行数据分段,得到Fa21、Fa22、……、Fa2p、……、Fan1、Fan2、……、Fanp;步骤S44,以步骤S42中的方法计算Fa21、Fa22、……、Fa2p、……、Fan1、Fan2、……、Fanp的均值,得到Faf21、Faf22、……、Faf2p、……、Fafn1、Fafn2、……、Fafnp;步骤S45,对统计数据讲行分段叠加,得到:Fr1=Raf11×Faf11+Raf12×Faf12+......+Raf1p×Faf1p、Fr2=Raf21×Faf11+Raf22×Faf12+......+Raf2p×Faf1p、……Frn=Rafn1×Faf11+Rafn2×Faf12+......+Rafnp×Faf1p;步骤S46,将Fr1、Fr2、……、Frn组成的序列称为特征子Fa1对原始数据Raw的分段统计特征变换结果。6.一...

【专利技术属性】
技术研发人员:马瑞
申请(专利权)人:浙江长兴笛卡尔科技有限公司
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1