一种过采样方法技术

技术编号:14008007 阅读:38 留言:0更新日期:2016-11-17 06:16
本发明专利技术公开了一种过采样方法,包括寻找种子样本、合成新样本、构建新样本的分布函数、实现过采样方法四个步骤。本发明专利技术通过直接比较样本与类中心距离和类平均距离得到种子样本,并在种子样本和类中心的连线上合成新样本,构造出新样本的分布函数从而实现过采样,具有估计精度高、结构简单、噪声影响小、适应性较强的优点。

【技术实现步骤摘要】

本专利技术涉及一种算法,尤其涉及一种过采样算法。
技术介绍
电磁波频率低于100khz时,电磁波会被地表吸收,不能形成有效的传输,而电磁波频率高于100khz时,电磁波可以在空气中传播,并经大气层外缘的电离层反射,形成远距离传输能力,这种具有远距离传输能力的高频电磁波即为射频。射频信号即为在空中具有远距离传输能力的无线电波信号。在射频信号构成的数字通信特别是移动通信中,由于信道中存在干扰和噪声,在接收端会产生一定的误码率。为降低系统误码率,人们普遍采用以下两种方式:一是采用匹配滤波器使信号在采样点时刻获得尽可能高的信噪比;另一个是采用编码调制,如多级编码和网格编码调制。这两种方法的研究重点均在于如何获得渐进的编码增益,虽然可以大大改善误码率性能,但系统构成较为复杂,需要复杂的硬件电路或采用复杂的数字信号处理算法,而且当信噪比很低时,编码增益也会降低,这时误码率仍会迅速提高。
技术实现思路
为了解决上述技术所存在的不足之处,本专利技术提供了一种过采样算法。为了解决以上技术问题,本专利技术采用的技术方案是:一种过采样算法,其具体步骤如下:步骤一、寻找种子样本:定义某类样品集合S={di,i=1,2,…,n

【技术保护点】
一种过采样算法,其特征在于:所述过采样算法的具体步骤如下:步骤一、寻找种子样本:定义某类样品集合S={di,i=1,2,…,n},其中,di表示样品i的向量,n为该类样品的样品总数;首先计算出类中心和类平均距离,然后根据类中心和类平均距离寻找出种子样本;(a)、将该类样品在数据空间的平均分布点定义为类中心,类中心的计算方法如公式Ⅰ所示;其中,cc表示类中心向量,Σ为数学求和符号;cc=1nΣi=1ndi---I]]>(b)、将该类样品中各样品到类中心距离的平均值定义为类平均距离,类平均距离的计算方法如公式Ⅱ所示;其中,cd表示类平均距离向量;cd=1nΣi=1nD(di,cc)---II]]>(c)、将样本到类中心的距离大于类平均距离的样本定义为种子样本,用公式Ⅲ表示;其中,SS表示种子样本向量;ss={di|D(di,cc)>cd}              Ⅲ步骤二、合成新样本:将种子样本构成的样本集称为候选集;为避免在合成样本中引入过多的噪声,指定类中心作为参照点,由候选集内样本与参照点形成线段,在线段内合成新样本,保证合成新样本位于类的内侧,合成新样本的生成公式所述如下;sns=si+(si‑cc)×r             Ⅳ其中,sns为合成新样本向量;si为候选集内第i个样本向量;r为取值于[0,1]之间的随机数;步骤三、构件新样本的分布函数:候选集内的样品与类中心的距离越远,其所带有效信息就相对较多;利用距离信息,构造出合成样本分布函数;将候选集定义为cs={csi,i=1,2,…,k},根据欧氏距离计算法得出候选集中每个样品到类中心的距离,表示为D(csi,cc);将每个样品到类中心的距离累加,得到它们的距离之和,表示为s;基于此基础,得出新样本的分布函数,如公式Ⅴ所示;其中,pi表示候选集内第i个样本的分布概率值;将各样本分布概率值乘以样本合成总数即可得到基于每个候选样本合成新样本的个数;步骤四、实现过采样算法:将样本集合定义为DS={(di,ci),i=1,2,…,n},其中di表示样本向量,ci表示样本所属类别,ci取值设定为0和1;根据公式Ⅰ和公式Ⅱ分别求出类中心cc和类平均距离cd,计算出合成样本总数;由公式Ⅲ得到候选集,再根据公式Ⅴ得到概率分布函数,产生随机数r,带入公式Ⅳ合成新样本sns,最后得出分类模型并用于进一步的信号测试。...

【技术特征摘要】
1.一种过采样算法,其特征在于:所述过采样算法的具体步骤如下:步...

【专利技术属性】
技术研发人员:李鹏宇张琳
申请(专利权)人:南通尚青医疗科技有限公司
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1