基于kohonen神经网络聚类抽样方法技术

技术编号:22565698 阅读:22 留言:0更新日期:2019-11-16 12:17
本发明专利技术公开了一种基于kohonen神经网络聚类抽样方法,包括如下具体步骤:录入数据,并提取属性特征;根据提取的属性特征进行kononen神经网络聚类;利用相对误差确定样本总量;根据聚类后的样本所在的大类,以及大类的属性特征给予各类不同的样本量;在各个类别样本量确定之后,在各个类别的内部进行分层抽样,分配所对应的权重,获取最后抽样样本。本发明专利技术既保证了样本点在总体中不会出现集中于某一类企业的情况,又能将真正需要进行调查的企业抽取出来。改进出口企业存在的“帕雷托效应”、以及传统抽样方法的局限性对抽样结果的影响;并且避免大部分抽取的企业为属性特征相同的企业。

Clustering sampling method based on Kohonen neural network

The invention discloses a clustering sampling method based on Kohonen neural network, which comprises the following specific steps: inputting data and extracting attribute features; clustering kononen neural network according to the extracted attribute features; determining the total number of samples by using relative error; giving different sample sizes according to the large category of the clustered samples and the attribute features of the large category; and After determining the sample size of each category, carry out stratified sampling within each category, allocate the corresponding weight, and obtain the final sample. The invention not only ensures that the sample points are not concentrated in a certain type of enterprise in the whole, but also can extract the enterprises that really need to be investigated. Improve the \Pareto effect\ of export enterprises and the impact of the limitations of traditional sampling methods on the sampling results; and avoid that most of the enterprises selected are enterprises with the same attribute characteristics.

【技术实现步骤摘要】
基于kohonen神经网络聚类抽样方法
本专利技术涉及神经网络
,更具体的说是涉及一种基于kohonen神经网络聚类抽样方法。
技术介绍
技术性贸易措施(简称“技贸措施”),其实来自于WTO体系中“技术性贸易壁垒(TechnicalBarrierstoTrade,TBT)”一词。技贸措施主要指的是非关税措施,而在全球化经济的不断发展下的今天,关税在国际货物中的作用日益减小,取而代之的是当前国际形势下,技术性贸易措施对国际贸易的影响与日俱增,已成为各国实现经济、政治目标的有效手段。技贸措施在具体实施的过程中,主要由技术法规、标准、合格评定程序三种手段形成外贸商品进入市场的第一道屏障。而当今中国出口企业受技术性贸易措施影响日益增大,为此我们需要对出口企业进行抽样调查,以低成本但全面的了解中国出口企业受技贸措施影响的状况。抽样调查是调查中常用的方法之一,是一种非全面的调查,它是指从研究对象的全体(总体)中抽取一部分作为样本,并对样本进行全面的调查,以此来对总体进行估计。根据抽取样本的方法来看,可以分为非概率抽样和概率抽样。本文主要针对概率抽样来研究,它依据随机原则,按照某种事先设计的程序,从总体中抽取部分单元的抽样方法。相比非概率抽样,概率抽样可以从概率意义上对误差进行控制。针对每一个具体问题,在上述基础上又可以派生出各种抽样方法,每一种抽样方法均有其利弊之处。当问题比较简单时,例如只对单一抽样框进行抽样,每一种方法得出来的结论的差异性以及样本对总体的代表性可能相差并不会太大。但是,若涉及到多个抽样框时,我们便不能将每一个抽样框单独拿出来进行抽样,因为抽样框之间可能存在某些隐藏的联系,单独对抽样框进行抽样可能会导致样本对总体的数据结构失去代表性以至于对总体的估计产生偏差。因此,如何提供一种既能保证了样本点在总体中不会片面,又能将所需样本抽取出来的基于kohonen神经网络聚类抽样方法是本领域技术人员亟需解决的问题。
技术实现思路
有鉴于此,本专利技术提供了一种基于kohonen神经网络聚类抽样方法,该方法既保证了样本点在总体中不会出现集中于某一类企业的情况,又能将真正需要进行调查的企业抽取出来。为了实现上述目的,本专利技术提供如下技术方案:一种基于kohonen神经网络聚类抽样方法,包括如下具体步骤:利用相对误差确定样本总量;录入数据,并提取属性特征;根据提取的属性特征进行kononen神经网络聚类,得到各个样本对应的大类;根据聚类后的样本所在的大类,以及大类的属性特征给予各类不同的样本量;在各个类别样本量确定之后,与城市数目成比例的分配各类中各个城市所对应的抽样权重,按照权重在各个类别的内部进行分层抽样,获取最后抽样样本。优选的,在上述的一种基于kohonen神经网络聚类抽样方法中,所述属性特征包括但不限于:出口金额数、出口国家数、出口商品种类数、所在城市。优选的,在上述的一种基于kohonen神经网络聚类抽样方法中,所述kononen神经网络一种只有输入层--隐藏层的神经网络;隐藏层中的一个节点代表一个需要聚成的类;对于每一个输入单元,对应的仅有一个隐藏层节点在竞争学习的过程中输出,即该节点为这一输入单元所对应的类别。优选的,在上述的一种基于kohonen神经网络聚类抽样方法中,所述相对误差确定样本总量的具体步骤:根据抽样理论的相对误差与样本量的关系式:将公式(1)进行公式的转化得到以下关系式:最后样本总量确定公式如下:经由上述的技术方案可知,与现有技术相比,本专利技术公开提供了一种基于kohonen神经网络聚类抽样方法,与传统抽样方法抽样的目的不同,此次抽样的目的在于将真正受技贸措施影响的企业抽取出来以进行后续实地调研,本专利技术充分考虑了出口企业中存在的“帕累托效益”、企业属性之间的联系、传统抽样方法的局限性提供了一种针对出口企业数据抽样改进算法。该方法既保证了样本点在总体中不会出现集中于某一类企业的情况,又能将真正需要进行调查的企业抽取出来。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。图1为本专利技术的工作流程图;图2为本专利技术的改进抽样算法流程图;图3是将各个企业的数据进行标准化之后再取各类的类均值所做出的折线图;图4为本专利技术的抽样误差与样本量之间的关系;图5为传统分层抽样结果与本专利技术改进抽样算法结果在出口金额上的对比结果。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。本专利技术实施例公开了一种基于kohonen神经网络算法结果的改进抽样算法,既保证了样本点在总体中不会出现集中于某一类企业的情况,又能将真正需要进行调查的企业抽取出来。改进出口企业存在的“帕雷托效应”、以及传统抽样方法的局限性对抽样结果的影响;并且避免大部分抽取的企业为属性特征相同的企业。在此抽样过程中,首先对出口企业数据进行数据处理,提取各个企业的属性信息;将企业属性作为输入变量,把企业首先进行聚类;在聚类结果的基础上,对各个类别内部进行传统抽样的运用。以广东省出口企业为例,如图1所示,一种基于kohonen神经网络算法结果的改进抽样算法,本专利技术的方法流程主要包括以下几个步骤:((1)根据广东省出口企业数据,整理出每个企业的出口金额数、出口国家数、出口商品种类数、所在城市四个维度变量;(2)根据出口金额数、出口国家数、出口商品种类进行kohonen神经网络聚类,将企业分为12个大类;(3)将广东省出口企业作为抽样总体,并根据抽样理论确定样本总量;(4)确定各类的内部样本量;(5)确定各类中各地区样本量;(6)在各个地区中使用简单随机抽样抽取样本;(7)通过将改进抽样方法与传统抽样方法抽取出来的样本在出口金额数上的分布情况进行对比。分层抽样的特点是,分层之后层内差异小,层间差异大。聚类算法的目的是,从数据的角度入手将其分类到不同的簇中,同簇之间特征相似,不同簇之间特征差异大。从聚类算法的目的以及分层抽样的特点来说,聚类算法的结果作为分层抽样的依据是非常合适的。因此,本专利技术在传统的分层抽样之前,首先对企业进行聚类分析,既充分考虑了广东省出口企业中存在的“帕累托效益”、企业属性之间的联系,又引入了合适的分层因子,以便能对各个类型的企业进行全面覆盖,并且针对受技贸措施影响较大的企业进行重点抽样,具体流程图如图2所示。同时,以广东数据为例,在聚类分析之后将企业分为12大类本文档来自技高网
...

【技术保护点】
1.一种基于kohonen神经网络聚类抽样方法,其特征在于,包括如下具体步骤:利用相对误差确定样本总量;/n录入数据,并提取属性特征;/n根据提取的属性特征进行kononen神经网络聚类,得到各个样本对应的大类;/n根据聚类后的样本所在的大类,以及大类的属性特征给予各类不同的样本量;/n在各个类别样本量确定之后,与城市数目成比例的分配各类中各个城市所对应的抽样权重,按照权重在各个类别的内部进行分层抽样,获取最后抽样样本。/n

【技术特征摘要】
1.一种基于kohonen神经网络聚类抽样方法,其特征在于,包括如下具体步骤:利用相对误差确定样本总量;
录入数据,并提取属性特征;
根据提取的属性特征进行kononen神经网络聚类,得到各个样本对应的大类;
根据聚类后的样本所在的大类,以及大类的属性特征给予各类不同的样本量;
在各个类别样本量确定之后,与城市数目成比例的分配各类中各个城市所对应的抽样权重,按照权重在各个类别的内部进行分层抽样,获取最后抽样样本。


2.根据权利要求1所述的一种基于kohonen神经网络聚类抽样方法,其特征在于,所述属性特征包括但不限于:出口金额数、出口国家数、出口商品种类数、所在城市。

【专利技术属性】
技术研发人员:王妍卿枫陈云鹏檀雷雷胡菁樊珑
申请(专利权)人:中国传媒大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1