一种样本属性的分析方法、装置和设备制造方法及图纸

技术编号:8801146 阅读:120 留言:0更新日期:2013-06-13 05:48
本发明专利技术公开了一种样本属性的分析方法、装置和设备,属于数据分析领域。方法包括:根据样本中样本属性的每个属性值的样本个数与样本总数得到每个属性值的样本占比Ri;对样本属性的所有属性值由小到大进行排列,得到样本属性的占比序列[R1、R2...Rn];将每个属性值的样本占比Ri依次与之前的属性值的样本占比R1、R2...Ri-1累加,得到每个属性值的累计占比Wi;根据累计占比Wi和属性值个数n得到样本属性的强势值I,并将强势值I作为对样本属性进行分析的结果。本发明专利技术解决了目前样本属性的分析方法对分析人员要求高且主观性较强、处理效率低资源消耗大以及缺乏统一的评价依据的问题,提高了分析效率,降低了对分析人员的工作要求,统一了评价依据。

【技术实现步骤摘要】
一种样本属性的分析方法、装置和设备
本专利技术涉及数据分析领域,特别涉及一种样本属性的分析方法、装置和设备。
技术介绍
随着存储技术的迅猛发展,数据量越来越大,大量的数据保存于数据库中。通过对数据的各种样本属性进行分析,从而可以获知数据样本的分布情况,加深对当前业务状况的了解,进而有助于决策。其中,样本属性分为数值属性和非数值属性,例如,年龄为数值属性,性别为非数值属性。目前,对数据的样本属性的分析方法主要是数据分析人员通过使用如Excel(微软公司的办公软件Microsoftoffice的组件之一)、SPSS(StatisticalProductandServiceSolutions,统计产品与服务解决方案)图表等数据分析工具对数据的样本属性进行分析,并结合最小值、最大值、均值、标准方差等统计指标综合分析,在了解每个指标的分布之后,主观判断属性的相对显著性。在实现本专利技术的过程中,专利技术人发现现有技术至少存在以下问题:目前采用数据分析工具对样本属性进行分析的方法,首先由于需要对业务有较高的理解且需要熟悉分析工具,才能熟练使用图表等数据分析工具完成对数据的深度研究,因此对分析人员要求高且主观性较强;其次,当业务属性较多时,传统的数据分析工具处理效率低,而数据分析人员也需要对每个属性进行逐一研究,需要消耗大量的资源;最后,现有的方法主要是主观判断和经验,缺乏一个定量的判断依据,且对于数值属性和非数值属性无法统一去评价。
技术实现思路
为了解决现有技术的问题,本专利技术实施例提供了一种样本属性的分析方法、设备和系统。所述技术方案如下:第一方面,提供了一种计算机实现的对来源于数据库的样本属性进行分析的方法,所述方法包括:根据样本中样本属性的每个属性值的样本个数与样本总数得到所述每个属性值的样本占比Ri;根据所述每个属性值的样本占比Ri对所述样本属性的所有属性值由小到大进行排列,得到所述样本属性的占比序列[R1、R2…Rn];所述n为属性值个数;将每个属性值的样本占比Ri依次与所述每个属性值的样本占比Ri之前的属性值的样本占比R1、R2…Ri-1累加,得到所述每个属性值的累计占比Wi;根据所述每个属性值的累计占比Wi和属性值个数n得到所述样本属性的强势值I,并将所述强势值I作为对所述样本属性进行分析的结果;其中,所述根据所述每个属性值的累计占比Wi和属性值个数n得到所述样本属性的强势值I,包括:根据公式计算得到所述样本属性的强势值I;其中,所述Wi为任一属性值i的累计占比,所述n为属性值个数,所述abs()为绝对值运算。在第一方面的第一种可能的实现方式中,所述当所述样本属性为数值属性时,所述样本属性的属性值为数值段;所述根据样本中样本属性的每个属性值的样本个数与样本总数得到所述每个属性值的样本占比Ri,包括:根据所述样本中样本属性的每个数值段的样本个数与样本总数得到所述每个数值段的样本占比。在第一方面的第二种可能的实现方式中,所述根据样本中样本属性的每个属性值的样本个数与样本总数得到所述每个属性值的样本占比Ri之前,还包括:根据预设的规则去除所述样本属性的属性值中的异常属性值。在第一方面的第三种可能的实现方式中,所述根据样本中样本属性的每个属性值的样本个数与样本总数得到所述每个属性值的样本占比Ri,包括:对于总样本中样本属性的任一属性值i,根据总样本中所述属性值i的样本个数与总样本总数得到所述属性值i的第一样本占比Ri’;根据子样本中所述属性值i的样本个数与所述子样本的样本个数得到所述属性值i的第二样本占比Ri”;计算所述Ri’与所述Ri”的绝对差值Ci,并将所述Ci作为所述属性值i的样本占比Ri。在第一方面的第四种可能的实现方式中,所述根据所述每个属性值的样本占比Ri对所述样本属性的所有属性值由小到大进行排列,得到所述样本属性的占比序列[R1、R2…Rn],包括:将所述任一属性值i的绝对差值Ci与2相除得到Ci/2,对Ci/2由小到大进行排列,得到所述样本属性的占比序列[C1/2、C2/2…Cn/2];其中,所述n为属性值个数。第二方面,提供了一种计算机实现的对来源于数据库的样本属性进行分析的装置,所述装置包括:样本占比模块,用于根据样本中样本属性的每个属性值的样本个数与样本总数得到所述每个属性值的样本占比Ri;占比序列模块,用于根据所述每个属性值的样本占比Ri对所述样本属性的所有属性值由小到大进行排列,得到所述样本属性的占比序列[R1、R2…Rn];所述n为属性值个数;累计占比模块,用于将每个属性值的样本占比Ri依次与所述每个属性值的样本占比Ri之前的属性值的样本占比R1、R2…Ri-1累加,得到所述每个属性值的累计占比Wi;强势值模块,用于根据所述每个属性值的累计占比Wi和属性值个数n得到所述样本属性的强势值I,并将所述强势值I作为对所述样本属性进行分析的结果;其中,所述强势值模块,包括:计算单元,用于根据公式计算得到所述样本属性的强势值I;其中,所述Wi为任一属性值i的累计占比,所述n为属性值个数,所述abs()为绝对值运算。在第二方面的第一种可能的实现方式中,所述样本占比模块,包括:数值样本占比单元,用于当所述当所述样本属性为数值属性时,所述样本属性的属性值为数值段;根据所述样本中样本属性的每个数值段的样本个数与样本总数得到所述每个数值段的样本占比。在第二方面的第二种可能的实现方式中,所述装置还包括:预处理模块,用于根据样本中样本属性的每个属性值的样本个数与样本总数得到所述每个属性值的样本占比Ri之前,根据预设的规则去除所述样本属性的属性值中的异常属性值。在第二方面的第三种可能的实现方式中,所述样本占比模块,包括:总样本占比单元,用于对于总样本中样本属性的任一属性值i,根据总样本中所述属性值i的样本个数与总样本总数得到所述属性值i的第一样本占比Ri’;子样本占比单元,用于根据子样本中所述属性值i的样本个数与所述子样本的样本个数得到所述属性值i的第二样本占比Ri”;样本占比单元,用于计算所述Ri’与所述Ri”的绝对差值Ci,并将所述Ci作为所述属性值i的样本占比Ri。在第二方面的第四种可能的实现方式中,所述占比序列模块包括:占比序列单元,用于将所述样本占比单元计算的任一属性值i的绝对差值Ci与2相除得到Ci/2,对Ci/2由小到大进行排列,得到所述样本属性的占比序列[C1/2、C2/2…Cn/2];其中,所述n为属性值个数。第三方面,提供了一种样本属性的分析设备,所述设备包括:存储器,用于存储功能模块的运行数据;处理器,用于与所述存储器耦合,所述处理器配置为用于执行第一方面任一所述的计算机实现的对来源于数据库的样本属性进行分析的方法;收发器,用于与所述处理器耦合,收发所述处理器处理的各种数据。本专利技术实施例提供的技术方案带来的有益效果是:通过对计算的每个属性值的样本占比进行排列得到样本中样本属性的占比序列,对占比序列中每个属性值的样本占比累加,得到累计占比,根据所述累计占比得到所述样本属性的强势值,解决了目前的样本属性的分析方法对分析人员要求高且主观性较强、处理效率低资源消耗大以及缺乏统一的评价依据的问题,提高了分析效率,降低了对分析人员的工作要求,统一了评价依据。附图说明为了更清楚地说明本专利技术实施例中的本文档来自技高网...
一种样本属性的分析方法、装置和设备

【技术保护点】
一种样本属性的分析方法,其特征在于,所述方法包括:根据样本中样本属性的每个属性值的样本个数与样本总数得到所述每个属性值的样本占比Ri;根据所述每个属性值的样本占比Ri对所述样本属性的所有属性值由小到大进行排列,得到所述样本属性的占比序列[R1、R2...Rn];所述n为属性值个数;将每个属性值的样本占比Ri依次与所述每个属性值的样本占比Ri之前的属性值的样本占比R1、R2...Ri?1累加,得到所述每个属性值的累计占比Wi;根据所述每个属性值的累计占比Wi和属性值个数n得到所述样本属性的强势值I,并将所述强势值I作为对所述样本属性进行分析的结果。

【技术特征摘要】
1.一种计算机实现的对来源于数据库的样本属性进行分析的方法,其特征在于,所述方法包括:根据样本中样本属性的每个属性值的样本个数与样本总数得到所述每个属性值的样本占比Ri;根据所述每个属性值的样本占比Ri对所述样本属性的所有属性值由小到大进行排列,得到所述样本属性的占比序列[R1、R2…Rn];所述n为属性值个数;将每个属性值的样本占比Ri依次与所述每个属性值的样本占比Ri之前的属性值的样本占比R1、R2…Ri-1累加,得到所述每个属性值的累计占比Wi;根据所述每个属性值的累计占比Wi和属性值个数n得到所述样本属性的强势值I,并将所述强势值I作为对所述样本属性进行分析的结果;其中,所述根据所述每个属性值的累计占比Wi和属性值个数n得到所述样本属性的强势值I,包括:根据公式计算得到所述样本属性的强势值I;其中,所述Wi为任一属性值i的累计占比,所述n为属性值个数,所述abs()为绝对值运算。2.根据权利要求1所述的方法,其特征在于,当所述样本属性为数值属性时,所述样本属性的属性值为数值段;所述根据样本中样本属性的每个属性值的样本个数与样本总数得到所述每个属性值的样本占比Ri,包括:根据所述样本中样本属性的每个数值段的样本个数与样本总数得到所述每个数值段的样本占比。3.根据权利要求1所述的方法,其特征在于,所述根据样本中样本属性的每个属性值的样本个数与样本总数得到所述每个属性值的样本占比Ri之前,还包括:根据预设的规则去除所述样本属性的属性值中的异常属性值。4.根据权利要求1所述的方法,其特征在于,所述根据样本中样本属性的每个属性值的样本个数与样本总数得到所述每个属性值的样本占比Ri,包括:对于总样本中样本属性的任一属性值i,根据总样本中所述属性值i的样本个数与总样本总数得到所述属性值i的第一样本占比Ri’;根据子样本中所述属性值i的样本个数与所述子样本的样本个数得到所述属性值i的第二样本占比Ri”;计算所述Ri’与所述Ri”的绝对差值Ci,并将所述Ci作为所述属性值i的样本占比Ri。5.根据权利要求4所述的方法,其特征在于,所述根据所述每个属性值的样本占比Ri对所述样本属性的所有属性值由小到大进行排列,得到所述样本属性的占比序列[R1、R2…Rn],包括:将所述任一属性值i的绝对差值Ci与2相除得到Ci/2,对Ci/2由小到大进行排列,得到所述样本属性的占比序列[C1/2、C2/2…Cn/2];其中,所述n为属性值个数。6.一种计算机实现的对来源于数据库的样本属性进行分析的装置,其特征在于,所述装置包括:样本占比模...

【专利技术属性】
技术研发人员:曹明金中良
申请(专利权)人:华为软件技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1