【技术实现步骤摘要】
一种学习建模中数据处理方法
本专利技术涉及Python机器学习建模解决
,尤其涉及一种学习建模中数据处理方法。
技术介绍
幂律是来自上世纪20年代对于英语单词频率的分析,真正常用的单词量很少,很多单词不常被使用,语言学家发现单词使用的频率和它的使用优先度是一个常数次幂的反比关系。精确地说,简单来说,幂律就是两个通俗的定律,一个是“长尾”理论,只有少数大的门户网站是很多人关注的,但是还有一个长长的尾巴,就是小网站,小公司。长尾理论就是对幂律通俗化的解释。另外一个通俗解释就是马太效应,穷者越穷富者越富。离散化是程序设计中一个常用的技巧,它可以有效的降低时间复杂度。其基本思想就是在众多可能的情况中,只考虑需要用的值。离散化可以改进一个低效的算法,甚至实现根本不可能实现的算法,等宽离散化是将连续数据按照等宽区间标准离散化数据,比如属性值在[0,60]之间,最小值为0,最大值为60,我们要将其分为3等分,则区间被划分为[0,20]、[21,40]、[41,60],每个属性值对应属于它的那个区间。在对现实世界数据进 ...
【技术保护点】
1.一种学习建模中数据处理方法,其特征在于,/n包括如下步骤:/n1)采集数据、对数据进行预处理;/n2)查看展示数据是否符合长尾分部;/n3)进行幂律变换,等宽标准化变换为离散变量。/n
【技术特征摘要】 【专利技术属性】
1.一种学习建模中数据处理方法,其特征在于,
包括如下步骤:
1)采集数据、对数据进行预处理;
2)查看展示数据是否符合长尾分部;
3)进行幂律变换,等宽标准化变换为离散变量。
2.根据权利要求1所述的方法,其特征在于,
基于幂律关系,对符合长尾分布的y变量进行log变换,使其符合正态分布,然后在对变换后的连续型变量进行等宽区间离散化。
3.根据权利要求2所述的方法,其特征在于,
基于python环境,安装数据分析挖掘核心库,采集y变量数据,编写python脚本,对数据进行预处理。
4.根据权利要求3所述的方法,其特征在于,
所述预处理,包含空值填充、异常值处理。
技术研发人员:马秀霖,
申请(专利权)人:浪潮软件股份有限公司,
类型:发明
国别省市:山东;37
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。