一种用于智慧数据碰撞的机器学习方法及装置制造方法及图纸

技术编号:24036813 阅读:29 留言:0更新日期:2020-05-07 02:08
本发明专利技术公开了一种用于智慧数据碰撞的机器学习方法及装置,提供一种基于K‑means拓展的智慧数据碰撞的算法,采用人工智能的方式,极大释放了人工劳动力,提高了表格和字段关联的识别精度和速度,并且该方法实现在低端硬件,数据来源不一的情况下仍然可以高效、精准的识别出相关字段和相关表格。解决了现有方案当数据来源不一、不规范,但是仍然具有可用价值时,仍然需要人力标注,人力匹配字段和表格,针对业务要求,每个团队都要重新定制化开发不同的表格,字段挖掘模型,耗费大量成本的问题。

A machine learning method and device for intelligent data collision

【技术实现步骤摘要】
一种用于智慧数据碰撞的机器学习方法及装置
本专利技术涉及机器学习领域,特别涉及一种用于智慧数据碰撞的机器学习方法及装置。
技术介绍
基于CNN(ConvolutionNeuralNetwork,卷积神经网络),深度学习的数据关联特征学习方法在数据关联挖掘检测等方面取得了巨大成功,引起了机器学习领域的极大关注。传统的数据挖掘关联表格字段局限性。当前所有知名的数据挖掘团队在面对庞大,冗杂的数据时仍然需要耗费大量人力,物力去进行表格的比对,关联,对于数据字段,缺失值,表格不统一的情况更是头大,为了达到更好的挖掘效果,仍然采用人力标记,人力比对的方法,亟需实现智慧化数据碰撞。而许多高深有效的人工智能框架的功能、特征、倾向性均由美国等发布组织所把持,这也是整个人工智能产业难以在不同领域实现商用的重要原因之一,因为中小型公司几乎只能使用这些公开的框架进行上层包装式研发,受限技术实力,缺乏根据真实需求和不同应用深度定制一个标准的表格字段关联,推荐的能力。现有方案当数据来源不一、不规范,但是仍然具有可用价值时,仍然需要人力标注,人力匹配字段和表格,针对业务要求,每个团队都要重新定制化开发不同的表格,字段挖掘模型,耗费大量成本。
技术实现思路
本专利技术的目的在于:提供了一种用于智慧数据碰撞的机器学习方法及装置,解决了现有方案当数据来源不一、不规范,但是仍然具有可用价值时,仍然需要人力标注,人力匹配字段和表格,针对业务要求,每个团队都要重新定制化开发不同的表格,字段挖掘模型,耗费大量成本的问题。r>本专利技术采用的技术方案如下:一种用于智慧数据碰撞的机器学习方法,包括以下步骤:S1、对数据源每个表格的每个字段进行随机数据降采样后的到降维数据;S2、对降维数据中的字段进行标记,标记每个字段分别来自哪个表格;S3、将步骤S2处理后的字段输入K-means模型中,将降维数据中的表格输入K-means模型中;S4、K-means模型对步骤S3中输入的数据进行迭代训练使聚类结果综合指标最优,类内间距最小,类间间距最大后停止训练,得到最优的K-means模型。本方案提供一种基于K-means拓展的智慧数据碰撞的算法,采用人工智能的方式,极大释放了人工劳动力,提高了表格和字段关联的识别精度和速度,并且该方法实现在低端硬件,数据来源不一的情况下仍然可以高效、精准的识别出相关字段和相关表格。进一步的,步骤S1中对数据源每个表格的每个字段进行随机数据降采样前还包括对数据源的数据进行预处理。进一步的,所述对数据源的数据进行预处理的方法包括自动化缺失值处理、异常值处理、度量指标归一化处理中的至少一个。进一步的,步骤S4中K-means模型中的具体衡量指标包括以下指标中的至少一个:IV指标、Gini增益指标、熵指标、信息增益指标、pearson系数指标、距离相关系数指标和高斯混合模型指标。进一步的,步骤S4中K-means模型的根据以下全部指标使用加权求和的综合评价指标方法进行训练:IV指标、Gini增益指标、熵指标、信息增益指标、pearson系数指标、距离相关系数指标和高斯混合模型指标。IV指标,用于挑选字段,IV就越大,该字段就越应该进入到中心字段的类别中。Gini增益指标,是不纯度衡量指标。分别计算待分类的字段中的数据加入到初始的k个中心字段的Gini增益,找到使得Gini增益最小的中心字段,把待分类的字段和中心字段聚类到一类。熵指标,是不纯度衡量指标。对一个字段而言,中心字段有它和没它时信息量将发生变化,而前后信息量的差值就是这个特征给系统带来的信息量,即熵。分别计算待分类的字段中的数据加入到初始的k个中心字段的熵,找到使得熵最小的中心字段,把待分类的字段和中心字段聚类到一类。信息增益指标,衡量标准是看字段特征能够为分类系统带来多少信息,带来的信息越多,该特征越重要。信息增益能考察特征对每个中心字段的贡献。pearson系数指标,用来衡量两个字段集合是否符合统一分布,变化规律是否一致,可以衡量字段间的线性关系。相关系数的绝对值越大,相关性越强:相关系数越接近于1或-1,相关度越强,相关系数越接近于0,相关度越弱。距离相关系数指标,计算待分类的字段和中心字段分别的欧式距离,把待分类字段分到使得欧式距离最小的中心字段所在的类中。高斯混合模型指标,分别拟合k个中心字段和待分类字段的高斯混合模型,若待分类字段的参数和某个中心字段的参数的方差和欧式距离最小,则分为一类。类内间距、类间间距指标。分别计算待分类的字段和K个中心字段之间的类内间距,和类间间距,使得类内间距最小,类间间距最大的字段即分为一类。进一步的,得到最优的K-means模型后,还包括:S5、将最优的K-means模型结合其他算法进行进一步的无监督集成学习;S6、通过无监督集成学习获得K-means模型和其他算法的权重,得到优于K-means模型的聚类关联模型。进一步的,所述其他算法的包括PCA主成分分析算法、自编码算法中的至少一个。即将迭代训练分为两步:第一步迭代训练:字段归一化,预处理完成后就开始K-means训练。为了实现智能训练,本K-means拓展训练框架采用了动态学习指标权重和动态学习集成方法的权重的算法和自动判收敛算法。随着迭代轮次的展开,权重会根据K-means算法中的综合指标的变化而动态调整,逐步训练到收敛使得综合指标最小、类内间距最小、类间间距最大的聚类结果。指标变化在一定时间内变化小于阈值,那么系统将自行停止训练,标志训练完成。第二步迭代训练:集成学习中加入自编码和主成分分析,将聚类的结果和主成分分析的字段结果进行综合指标的权重相加。训练每个学习器的权重指标,得到最优结果。一种用于智慧数据碰撞的机器学习装置,包括:存储器,用于存储可执行指令;处理器,用于执行所述存储器中存储的可执行指令,实现如权利要求1所述的一种用于智慧数据碰撞的机器学习方法。综上所述,由于采用了上述技术方案,本专利技术的有益效果是:1.本专利技术一种用于智慧数据碰撞的机器学习方法及装置,本专利技术用人工智能的方式完全解决了筛选大数据表格,字段关联时极度耗费人力、关联覆盖度不高、精确度不高、建模效率低下等问题。完全自动化,用人工智能代替人工实现组件模块化,让组件开发人员更关注组件自身的业务,业务划分更佳清晰,可维护性更强,开发效率更高;2.本专利技术一种用于智慧数据碰撞的机器学习方法及装置,关联速度快。本专利技术针对跨操作系统的服务端硬件深度优化,实现在低端硬件下,针对TB,PB级数据,实现关联精度高,速度快,效率高;3.本专利技术一种用于智慧数据碰撞的机器学习方法及装置,解决了现有方案当数据来源不一、不规范,但是仍然具有可用价值时,仍然需要人力标注,人力匹配字段和表格,针对业务要求,每个团队都要重新定制化开发不同的表格,字段挖掘模型,耗费大量成本的问题。附图说明...

【技术保护点】
1.一种用于智慧数据碰撞的机器学习方法,其特征在于:包括以下步骤:/nS1、对数据源每个表格的每个字段进行随机数据降采样后的到降维数据;/nS2、对降维数据中的字段进行标记,标记每个字段分别来自哪个表格;/nS3、将步骤S2处理后的字段输入K-means模型中,将降维数据中的表格输入K-means模型中;/nS4、K-means模型对步骤S3中输入的数据进行迭代训练使聚类结果综合指标最优,类内间距最小,类间间距最大后停止训练,得到最优的K-means模型。/n

【技术特征摘要】
1.一种用于智慧数据碰撞的机器学习方法,其特征在于:包括以下步骤:
S1、对数据源每个表格的每个字段进行随机数据降采样后的到降维数据;
S2、对降维数据中的字段进行标记,标记每个字段分别来自哪个表格;
S3、将步骤S2处理后的字段输入K-means模型中,将降维数据中的表格输入K-means模型中;
S4、K-means模型对步骤S3中输入的数据进行迭代训练使聚类结果综合指标最优,类内间距最小,类间间距最大后停止训练,得到最优的K-means模型。


2.根据权利要求1所述的一种用于智慧数据碰撞的机器学习方法,其特征在于:步骤S1中对数据源每个表格的每个字段进行随机数据降采样前还包括对数据源的数据进行预处理。


3.根据权利要求2所述的一种用于智慧数据碰撞的机器学习方法,其特征在于:所述对数据源的数据进行预处理的方法包括自动化缺失值处理、异常值处理、度量指标归一化处理中的至少一个。


4.根据权利要求1所述的一种用于智慧数据碰撞的机器学习方法,其特征在于:步骤S4中K-means模型中的具体衡量指标包括以下指标中的至少一个:IV指标、Gini增益指标、熵指标、信息增益指标、...

【专利技术属性】
技术研发人员:张艳清查文宇王纯斌赵神州潘小东王伟才
申请(专利权)人:成都四方伟业软件股份有限公司
类型:发明
国别省市:四川;51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1