数据离散化模型训练方法和装置、数据离散方法制造方法及图纸

技术编号:18894901 阅读:53 留言:0更新日期:2018-09-08 11:09
本申请涉及一种数据离散化模型训练方法和装置、数据离散方法、计算机设备和存储介质,该训练方法包括:获取离散训练数据和离散区间数;将离散训练数据输入编码神经网络,生成与离散区间数相同数量的高斯参数;基于高斯参数生成与离散训练数据对应的隐层变量;将隐层变量输入解码神经网络,得到还原数据;根据离散训练数据和还原数据调整编码神经网络和解码神经网络的参数,并返回将离散训练数据输入编码神经网络,生成与离散区间数相同数量的高斯参数的步骤,直至满足预设迭代结束条件;将编码神经网络最终生成的高斯参数作为各离散区间的特征。通过该方法获得非连续的散区间,以实现数据非线性离散,避免大数据因线性离散而造成的数据丢失问题。

Data discretization model training method and device, data discretization method

The application relates to a data discretization model training method and device, data discretization method, computer equipment and storage medium. The training method includes: acquiring discrete training data and discrete interval numbers; input discrete training data into coded neural networks to generate the same number of Gaussian parameters as discrete interval numbers; and Gaussian parameters generate hidden layer variables corresponding to discrete training data; input hidden layer variables into decoding neural network to get restored data; adjust the parameters of coded neural network and decoded neural network according to discrete training data and restored data, and return discrete training data to coded neural network to generate and discrete area. The steps of the same number of Gaussian parameters are taken until the end condition of the preset iteration is satisfied, and the Gaussian parameters generated by the coded neural network are taken as the characteristics of each discrete interval. The discontinuous scatter interval is obtained by this method to realize the nonlinear discretization of data and avoid the problem of data loss caused by linear discretization of large data.

【技术实现步骤摘要】
数据离散化模型训练方法和装置、数据离散方法
本申请涉及数据挖掘
,特别是涉及一种数据离散化模型训练方法和装置、数据离散方法、计算机设备和存储介质。
技术介绍
随着信息技术的快速发展,海量数据信息不断积累,从海量数据中挖掘有效信息的数据挖掘技术也得以不断改进。而在数据挖掘算法中,其时空效率非常依赖于数据的类型,因此,对数据进行离散化处理,以将数据统一为分类类型数据,对快速实现数据的挖掘具有重要意义。传统的数据离散方法一般采用基于线性变换的方法,例如,根据连续值进行等差划分,根据连续值的个数进行等频划分,又或者根据连续值的熵信息进行划分等。而在大数据环境下中,随着数据量和数据复杂度的持续增加,基于线性变换的离散方式极易造成数据中重要信息的丢失,进而影响数据挖掘的有效性。
技术实现思路
基于此,有必要针对基于线性变换的离散方式极易造成数据中重要信息的丢失的技术问题,提供一种数据离散化模型训练方法和装置、数据离散方法、计算机设备和存储介质。一种数据离散化模型训练方法,所述方法包括:获取离散训练数据和离散区间数;将所述离散训练数据输入编码神经网络,生成与所述离散区间数相同数量的高斯参数;基于本文档来自技高网...

【技术保护点】
1.一种数据离散化模型训练方法,其特征在于,所述方法包括:获取离散训练数据和离散区间数;将所述离散训练数据输入编码神经网络,生成与所述离散区间数相同数量的高斯参数;基于所述高斯参数生成与所述离散训练数据对应的隐层变量;将所述隐层变量输入解码神经网络,得到还原数据;根据所述离散训练数据和所述还原数据调整所述编码神经网络和所述解码神经网络的参数,并返回将所述离散训练数据输入编码神经网络,生成与所述离散区间数相同数量的高斯参数的步骤,直至满足预设迭代结束条件;将所述编码神经网络最终生成的高斯参数作为各离散区间的特征。

【技术特征摘要】
1.一种数据离散化模型训练方法,其特征在于,所述方法包括:获取离散训练数据和离散区间数;将所述离散训练数据输入编码神经网络,生成与所述离散区间数相同数量的高斯参数;基于所述高斯参数生成与所述离散训练数据对应的隐层变量;将所述隐层变量输入解码神经网络,得到还原数据;根据所述离散训练数据和所述还原数据调整所述编码神经网络和所述解码神经网络的参数,并返回将所述离散训练数据输入编码神经网络,生成与所述离散区间数相同数量的高斯参数的步骤,直至满足预设迭代结束条件;将所述编码神经网络最终生成的高斯参数作为各离散区间的特征。2.根据权利要求1所述的方法,其特征在于,所述基于所述高斯参数生成与所述离散训练数据对应的隐层变量,包括:基于预设分类分布,生成与所述离散训练数据中各数据对应的分布选择参数;分别根据所述分布选择参数,生成与所述离散训练数据中各数据对应的隐层变量。3.根据权利要求2所述的方法,其特征在于,所述分别根据所述分布选择参数生成与所述离散训练数据中各数据对应的隐层变量,包括:获取与所述分布选择参数对应的高斯参数;分别根据所述高斯参数生成与所述离散训练数据中各数据对应的隐层变量。4.根据权利要求1所述的方法,其特征在于,所述将所述隐层变量输入所述解码网络,得到还原数据,包括:将所述隐层变量输入解码网络,并获取所述离散训练数据的数据类型;根据所述数据类型生成与所述数据类型对应的分布参数;按照所述分布参数将所述隐层变量解码还原成与所述离散训练数据对应的还原数据。5.根据权利要求4所述的方法,其特征在于,所述数据类型包括二值化数据和连续型数据,所述方法还包括:当所述离散训练数据为二值化数据时,生成伯努利分布参数;根据所述伯努利分布参数将所述隐层变量解码还原成与所述离散训练数据对应的还原数据;当所述离散训练数据为连续型数据时,生成高斯分布参数;根据所述高斯分布参数将所述隐层变量解码还原成与所述离散训练数据对应的还原数据。6.根据权利要求1所述的方法,其特征在于,所述根据所述离散训练数据和所述还原数据调整所述编码神经网络的参数,并返回将所述离散训练数据输入编码神经网络,生成与所述离散区间数相同数量的高斯参数的步骤,直至满足预设迭代结束条件,包括:获取所述离散训练数据和所述还原数据的重构损失;根据所述重构损失调整所述编码神经网络和所述解码神经网络的参数,并返回将所述离散训练数据输入编码神经网络,生成与所述离散区间数相同数量的高斯参数的步骤,直至所述重构损失满足预设迭代结束条件。7.根据权利要求1至6任一项所述的方法,其特征在于,所述获取离散训练数据和离散区间数之前,还包括:获取待离散数据;对所述待离散数据进行复制处理,得到预设维数的训练数据;根据所述训练数据生成多维的离散训练数据。8.一种数据离散方...

【专利技术属性】
技术研发人员:徐挺洋郑胤黄俊洲
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1