数据处理方法、装置、设备及可读存储介质制造方法及图纸

技术编号：21629653 阅读：20 留言：0更新日期：2019-07-17 11:19

本说明书实施例提供了一种数据处理方法，获取多个目标对象的特征数据作为训练样本，从而基于所述训练样本以及预先设置的第一类损失函数和第二类损失函数，对预设的神经网络模型进行训练，得到聚类模型。其中，神经网络模型的输出对应于两个以上类簇，聚类模型用于输出目标对象属于每个类簇的概率。本方法通过上述两种损失函数来控制对多个目标对象进行聚类的优化过程，从而使得聚类模型的输出直接对应目标对象的聚类结果，避免直接定义距离函数，有利于提高对目标对象的聚类效率且得到较好的聚类效果。

Data Processing Method, Device, Equipment and Readable Storage Media

全部详细技术资料下载

【技术实现步骤摘要】
数据处理方法、装置、设备及可读存储介质
本说明书实施例涉及数据处理
，尤其涉及一种数据处理方法、装置、设备及可读存储介质。
技术介绍
随着信息技术的发展，通过数据挖掘从海量数据中找出有意义的模式或规则，为信息管理、查询优化、商业决策和过程控制等提供辅助支持，成为利用数据的重要方式。聚类分析是数据挖掘的重要手段之一，是按数据的内在相似性将数据集划分为多个类别，使类别内的数据相似度较大而不同类别间的数据相似度较小，以便于后续可以根据数据类别对数据进行进一步分析。因此，为了提高数据挖掘质量和效率，需要提供聚类效率高且效果较好的方案。
技术实现思路
本说明书实施例提供了一种数据处理方法、装置、设备及可读存储介质。第一方面，本说明书实施例提供了一种数据处理方法，包括：获取训练样本，所述训练样本包括多个目标对象的特征数据；基于所述训练样本以及预先设置的第一类损失函数和第二类损失函数，对预设的神经网络模型进行训练，得到聚类模型。其中，所述神经网络模型的输出对应于两个以上类簇，所述聚类模型用于输出所述目标对象属于每个所述类簇的概率，所述第一类损失函数用于使每个所述目标对象对应的概率分布分别集中在所述两个以上类簇中任意一个类簇上，所述第二类损失函数用于使所述多个目标对象在所述两个以上类簇中的分布满足预设条件。第二方面，本说明书实施例提供了一种数据处理方法，包括：获取训练样本，所述训练样本包括多个目标用户的特征数据；基于所述训练样本以及预先设置的第一类损失函数和第二类损失函数，对预设的神经网络模型进行训练，得到聚类模型。其中，所述神经网络模型的输出对应于两个以上类簇，所述聚...

【技术保护点】
1.一种数据处理方法，包括：获取训练样本，所述训练样本包括多个目标对象的特征数据；基于所述训练样本以及预先设置的第一类损失函数和第二类损失函数，对预设的神经网络模型进行训练，得到聚类模型；其中，所述神经网络模型的输出对应于两个以上类簇，所述聚类模型用于输出所述目标对象属于每个所述类簇的概率，所述第一类损失函数用于使每个所述目标对象对应的概率分布分别集中在所述两个以上类簇中任意一个类簇上，所述第二类损失函数用于使所述多个目标对象在所述两个以上类簇中的分布满足预设条件。

【技术特征摘要】
1.一种数据处理方法，包括：获取训练样本，所述训练样本包括多个目标对象的特征数据；基于所述训练样本以及预先设置的第一类损失函数和第二类损失函数，对预设的神经网络模型进行训练，得到聚类模型；其中，所述神经网络模型的输出对应于两个以上类簇，所述聚类模型用于输出所述目标对象属于每个所述类簇的概率，所述第一类损失函数用于使每个所述目标对象对应的概率分布分别集中在所述两个以上类簇中任意一个类簇上，所述第二类损失函数用于使所述多个目标对象在所述两个以上类簇中的分布满足预设条件。2.根据权利要求1所述的方法，所述神经网络模型的输出为一个c维向量，c为大于或等于2的整数，在所述聚类模型的训练过程中，每次迭代对应的第一类损失函数值是按照以下方式得到的：针对每次输入模型的每个样本，计算模型输出的c维向量与预先设置的特征向量集合中每个特征向量之间的距离，将所计算的距离中的最小值作为该样本对应的最小距离值，其中，所述特征向量集合包括c个c维特征向量，每个特征向量均只有一个元素的值为1，除该元素外的其余元素的值均为0，且所述特征向量集合中不同特征向量的值为1的元素不同；将每次输入模型的每个样本对应的最小距离值进行累加，将累加和作为所述第一类损失函数值。3.根据权利要求1所述的方法，所述神经网络模型的输出为一个c维向量，c为大于或等于2的整数，在所述聚类模型的训练过程中，每次迭代对应的第二类损失函数值是按照以下方式得到的：将每次输入模型的b个样本对应输出的b个c维向量与预先设置的特征向量集合中每个特征向量之间的距离，得到一距离矩阵，其中，所述特征向量集合包括c个c维特征向量，每个特征向量均只有一个元素的值为1，除该元素外的其余元素的值均为0，且所述特征向量集合中不同特征向量的值为1的元素不同，所述距离矩阵为b行c列的矩阵，b为大于或等于2的正整数；获取所述距离矩阵的每列中最小的m个距离，将各列中最小的m个距离进行累加得到所述第二类损失函数值，其中，m为大于或等于1且小于b的正整数。4.根据权利要求1所述的方法，所述基于所述训练样本以及预先设置的第一类损失函数和第二类损失函数，对预设的神经网络模型进行训练，得到聚类模型，包括：基于所述训练样本，构建多个小批量数据集mini-batch；基于所述多个小批量数据集mini-batch以及所述第一类损失函数和第二类损失函数，对预设的神经网络模型进行训练，得到聚类模型。5.一种数据处理方法，包括：获取训练样本，所述训练样本包括多个目标用户的特征数据；基于所述训练样本以及预先设置的第一类损失函数和第二类损失函数，对预设的神经网络模型进行训练，得到聚类模型；其中，所述神经网络模型的输出对应于两个以上类簇，所述聚类模型用于输出所述目标用户属于每个所述类簇的概率，所述第一类损失函数用于使每个所述目标用户对应的概率分布分别集中在所述两个以上类簇中任意一个类簇上，所述第二类损失函数用于使所述多个目标用户在所述两个以上类簇中的分布满足预设条件。6.根据权利要求5所述的方法，还包括：基于所述聚类模型得到每个所述目标用户在所述两个以上类簇上的概率分布数据；根据每个所述目标用户的所述概率分布数据，确定每个所述目标用户所属的类簇；针对每一所述类簇，从属于所述类簇的目标用户中确定特征用户，得到每个所述类簇对应的特征用户。7.根据权利要求6所述的方法，所述从属于所述类簇的目标用户中确定特征用户，包括：将属于所述类簇的目标用户对应于该类簇的概率值进行由小到大排序，得到一排序结果；将所述排序结果中，概率值处于前预设位数的目标用户作为所述特征用户。8.根据权利要求6所述的方法，所述得到每个所述类簇对应的特征用户之后，还包括：基于每个类簇对应的特征用户的特征数据，生成该类簇对应的推荐文案。9.根据权利要求8所述的方法，所述基于每个类簇对应的特征用户的特征数据，生成该类簇对应的推荐文案，包括：根据每个类簇对应的特征用户的特征数据以及预设的文案模板，生成该类簇对应的推荐文案。10.根据权利要求8所述的方法，所述基于每个类簇对应的特征用户的特征数据，生成该类簇对应的推荐文案之后，还包括：将候选用户的特征数据输入所述聚类模型，得到所述候选用户在所述两个以上类簇上的概率分布数据；基于所述概率分布数据，确定所述候选用户所属的目标类簇；向所述候选用户投放所述目标类簇对应的推荐文案。11.根据权利要求5所述的方法，所述神经网络模型的输出为一个c维向量，c为大于或等于2的整数，在所述聚类模型的训练过程中，每次迭代对应的第一类损失函数值是按照以下方式得到的：针对每次输入模型的每个样本，计算模型输出的c维向量与预先设置的特征向量集合中每个特征向量之间的距离，将所计算的距离中的最小值作为该样本对应的最小距离值，其中，所述特征向量集合包括c个c维特征向量，每个特征向量均只有一个元素的值为1，除该元素外的其余元素的值均为0，且所述特征向量集合中不同特征向量的值为1的元素不同；将每次输入模型的每个样本对应的最小距离值进行累加，将累加和作为所述第一类损失函数值。12.根据权利要求5所述的方法，所述神经网络模型的输出为一个c维向量，c为大于或等于2的整数，在所述聚类模型的训练过程中，每次迭代对应的第二类损失函数值是按照以下方式得到的：将每次输入模型的b个样本对应输出的b个c维向量与预先设置的特征向量集合中每个特征向量之间的距离，得到一距离矩阵，其中，所述特征向量集合包括c个c维特征向量，每个特征向量均只有一个元素的值为1，除该元素外的其余元素的值均为0，且所述特征向量集合中不同特征向量的值为1的元素不同，所述距离矩阵为b行c列的矩阵，b为大于或等于2的正整数；获取所述距离矩阵的每列中最小的m个距离，将各列中最小的m个距离进行累加得到所述第二类损失函数值，其中，m为大于或等于1且小于b的正整数。13.根据权利要求5所述的方法，所述特征数据包括用户的画像特征信息和/或用户所在的环境特征信息。14.一种数据处理装置，包括：对象样本获取模块，用于获取训练样本，所述训练样本包括多个目标对象的特征数据；模型...

【专利技术属性】
技术研发人员：赵耀，危彬，顾剑波，
申请(专利权)人：阿里巴巴集团控股有限公司，
类型：发明
国别省市：开曼群岛,KY

全部详细技术资料下载我是这个专利的主人