数据处理方法、装置、设备及可读存储介质制造方法及图纸

技术编号:21629653 阅读:20 留言:0更新日期:2019-07-17 11:19
本说明书实施例提供了一种数据处理方法,获取多个目标对象的特征数据作为训练样本,从而基于所述训练样本以及预先设置的第一类损失函数和第二类损失函数,对预设的神经网络模型进行训练,得到聚类模型。其中,神经网络模型的输出对应于两个以上类簇,聚类模型用于输出目标对象属于每个类簇的概率。本方法通过上述两种损失函数来控制对多个目标对象进行聚类的优化过程,从而使得聚类模型的输出直接对应目标对象的聚类结果,避免直接定义距离函数,有利于提高对目标对象的聚类效率且得到较好的聚类效果。

Data Processing Method, Device, Equipment and Readable Storage Media

【技术实现步骤摘要】
数据处理方法、装置、设备及可读存储介质
本说明书实施例涉及数据处理
,尤其涉及一种数据处理方法、装置、设备及可读存储介质。
技术介绍
随着信息技术的发展,通过数据挖掘从海量数据中找出有意义的模式或规则,为信息管理、查询优化、商业决策和过程控制等提供辅助支持,成为利用数据的重要方式。聚类分析是数据挖掘的重要手段之一,是按数据的内在相似性将数据集划分为多个类别,使类别内的数据相似度较大而不同类别间的数据相似度较小,以便于后续可以根据数据类别对数据进行进一步分析。因此,为了提高数据挖掘质量和效率,需要提供聚类效率高且效果较好的方案。
技术实现思路
本说明书实施例提供了一种数据处理方法、装置、设备及可读存储介质。第一方面,本说明书实施例提供了一种数据处理方法,包括:获取训练样本,所述训练样本包括多个目标对象的特征数据;基于所述训练样本以及预先设置的第一类损失函数和第二类损失函数,对预设的神经网络模型进行训练,得到聚类模型。其中,所述神经网络模型的输出对应于两个以上类簇,所述聚类模型用于输出所述目标对象属于每个所述类簇的概率,所述第一类损失函数用于使每个所述目标对象对应的概率分布分别集中在所述两个以上类簇中任意一个类簇上,所述第二类损失函数用于使所述多个目标对象在所述两个以上类簇中的分布满足预设条件。第二方面,本说明书实施例提供了一种数据处理方法,包括:获取训练样本,所述训练样本包括多个目标用户的特征数据;基于所述训练样本以及预先设置的第一类损失函数和第二类损失函数,对预设的神经网络模型进行训练,得到聚类模型。其中,所述神经网络模型的输出对应于两个以上类簇,所述聚类模型用于输出所述目标用户属于每个所述类簇的概率,所述第一类损失函数用于使每个所述目标用户对应的概率分布分别集中在所述两个以上类簇中任意一个类簇上,所述第二类损失函数用于使所述多个目标用户在所述两个以上类簇中的分布满足预设条件。第三方面,本说明书实施例提供了一种数据处理装置,包括:对象样本获取模块,用于获取训练样本,所述训练样本包括多个目标对象的特征数据;模型训练模块,用于基于所述训练样本以及预先设置的第一类损失函数和第二类损失函数,对预设的神经网络模型进行训练,得到聚类模型。其中,所述神经网络模型的输出对应于两个以上类簇,所述聚类模型用于输出所述目标对象属于每个所述类簇的概率,所述第一类损失函数用于使每个所述目标对象对应的概率分布分别集中在所述两个以上类簇中任意一个类簇上,所述第二类损失函数用于使所述多个目标对象在所述两个以上类簇中的分布满足预设条件。第四方面,本说明书实施例提供了一种数据处理装置,包括:用户样本获取模块,用于获取训练样本,所述训练样本包括多个目标用户的特征数据;模型训练模块,基于所述训练样本以及预先设置的第一类损失函数和第二类损失函数,对预设的神经网络模型进行训练,得到聚类模型。其中,所述神经网络模型的输出对应于两个以上类簇,所述聚类模型用于输出所述目标用户属于每个所述类簇的概率,所述第一类损失函数用于使每个所述目标用户对应的概率分布分别集中在所述两个以上类簇中任意一个类簇上,所述第二类损失函数用于使所述多个目标用户在所述两个以上类簇中的分布满足预设条件。第五方面,本说明书实施例提供了一种计算机设备,包括:存储器、一个或多个处理器;及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述第一方面提供的数据处理方法的步骤。第六方面,本说明书实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述第一方面提供的数据处理方法的步骤。本说明书实施例有益效果如下:本说明书实施例提供的数据处理方法,采用端到端的神经网络来解决数据聚类问题,设置了两类损失函数,第一类损失函数用于使每个目标对象的概率分布分别集中在模型输出所对应的两个以上类簇中任意一个类簇上,第二类损失函数用于使多个样本对象在上述两个以上类簇中的分布满足预设条件,通过上述两种损失函数来控制对多个目标对象进行聚类的优化过程,从而使得聚类模型的输出直接对应目标对象的聚类结果,避免直接定义距离函数,有利于提高对目标对象的聚类效率且得到较好的聚类效果。附图说明图1为本说明书实施例的一种应用场景示意图;图2为本说明书实施例第一方面提供的数据处理方法的流程图;图3为本说明书实施例第一方面提供的特征用户筛选步骤的步骤流程图;图4为本说明书实施例第二方面提供的数据处理装置的结构示意图;图5为本说明书实施例第三方面提供的数据处理装置的结构示意图;图6为本说明书实施例第四方面提供的计算机设备的结构示意图。具体实施方式为了更好的理解上述技术方案,下面通过附图以及具体实施例对本说明书实施例的技术方案做详细的说明,应当理解本说明书实施例以及实施例中的具体特征是对本说明书实施例技术方案的详细的说明,而不是对本说明书技术方案的限定,在不冲突的情况下,本说明书实施例以及实施例中的技术特征可以相互组合。需要说明的是,本说明书实施例中,术语“两种以上”包括两种或大于两种的情况;术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。图1为适用于本说明书实施例提供的数据处理方法的一种运行环境示意图。如图1所示,一个或多个用户终端100(图1中仅示出一个)可通过网络200与一个或多个服务器300(图1中仅示出一个)相连,以进行数据通信或交互。其中,用户终端100可以是个人电脑(PersonalComputer,PC)、笔记本电脑、平板电脑、智能手机、电子阅读器、车载设备、网络电视、可穿戴设备等具有网络功能的智能设备。本说明书实施例提供的数据处理方法可以在用户终端中执行,也可以在服务器端执行,在本说明书较优的实施例中,该数据处理方法在服务器端执行。需要说明的是,本说明书实施例中,目标对象可以互联网的海量数据中,需要进行聚类分析的数据。例如,目标对象可以是用户,如可以针对目标应用程序的用户进行聚类分析,以便用户进行管理或信息推荐等。又例如,目标对象也可以是问题,如在智能客服场景中,可以聚类出相似的问题,然后针对相似的问题统一拟定答案,不需要针对每个问题单独拟定答案。又例如,目标对象也可以是图像,如在图像搜索场景中,可以先对图像进行聚类分析,以便于用户能够通过图像来搜索与该图像相似的图像。目标对象的特征数据可以包括能够反映目标对象的关键属性的数据,例如,当目标对象为用户时,用户的特征数据可以包括用户的画像特征和/或用户的周围环境特征;当目标对象为问题时,问题的特征数据可以包括对问题进行分词处理后得到的关键词对应的词向量;当目标对象为图像时,图像的特征数据可以包括图像中的特征点集合。为了便于描述,以下主要以目标对象为目标用户为例来介绍本方法实施例。第一方面,本说明书实施例提供了一种数据处理方法,如图2所示,该方法至少包括以下步骤S201和步骤S202。步骤S201,获取训练样本,所述训练样本包括多个目标对象的特征数据。以目标对象为目标用户为例,目标用户可以是在社交平台、电商平台或支付平台上注册的用户。此时,目标用户的特征数据可以包括能够反映用户属性的数据,例如,用户的年本文档来自技高网...

【技术保护点】
1.一种数据处理方法,包括:获取训练样本,所述训练样本包括多个目标对象的特征数据;基于所述训练样本以及预先设置的第一类损失函数和第二类损失函数,对预设的神经网络模型进行训练,得到聚类模型;其中,所述神经网络模型的输出对应于两个以上类簇,所述聚类模型用于输出所述目标对象属于每个所述类簇的概率,所述第一类损失函数用于使每个所述目标对象对应的概率分布分别集中在所述两个以上类簇中任意一个类簇上,所述第二类损失函数用于使所述多个目标对象在所述两个以上类簇中的分布满足预设条件。

【技术特征摘要】
1.一种数据处理方法,包括:获取训练样本,所述训练样本包括多个目标对象的特征数据;基于所述训练样本以及预先设置的第一类损失函数和第二类损失函数,对预设的神经网络模型进行训练,得到聚类模型;其中,所述神经网络模型的输出对应于两个以上类簇,所述聚类模型用于输出所述目标对象属于每个所述类簇的概率,所述第一类损失函数用于使每个所述目标对象对应的概率分布分别集中在所述两个以上类簇中任意一个类簇上,所述第二类损失函数用于使所述多个目标对象在所述两个以上类簇中的分布满足预设条件。2.根据权利要求1所述的方法,所述神经网络模型的输出为一个c维向量,c为大于或等于2的整数,在所述聚类模型的训练过程中,每次迭代对应的第一类损失函数值是按照以下方式得到的:针对每次输入模型的每个样本,计算模型输出的c维向量与预先设置的特征向量集合中每个特征向量之间的距离,将所计算的距离中的最小值作为该样本对应的最小距离值,其中,所述特征向量集合包括c个c维特征向量,每个特征向量均只有一个元素的值为1,除该元素外的其余元素的值均为0,且所述特征向量集合中不同特征向量的值为1的元素不同;将每次输入模型的每个样本对应的最小距离值进行累加,将累加和作为所述第一类损失函数值。3.根据权利要求1所述的方法,所述神经网络模型的输出为一个c维向量,c为大于或等于2的整数,在所述聚类模型的训练过程中,每次迭代对应的第二类损失函数值是按照以下方式得到的:将每次输入模型的b个样本对应输出的b个c维向量与预先设置的特征向量集合中每个特征向量之间的距离,得到一距离矩阵,其中,所述特征向量集合包括c个c维特征向量,每个特征向量均只有一个元素的值为1,除该元素外的其余元素的值均为0,且所述特征向量集合中不同特征向量的值为1的元素不同,所述距离矩阵为b行c列的矩阵,b为大于或等于2的正整数;获取所述距离矩阵的每列中最小的m个距离,将各列中最小的m个距离进行累加得到所述第二类损失函数值,其中,m为大于或等于1且小于b的正整数。4.根据权利要求1所述的方法,所述基于所述训练样本以及预先设置的第一类损失函数和第二类损失函数,对预设的神经网络模型进行训练,得到聚类模型,包括:基于所述训练样本,构建多个小批量数据集mini-batch;基于所述多个小批量数据集mini-batch以及所述第一类损失函数和第二类损失函数,对预设的神经网络模型进行训练,得到聚类模型。5.一种数据处理方法,包括:获取训练样本,所述训练样本包括多个目标用户的特征数据;基于所述训练样本以及预先设置的第一类损失函数和第二类损失函数,对预设的神经网络模型进行训练,得到聚类模型;其中,所述神经网络模型的输出对应于两个以上类簇,所述聚类模型用于输出所述目标用户属于每个所述类簇的概率,所述第一类损失函数用于使每个所述目标用户对应的概率分布分别集中在所述两个以上类簇中任意一个类簇上,所述第二类损失函数用于使所述多个目标用户在所述两个以上类簇中的分布满足预设条件。6.根据权利要求5所述的方法,还包括:基于所述聚类模型得到每个所述目标用户在所述两个以上类簇上的概率分布数据;根据每个所述目标用户的所述概率分布数据,确定每个所述目标用户所属的类簇;针对每一所述类簇,从属于所述类簇的目标用户中确定特征用户,得到每个所述类簇对应的特征用户。7.根据权利要求6所述的方法,所述从属于所述类簇的目标用户中确定特征用户,包括:将属于所述类簇的目标用户对应于该类簇的概率值进行由小到大排序,得到一排序结果;将所述排序结果中,概率值处于前预设位数的目标用户作为所述特征用户。8.根据权利要求6所述的方法,所述得到每个所述类簇对应的特征用户之后,还包括:基于每个类簇对应的特征用户的特征数据,生成该类簇对应的推荐文案。9.根据权利要求8所述的方法,所述基于每个类簇对应的特征用户的特征数据,生成该类簇对应的推荐文案,包括:根据每个类簇对应的特征用户的特征数据以及预设的文案模板,生成该类簇对应的推荐文案。10.根据权利要求8所述的方法,所述基于每个类簇对应的特征用户的特征数据,生成该类簇对应的推荐文案之后,还包括:将候选用户的特征数据输入所述聚类模型,得到所述候选用户在所述两个以上类簇上的概率分布数据;基于所述概率分布数据,确定所述候选用户所属的目标类簇;向所述候选用户投放所述目标类簇对应的推荐文案。11.根据权利要求5所述的方法,所述神经网络模型的输出为一个c维向量,c为大于或等于2的整数,在所述聚类模型的训练过程中,每次迭代对应的第一类损失函数值是按照以下方式得到的:针对每次输入模型的每个样本,计算模型输出的c维向量与预先设置的特征向量集合中每个特征向量之间的距离,将所计算的距离中的最小值作为该样本对应的最小距离值,其中,所述特征向量集合包括c个c维特征向量,每个特征向量均只有一个元素的值为1,除该元素外的其余元素的值均为0,且所述特征向量集合中不同特征向量的值为1的元素不同;将每次输入模型的每个样本对应的最小距离值进行累加,将累加和作为所述第一类损失函数值。12.根据权利要求5所述的方法,所述神经网络模型的输出为一个c维向量,c为大于或等于2的整数,在所述聚类模型的训练过程中,每次迭代对应的第二类损失函数值是按照以下方式得到的:将每次输入模型的b个样本对应输出的b个c维向量与预先设置的特征向量集合中每个特征向量之间的距离,得到一距离矩阵,其中,所述特征向量集合包括c个c维特征向量,每个特征向量均只有一个元素的值为1,除该元素外的其余元素的值均为0,且所述特征向量集合中不同特征向量的值为1的元素不同,所述距离矩阵为b行c列的矩阵,b为大于或等于2的正整数;获取所述距离矩阵的每列中最小的m个距离,将各列中最小的m个距离进行累加得到所述第二类损失函数值,其中,m为大于或等于1且小于b的正整数。13.根据权利要求5所述的方法,所述特征数据包括用户的画像特征信息和/或用户所在的环境特征信息。14.一种数据处理装置,包括:对象样本获取模块,用于获取训练样本,所述训练样本包括多个目标对象的特征数据;模型...

【专利技术属性】
技术研发人员:赵耀危彬顾剑波
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:开曼群岛,KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1