基于高斯混合模型的用户群和金融用户群分析方法及装置制造方法及图纸

技术编号:37159332 阅读:15 留言:0更新日期:2023-04-06 22:23
本发明专利技术实施例涉及一种基于高斯混合模型的用户群和金融用户群分析方法及装置,所述方法包括:接收多个参与方发送的中间数据;在可信执行环境中,根据中间数据进行联合计算,得到全局均值向量;将全局均值向量发送至多个参与方;接收多个参与方发送的协方差数据;根据该协方差数据,计算得到对应各个高斯分布的全局协方差,并根据该全局协方差计算全局后验概率,将该全局后验概率作为下一轮迭代的先验概率发至多个参与方,使得多个参与方在本地进行迭代,直至得到收敛的高斯混合模型。本发明专利技术的技术方案,通过联邦学习方法构建模型,可以在保证数据不出域的前提下,丰富参与训练的数据集,提高模型的拟合精度,提高用户群分析的准确率。确率。确率。

【技术实现步骤摘要】
基于高斯混合模型的用户群和金融用户群分析方法及装置


[0001]本专利技术实施例涉及数据挖掘和隐私数据处理
,尤其涉及一种基于高斯混合模型的用户群和金融用户群分析方法及装置。

技术介绍

[0002]随着信息化和数字化时代的到来,大数据技术成为了众多企业进行业务决策和客户群探索的利器。企业根据已有的用户数据,利用适合的数据挖掘方法,可以清晰的构建用户群画像。针对不同的客户群体采用不同的营销策略,推荐更符合用户偏好的产品,以实现精准营销和推广。这种方式下,简化传统人工制定营销方案的繁杂流程,降低了时间成本的同时,还进一步地提高了产品的获客率。
[0003]现有的客户群识别技术,通常通过使用大量的数据训练机器学习模型。对于类似于逻辑回归、决策树等的有监督学习,往往需要已知的用户类别标签;而当标签未知时,只能使用聚类算法或者复杂的深度学习方法获得用户群。并且,采用较少的用户数据得到的模型准确率较低,无法提供较好的预测结果。

技术实现思路

[0004]基于现有技术的上述情况,本专利技术实施例的目的在于提供一种基于高斯混合模型的用户群和金融用户群分析方法及装置,通过联邦学习方法构建模型,可以在保证数据不出域的前提下,丰富参与训练的数据集,提高模型的拟合精度,提高用户群分析的准确率。
[0005]为达到上述目的,根据本专利技术的第一个方面,提供了一种基于高斯混合模型的用户群分析方法,应用于服务器端,所述方法包括:接收多个参与方发送的与后验概率相关的中间数据,每个所述中间数据由对应的参与方根据本地样本数据对应高斯混合模型中各个高斯分布的先验概率、均值和协方差获得;所述本地样本数据包括各参与方用于构建用户群画像的用户数据;在可信执行环境中,根据所接收的多个中间数据进行联合计算,得到全局均值向量;将所述全局均值向量发送至多个参与方,以使得多个参与方采用该全局均值向量和归一化的先验概率获得对应各个高斯分布的协方差数据;接收多个参与方发送的协方差数据;在可信执行环境中根据该协方差数据,计算得到对应各个高斯分布的全局协方差,并根据该全局协方差计算全局后验概率,将该全局后验概率作为下一轮迭代的先验概率发至多个参与方,使得多个参与方本地采用该先验概率、全局均值向量和全局协方差进行迭代,直至得到收敛的高斯混合模型,以依据收敛的高斯混合模型进行潜在用户群的划分;在可信执行环境中根据该全局后验概率和上一轮迭代的全局后验概率的后验概率偏差判断高斯混合模型的参数是否收敛,并在参数收敛时停止迭代过程,得到收敛的高
斯混合模型。
[0006]进一步的,所述方法还包括:当后验概率偏差小于偏差阈值时,向各参与方发送停止迭代指令,以使得各参与方根据停止迭代指令停止迭代,得到收敛的高斯混合模型,各参与方在接收停止迭代指令前暂停迭代;当后验概率偏差大于或等于偏差阈值时,向各参与方发送继续迭代指令,以使得各参与方依据继续迭代指令进行迭代,各参与方在接收继续迭代指令前暂停迭代。
[0007]进一步的,所述与后验概率相关的中间数据包括和;为各参与方计算得到的本地样本数据对各个高斯分布的隶属度和向量,为归一化的先验概率与本地样本数据的乘积和矩阵;在可信执行环境中,根据所接收的多个中间数据进行联合计算,得到全局均值向量,包括:在可信执行环境中将进行聚合得到P个参与方的用户样本属于第k个高斯分布的总隶属度,并利用和计算得到全局均值向量。
[0008]进一步的,所述先验概率包括样本属于用户群各类别的权重;用户群各类别的类别数根据多个参与方通过本地样本数据迭代得到本地收敛的高斯混合模型后获得:接收各个参与方发送的多个初始类别数,所述初始类别数由各个参与方通过本地样本数据迭代得到本地收敛的高斯混合模型后得到;根据所述多个初始类别数建立预设数列,该预设数列为差值为1的等差数列,该预设数列的第一值为多个初始类别数中最小的类别数值,最后一值为多个初始类别数相加的和值;将多个高斯分布的初始类别数设为预设数列的第一值,其后的每一次迭代从该预设数列中取值作为该次迭代过程中高斯分布的类别数;所述权重通过参与方预设获得;或者由各参与方在本地通过聚类分析获得。
[0009]进一步的,所述高斯混合模型采用以下目标函数表示:其中,表示第i个用户样本;P表示参与方总数;表示第p个参与方的样本总数;K表示用户群个数,表示第k个用户群对应的高斯分布;是第k个高斯分布的先验概率;表示标记用户数据样本的来源的二值参数,为隐变量。
[0010]根据本专利技术的第二个方面,提供了一种基于高斯混合模型的用户群分析方法,应用于参与方端,所述方法包括:根据本地样本数据对应高斯混合模型中各个高斯分布的先验概率、均值和协方差获得与后验概率相关的中间数据;所述本地样本数据包括参与方用于构建用户群画像的用户数据;将所述中间数据发送至服务器端,以使得服务器端在可信执行环境中采用中间数据进行联合计算,得到全局均值向量;
接收服务器端发送的全局均值向量,采用全局均值向量和归一化的先验概率获得对应各个高斯分布的协方差数据;将所述协方差数据发送至服务器端,以使得服务器端在可信执行环境中根据该协方差数据计算得到对应各个高斯分布的全局协方差,以及根据该全局协方差计算全局后验概率;接收服务器端发送的全局后验概率,将该全局后验概率作为下一轮迭代的先验概率,并采用该先验概率、全局均值向量和全局协方差进行迭代,直至得到收敛的高斯混合模型。
[0011]进一步的,根据本地样本数据对应高斯混合模型中各个高斯分布的先验概率、均值和协方差获得与后验概率相关的中间数据,包括:对所述先验概率、均值和协方差进行归一化,得到归一化的先验概率;根据所述归一化的先验概率得到本地样本数据对各个高斯分布的隶属度和向量;计算得到归一化的先验概率与本地样本数据的乘积和矩阵;将和作为所述中间数据;采用全局均值向量和归一化的先验概率获得对应各个高斯分布的协方差数据,包括:根据全局均值向量和归一化的先验概率计算样本偏差平方和;将各个高斯分布的样本偏差平方和封装为一个多维矩阵作为协方差数据。
[0012]进一步的,所述方法还包括:对所采用的先验概率、均值和协方差增加随机数后,多次重新计算。
[0013]进一步的,目标数据包括中间数据和协方差,确定目标数据的步骤,包括:对于样本数据中数值型的第一数据,向第一数据中添加噪声数据进行扰动,以依据扰动后的数据,确定所述目标数据,其中,所述噪声数据符合拉普拉斯分布;对于样本数据中非数值型的第二数据,依据指数机制确定各个第二数据的返回概率,以依据返回概率确定待统计数据,以依据待统计数据确定所述目标数据。
[0014]根据本专利技术的第三个方面,提供了一种基于高斯混合模型的金融用户群分析方法,应用于服务器端,所述方法包括:接收多个参与方发送的与后验概率相关的中间数据,每个所述中间数据由对应的参与方根据本地样本数据对应高斯混合模型中各个高斯分布的先验概率、均值和协方差获得;所述本地样本数据包括各参与方用于构建金融用户群画像的用户数据;在可信执行环境中,根据所接收的多个中间数据进行联合计算本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于高斯混合模型的用户群分析方法,其特征在于,应用于服务器端,所述方法包括:接收多个参与方发送的与后验概率相关的中间数据,每个所述中间数据由对应的参与方根据本地样本数据对应高斯混合模型中各个高斯分布的先验概率、均值和协方差获得;所述本地样本数据包括各参与方用于构建用户群画像的用户数据;在可信执行环境中,根据所接收的多个中间数据进行联合计算,得到全局均值向量;将所述全局均值向量发送至多个参与方,以使得多个参与方采用该全局均值向量和归一化的先验概率获得对应各个高斯分布的协方差数据;接收多个参与方发送的协方差数据;在可信执行环境中根据该协方差数据,计算得到对应各个高斯分布的全局协方差,并根据该全局协方差计算全局后验概率,将该全局后验概率作为下一轮迭代的先验概率发至多个参与方,使得多个参与方本地采用该先验概率、全局均值向量和全局协方差进行迭代,直至得到收敛的高斯混合模型,以依据收敛的高斯混合模型进行潜在用户群的划分;在可信执行环境中根据该全局后验概率和上一轮迭代的全局后验概率的后验概率偏差判断高斯混合模型的参数是否收敛,并在参数收敛时停止迭代过程,得到收敛的高斯混合模型。2.根据权利要求1所述的方法,其特征在于,所述方法还包括:当后验概率偏差小于偏差阈值时,向各参与方发送停止迭代指令,以使得各参与方根据停止迭代指令停止迭代,得到收敛的高斯混合模型,各参与方在接收停止迭代指令前暂停迭代;当后验概率偏差大于或等于偏差阈值时,向各参与方发送继续迭代指令,以使得各参与方依据继续迭代指令进行迭代,各参与方在接收继续迭代指令前暂停迭代。3.根据权利要求1所述的方法,其特征在于,所述与后验概率相关的中间数据包括和;为各参与方计算得到的本地样本数据对各个高斯分布的隶属度和向量,为归一化的先验概率与本地样本数据的乘积和矩阵;在可信执行环境中,根据所接收的多个中间数据进行联合计算,得到全局均值向量,包括:在可信执行环境中将进行聚合得到P个参与方的用户样本属于第k个高斯分布的总隶属度,并利用和计算得到全局均值向量。4.根据权利要求1所述的方法,其特征在于,所述先验概率包括样本属于用户群各类别的权重;用户群各类别的类别数根据多个参与方通过本地样本数据迭代得到本地收敛的高斯混合模型后获得:接收各个参与方发送的多个初始类别数,所述初始类别数由各个参与方通过本地样本数据迭代得到本地收敛的高斯混合模型后得到;根据所述多个初始类别数建立预设数列,该预设数列为差值为1的等差数列,该预设数
列的第一值为多个初始类别数中最小的类别数值,最后一值为多个初始类别数相加的和值;将多个高斯分布的初始类别数设为预设数列的第一值,其后的每一次迭代从该预设数列中取值作为该次迭代过程中高斯分布的类别数;所述权重通过参与方预设获得;或者由各参与方在本地通过聚类分析获得。5.根据权利要求1

4中任意一项所述的方法,其特征在于,所述高斯混合模型采用以下目标函数表示:其中,表示第i个用户样本;P表示参与方总数;表示第p个参与方的样本总数;K表示用户群个数,表示第k个用户群对应的高斯分布;是第k个高斯分布的先验概率;表示标记用户数据样本的来源的二值参数,为隐变量。6.一种基于高斯混合模型的用户群分析方法,其特征在于,应用于参与方端,所述方法包括:根据本地样本数据对应高斯混合模型中各个高斯分布的先验概率、均值和协方差获得与后验概率相关的中间数据;所述本地样本数据包括参与方用于构建用户群画像的用户数据;将所述中间数据发送至服务器端,以使得服务器端在可信执行环境中采用中间数据进行联合计算,得到全局均值向量;接收服务器端发送的全局均值向量,采用全局均值向量和归一化的先验概率获得对应各个高斯分布的协方差数据;将所述协方差数据发送至服务器端,以使得服务器端在可信执行环境中根据该协方差数据计算得到对应各个高斯分布的全局协方差,以及根据该全局协方差计算全局后验概率;接收服务器端发送的全局后验...

【专利技术属性】
技术研发人员:尚梦琦王帅王爽郑灏李帜孙琪
申请(专利权)人:北京锘崴信息科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1