一种建立数据分析模型的方法技术

技术编号:24251035 阅读:99 留言:0更新日期:2020-05-22 23:19
本发明专利技术提供一种建立数据分析模型的方法,包括基于当前的用户数据,在服务器端采用深度神经网络学习和预训练初始云模型,并将初始云模型下发给不同的用户;用户根据自身数据特性,基于接收到的云模型构建其自身用户模型同时采用深度神经网络学习和训练,并将训练后的用户模型回传给服务器;服务器将接收到的用户模型基于预设的周期进行融合,得到新的云模型;用户基于接收到的新的云模型,调整其自身用户模型同时采用深度神经网络学习和训练,并将训练后的用户模型回传给服务器。基于本发明专利技术方法构建的模型框架可以通过结合联邦学习和同态加密技术,可以解决数据孤岛和个性化的问题,通过汇总来自不同组织机构的数据,构建强大的机器学习模型,同时还能保护用户的隐私。

A method of building data analysis model

【技术实现步骤摘要】
一种建立数据分析模型的方法
本专利技术涉及数据分析领域,尤其涉及可穿戴健康监护领域,具体地说,涉及一种建立不同用户数据共享模型的方法,更具体地说,涉及一种建立数据分析模型的方法。
技术介绍
近年来,随着计算技术的快速发展,基于智能手机,腕带和智能眼镜等可穿戴设备的可穿戴技术能够帮助人们更加了解自己的健康状况。日常行为活动与人们的健康密切相关,可能是某些认知疾病的早期信号。例如,步态的改变可能导致小血管疾病或中风。经研究发现,通过佩戴传感器监测用户的活动,可以识别日常行为活动。这些可穿戴设备可以轻松访问人们的健康信息,包括行为活动、睡眠、运动等。已有的研究表明,基于可穿戴技术的健康监护能够为几种认知疾病提供早期预警,例如帕金森氏症,脑小血管疾病等,同时也可应用在其他包括心理健康评估、跌倒检测、体育运动监测等领域。事实上,随着技术的不断进步,基于可穿戴技术的可穿戴健康监护的应用趋势越来越明显。然而值得注意的是,传统的健康监护应用通常通过聚合所有用户数据来构建模型。但是,在实际应用中,数据通常是孤立的,并且由于隐私问题而无法轻松共享,而且,构建的模型缺乏个性化的能力。在可穿戴健康监护领域,通常使用大量的用户数据训练机器学习模型去追踪用户的健康状况,例如支持向量机、决策树、隐马尔可夫模型等传统机器学习方法在许多健康监护领域中都有应用。现有的可穿戴健康监护面临两大主要挑战。第一个挑战,如图1所示,在现实生活中,数据通常以孤岛的形式存在,不同的组织和机构拥有大量的数据,但是由于隐私和安全问题,这些数据无法共享,在图1中,当同一用户使用来自两家公司的不同产品时,他的数据被分别存储在两家公司中无法共享,这使得很难利用这些数据训练出高性能的模型。此外,最近中国,美国和欧盟都通过了不同的规范化制度来强制保护用户数据,因此在实际应用中不可能直接获得大量的用户数据。另一个重要的挑战是如何实现个性化。现有技术下,大多数方法都是基于一个共有的服务器模型去应用于几乎所有的用户,通过获得足够多的用户数据去训练一个令人满意的机器学习模型,然后将这个模型分发给所有用户设备中去追踪日常的健康信息,这个过程是没有实现个性化的。然而,不同的用户具有不同的身体特征和日常的行为模式,因此一个公共模型无法实现个性化的健康监护。目前,在可穿戴健康监护领域,还没有有效的方法去解决以上挑战。
技术实现思路
因此,本专利技术的目的在于克服上述现有技术的缺陷,提供一种新的能够为不同用户建立个性化分析模型并防止数据泄露的建立分析模型的方法。根据本专利技术的第一方面,本专利技术提供一种建立数据分析模型的方法,包括:S1、基于当前的用户数据,在服务器端采用深度神经网络学习和预训练初始云模型,并将初始云模型下发给不同的用户;在训练初始云模型的过程中,以优化云模型损失函数为训练目标,其中,损失函数为:表示服务器端汇总的带标签的数据样本,n表示数据样本总数,i表示第i个数据样本,x表示数据样本,y表示这个数据样本对应的类别标签,fs表示服务器端云模型。S2、用户根据自身数据特性,基于接收到的云模型构建其自身用户模型同时采用深度神经网络学习和训练,并将训练后的用户模型回传给服务器;在训练用户个性化模型过程中,以优化用户个性化模型损失函数为训练目标,其中,损失函数为:表示用户产生的数据,n表示数据样本总数,i表示第i个数据样本,x表示数据样本,y表示这个数据样本对应的类别标签,fu表示用户模型。S3、服务器将接收到的用户模型基于预设的周期进行融合,得到新的云模型;优选的,服务器将接收到的用户模型进行融合采用模型平均的方式,包括:S31、从接收到的用户模型中随机选择多个用户模型;S32、将步骤S31中选择的用户模型的参数进行相加后取平均值作为融合后的新的云模型的参数:其中,fs’表示融合后的新的云模型,K表示选择的用户模型的个数。S4、用户基于接收到的新的云模型,调整其自身用户模型同时采用深度神经网络学习和训练,并将训练后的用户模型回传给服务器,重复执行步骤S3。其中,基于接收到的云模型调整其自身用户模型是指,固定云模型前四层参数,在云模型与用户模型的第二个全连接层的输出之间进行特征对齐以实现调整用户模型。特征对齐以优化调整后的用户模型损失函数为目标,其中,调整后的用户模型损失函数为:其中,lCORAL为特征对齐损失函数,代表平方希尔伯特——施密特矩阵范数,CS,ST分别表示源域和目标域权重的协方差矩阵,η表示一个权衡因子。根据本专利技术的另一方面,本专利技术提供一种可穿戴健康监护分析系统,包括:服务器、云模型、多个用户模型;其中,服务器被配置为基于当前的用户数据,深度神经网络学习和预训练初始云模型下发给不同的用户,并基于用户反馈的用户模型不断更新云模型并下发给用户以调整用户模型;每一个用户模型被配置为根据自身数据特性,基于接收到的云模型构建其自身用户模型同时采用深度神经网络学习和训练,并将训练后的用户模型回传给服务器。与现有技术相比,本专利技术的优点在于:本专利技术通过结合联邦学习、迁移学习和同态加密技术,解决数据孤岛和模型个性化的问题,通过汇总来自不同组织机构的数据,构建强大的机器学习模型,在构建完云端服务器模型后,本专利技术提出的框架能够利用迁移学习为每个用户实现个性化的模型学习,而且这个框架可以实现增量更新。本专利技术具有高效性和可扩展性,在基于智能手机的行为识别实验中,本专利技术与传统学习方法相比,识别准确率提高了5.3%,可以部署到许多健康监护应用中,以不断提高它们在现实生活中的性能。附图说明以下参照附图对本专利技术实施例作进一步说明,其中:图1为现有技术下可穿戴健康监护分析的数据孤岛问题示意图;图2为根据本专利技术实施例的建立数据分析模型的框架示意图;图3为根据本专利技术实施例的建立数据分析模型过程中特征对齐示意图;图4为根据本专利技术实施例的建立数据分析模型的方法构建的模型与其他方法构建的模型的可扩展性对比示意图。具体实施方式为了使本专利技术的目的,技术方案及优点更加清楚明白,以下结合附图通过具体实施例对本专利技术进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本专利技术,并不用于限定本专利技术。为了更好的理解本专利技术,首先介绍一下本专利技术所采用的技术对应的背景。联邦机器学习是近年来机器学习中炙手可热的一个领域,最早由谷歌提出,他们基于分布于世界各地的移动电话训练分布式的机器学习模型,其关键思想是在此过程中保护用户数据。之后,一些研究人员开始关注保护隐私的机器学习,联合多任务学习以及个性化联邦学习。联邦学习能够通过在网络中训练隐私保护模型来解决数据孤岛问题。联邦学习主要分为三类:横向联邦学习、垂直联邦学习、联邦迁移学习。本专利技术基于联邦迁移学习这一类别,由于联邦迁移学习能高效的做到隐私保护和解决数据孤岛等问题,使得其可以应用于可穿戴健康监护领域本文档来自技高网
...

【技术保护点】
1.一种建立数据分析模型的方法,其特征在于,包括/nS1、基于当前的用户数据,在服务器端采用深度神经网络学习和预训练初始云模型,并将初始云模型下发给不同的用户;/nS2、用户根据自身数据特性,基于接收到的云模型构建其自身用户模型同时采用深度神经网络学习和训练,并将训练后的用户模型回传给服务器;/nS3、服务器将接收到的用户模型基于预设的周期进行融合,得到新的云模型。/n

【技术特征摘要】
1.一种建立数据分析模型的方法,其特征在于,包括
S1、基于当前的用户数据,在服务器端采用深度神经网络学习和预训练初始云模型,并将初始云模型下发给不同的用户;
S2、用户根据自身数据特性,基于接收到的云模型构建其自身用户模型同时采用深度神经网络学习和训练,并将训练后的用户模型回传给服务器;
S3、服务器将接收到的用户模型基于预设的周期进行融合,得到新的云模型。


2.根据权利要求1所述的一种建立数据分析模型的方法,其特征在于,还包括:
S4、用户基于接收到的新的云模型,调整其自身用户模型同时采用深度神经网络学习和训练,并将训练后的用户模型回传给服务器,重复执行步骤S3。


3.根据权利要求2所述的一种建立数据分析模型的方法,其特征在于,在训练初始云模型的过程中,以优化云模型损失函数为训练目标,其中,损失函数为:




表示服务器端汇总的带标签的数据样本,n表示数据样本总数,i表示第i个数据样本,x表示数据样本,y表示这个数据样本对应的类别标签,fs表示服务器端云模型。


4.根据权利要求1所述的一种建立数据分析模型的方法,其特征在于,所述步骤S2中,在训练用户个性化模型过程中,以优化用户个性化模型损失函数为训练目标,其中,损失函数为:




表示用户产生的数据,n表示数据样本总数,i表示第i个数据样本,x表示数据样本,y表示这个数据样本对应的类别标签,fu表示用户模型。


5.根据权利要求2所述的一种建立数据分析模块的方法,其特征在于,所述步骤S4中基于接收到的云模型调整其自身用户模型是指,固定云模型前四层参数,在云模型与用户模型的第二个全连接层的输出之间进行特征对齐以实现调整用户模型。

<...

【专利技术属性】
技术研发人员:陈益强于超辉王晋东秦欣
申请(专利权)人:中国科学院计算技术研究所
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1