晶体衍射图像筛选模型训练方法和晶体衍射图像筛选方法技术

技术编号:34388762 阅读:31 留言:0更新日期:2022-08-03 21:14
本发明专利技术公开了一种晶体衍射图像筛选模型训练方法和晶体衍射图像筛选方法,其中训练方法包括:每个训练小组分别基于本地训练数据进行模型训练,并将训练的模型参数发送给中央服务器,中央服务器基于预设聚合方式对所有所述模型参数进行聚合以获取全局梯度参数组,并基于全局梯度参数组更新衍射图像筛选全局模型,每个训练小组分别判断其是否满足完成识别率不再降低要求,并将判断结果发送给中央服务器,中央服务器基于所有判断结果判断是否训练完成。本发明专利技术模型训练方法支持神经网络模型训练数据和全局模型的分离,实现了对私有数据的隐私保护,大幅增强了私有数据的安全性和保密性。性。性。

【技术实现步骤摘要】
晶体衍射图像筛选模型训练方法和晶体衍射图像筛选方法


[0001]本专利技术涉及图像处理
,尤其涉及一种晶体衍射图像筛选模型训练方法及晶体衍射图像筛选方法。

技术介绍

[0002]同步辐射光源具有高强度、高亮度、高准直性等特性,可用以从事多学科的前沿基础研究,例如使用其中的硬X射线对蛋白质等大分子进行晶体衍射是常用的实验方法。但硬X射线自由电子激光的平均数据带宽是2~20GB/s,峰值为100GB/s,高速的数据流给数据的存储和传输带来了巨大的压力,并且由于衍射图像的高维性给数据的后续处理带来了严峻的问题。为了减轻后续数据传输和存储的压力,可采用深度学习方法对无效的图像数据进行筛选和抛弃。
[0003]神经网络模型的训练需要大量的图像数据,这些图像数据来源于不同的研究小组,由于这些数据包含重大科学发现的机遇,具有高度的科研价值,并且存在数据版权保护的困难,为了避免数据泄露造成科研损失,需要提供基于数据隐私保护的深度学习方法。现有的一种深度学习方法为联邦学习方法,其原理为根据多个客户端的调度信息,从多个客户端中选择一个作为中央服务器对全局模型进行聚合,从而达到对客户端数据隐私进行保护的作用。现有的另外一种学习方法为基于non

LLD数据的半监督联邦学习方法,该方法的中央服务器随机选择一定比例的客户端参与全局模型的更新,解决了联邦学习方法中缺乏标记数据的问题。但是上述学习方法的复杂度较高,时间开销较大,对高速数据的处理效率比较低,不适合高数据流量、低延迟要求的光源场景,同时也导致现有的衍射图像识别方法准确率低下,识别速度过慢等问题。

技术实现思路

[0004]本专利技术所要解决的技术问题是现有的衍射图像的筛选方法衍射图像识别准确率低下,识别速度过慢。
[0005]为了解决上述技术问题,本专利技术提供了一种晶体衍射图像筛选模型训练方法,包括:
[0006]每个所述训练小组分别基于其对应的本地训练数据集对对应的本地衍射图像筛选模型进行训练,以获取每个所述训练小组对应的训练完成衍射图像筛选模型;
[0007]所有所述训练小组分别将其对应的训练完成衍射图像筛选模型的模型参数发送给所述中央服务器;
[0008]所述中央服务器基于预设聚合方式对所有所述模型参数进行聚合,以获取全局梯度参数组,并基于所述全局梯度参数组更新衍射图像筛选全局模型;
[0009]每个所述训练小组分别判断其预设训练轮次组内获取的所述训练完成衍射图像筛选模型是否符合预设识别准确率条件以获取判断结果,并将所述判断结果发送给所述中央服务器;
[0010]所述中央服务器基于所有所述判断结果判断是否所有所述训练小组均完成识别率不再降低要求,若是则将当前所述衍射图像筛选全局模型作为训练完成衍射图像筛选全局模型,否则将当前所述全局梯度参数组分别发送给所有所述训练小组,每个所述训练小组分别基于所述全局梯度参数组对齐对应的所述本地衍射图像筛选模型进行更新,并重新分别基于对应的本地训练数据集对对应的本地衍射图像筛选模型进行训练,以实现新一轮次的训练;
[0011]其中,每个所述训练小组的初始本地衍射图像筛选模型由所述中央服务器发送,且所有所述训练小组的初始本地衍射图像模型均相同,所有所述训练小组均具有其对应的本地训练数据集,且不同本地训练数据集中的图像数据属于不同蛋白质分子的晶体衍射图像。
[0012]优选地,所述训练完成衍射图像筛选模型的模型参数包括所述训练完成衍射图像筛选模型的梯度参数组、对应本地训练数据集的预设KL散度指标和对应所述本地训练数据集中图像数据个数。
[0013]优选地,所述本地训练数据集的预设KL散度指标计算公式为:
[0014]W=1

D
KL
(P||q)
[0015]=1

θlog2θ

(1

θ)log2(1

θ)
‑1[0016]=

θlog2θ

(1

θ)log2(1

θ)
[0017]其中,W表示预设KL散度指标,θ表示所述本地训练数据集中正类图像数据的概率。
[0018]优选地,所述中央服务器基于预设聚合方式对所有所述模型参数进行聚合,以获取全局梯度参数组包括:
[0019]计算每个所述模型参数中预设KL散度指标权重和图像数据个数权重,并将每个所述模型参数的预设KL散度指标权重和图像数据个数权重之和作为对应所述模型参数的综合权重;
[0020]基于每个所述模型参数的综合权重,对所有所述梯度参数组中的所有梯度参数分别进行加权求和处理,并基于所有加权求和后的梯度参数获取全局梯度参数。
[0021]优选地,所述预设训练轮次组获取方式为:以当前训练轮次为起点,依次往前获取预设个数的训练轮次形成所述预设训练轮次组。
[0022]优选地,判断单个所述训练小组预设训练轮次组内获取的所述训练完成衍射图像筛选模型是否符合预设识别准确率条件包括:
[0023]将该训练小组所述预设训练轮次获取的训练完成衍射图像筛选模型均作为识别模型,以获取识别模型组;
[0024]将每个所述识别模型获取过程中的准确率值作为训练准确率值,以获取训练准确率值组,并基于轮次顺序将所述训练准确率值组中相邻的两个训练准确率值依次作差,以获取准确率误差组;
[0025]判断所述准确率误差组中的所有所述准确率误差是否均小于预设阈值,若是则判定该训练小组完成识别率不再降低要求,否则判定该训练小组未完成识别率不再降低要求。
[0026]优选地,所有所述本地训练数据集中的图像数据均通过所述同步辐射装置获取。
[0027]优选地,所有所述本地训练数据集中的图像数据均依次经过灰度处理和随机剪
裁。
[0028]优选地,所述灰度处理方式为:将所述图像数据由第一位深度的灰度图像转换为第二位深度的灰度图像;所述第一位深度大于所述第二位深度。
[0029]为了解决上述技术问题,本专利技术还提供了一种晶体衍射图像筛选方法,包括:
[0030]获取待筛选图像数据;
[0031]基于所述训练完成衍射图像筛选全局模型对所述待筛选图像数据进行晶体衍射图像筛选,以获取所述待筛选图像数据中的晶体衍射图像数据。
[0032]与现有技术相比,上述方案中的一个或多个实施例可以具有如下优点或有益效果:
[0033]应用本专利技术实施例提供的晶体衍射图像筛选模型训练方法,支持神经网络模型训练数据和全局模型的分离,实现了对私有数据的隐私保护,大幅增强了私有数据的安全性和保密性;基于改进的KL散度和数据量权重对全局模型进行更新,大幅提高了晶体衍射图像的识别准确率;采用灰度处理、随机裁剪等预处理方法,大幅降低了图片数据输入的输入尺寸,增强了图片数据的特征,加快了晶体衍射图像的筛选速度。
[0034]本专利技术的其它特本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种晶体衍射图像筛选模型训练方法,包括:每个所述训练小组分别基于其对应的本地训练数据集对对应的本地衍射图像筛选模型进行训练,以获取每个所述训练小组对应的训练完成衍射图像筛选模型;所有所述训练小组分别将其对应的训练完成衍射图像筛选模型的模型参数发送给所述中央服务器;所述中央服务器基于预设聚合方式对所有所述模型参数进行聚合,以获取全局梯度参数组,并基于所述全局梯度参数组更新衍射图像筛选全局模型;每个所述训练小组分别判断其预设训练轮次组内获取的所述训练完成衍射图像筛选模型是否符合预设识别准确率条件以获取判断结果,并将所述判断结果发送给所述中央服务器;所述中央服务器基于所有所述判断结果判断是否所有所述训练小组均完成识别率不再降低要求,若是则将当前所述衍射图像筛选全局模型作为训练完成衍射图像筛选全局模型,否则将当前所述全局梯度参数组分别发送给所有所述训练小组,每个所述训练小组分别基于所述全局梯度参数组对其对应的所述本地衍射图像筛选模型进行更新,并重新分别基于其对应的本地训练数据集对对应的本地衍射图像筛选模型进行训练,以实现新一轮次的训练;其中,每个所述训练小组的初始本地衍射图像筛选模型由所述中央服务器发送,且所有所述训练小组的初始本地衍射图像模型均相同,所有所述训练小组均具有其对应的本地训练数据集,且不同本地训练数据集中的图像数据属于不同蛋白质分子的晶体衍射图像。2.根据权利要求1所述的训练方法,其特征在于,所述训练完成衍射图像筛选模型的模型参数包括所述训练完成衍射图像筛选模型的梯度参数组、对应本地训练数据集的预设KL散度指标和对应所述本地训练数据集中图像数据个数。3.根据权利要求2所述的训练方法,其特征在于,所述本地训练数据集的预设KL散度指标计算公式为:W=1

D
KL
(P||q)=1

θlog2θ

(1

θ)log2(1

θ)

1=

θlog2θ

(1

θ)log2(1
‑...

【专利技术属性】
技术研发人员:许康祝永新郑小盈
申请(专利权)人:中国科学院上海高等研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1