一种基于隐私保护的材料性能预测方法及系统技术方案

技术编号：30436557 阅读：26 留言：0更新日期：2021-10-24 17:38

本发明专利技术公开了一种基于隐私保护的材料性能预测方法及系统。本发明专利技术首先利用学习端内部的数据完成各自子模型的训练，然后利用各个子模型的输出结果完成集成模型的训练，本发明专利技术既实现了各个学习端的数据的应用，又避免了数据及子模型在不同学习端之间的传输，实现了在数据不出域的情况下完成学习过程，避免数据泄露与模型泄露。与模型泄露。与模型泄露。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于隐私保护的材料性能预测方法及系统

[0001]本专利技术涉及材料性能研究
，特别涉及一种基于隐私保护的材料性能预测方法及系统。

技术介绍

[0002]目前的数据驱动材料研究一直受限于数据量不足的问题，由于数据样本较少导致很难训练出泛化能力出众的模型，无法运用于实际生产。目前解决该问题的主要手段是通过数据增强的方法扩充数据集，在样本充足的情况下往往能够使模型获得更好的效果。然而材料数据常常是花费大量人力和物力通过制备和表征得到的真实数据，扩充出的数据集准确性无法得到保证。例如在材料领域，实验得出的数据一般较为可靠，通过数据增强方式扩充得到的数据往往与实验得到的数据相差较大。在极高的时间与费用成本下，实验数据通常数据量不大且都具有较高的隐私性。这种情况下，一家单位希望与其他单位合作，利用各自手中少量的实验数据共同学习就成了一种可行的方式。因此，参与者们希望在保证各方数据的隐私不被侵犯下高效训练出共享模型，并运用于实际生产。
[0003]正是由于材料数据的高价值和隐私性，在各参与方通信的情况下，数据的交换往往涉及版权问题。所以合作学习的前提是保护数据拥有者拥有的数据隐私。
[0004]由于合作学习的最终目的是结合多方数据在不泄露数据本身的情况下，将数据训练出的结果反映在模型上。因此除了数据的安全需要被关注，模型本身的安全也需要被关注。在多方共同机器学习的过程中，为了不让参与方获取数据，因此本专利技术设计了一个集成服务节点负责对各方训练的子模型结果进行集成，这种方式能够在数据不出域的情况下完成学...

【技术保护点】

【技术特征摘要】
1.一种基于隐私保护的材料性能预测方法，其特征在于，所述材料性能预测方法基于材料性能预测平台，所述材料性能预测平台包括：多个学习端和集成服务器，不同学习端分别与不同参与者连接，用于从不同参与者获取材料的不同工序的工艺参数，不同参与者分别研究材料生产过程中的不同工序，每个所述学习端分别与所述集成服务器连接；所述材料性能预测方法包括如下步骤：每个学习端分别利用每个学习端所获取的工艺参数训练每个学习端的子模型，获得每个学习端的训练后的子模型；将每个学习端的训练后的子模型的输出作为所述集成服务器中的集成模型的输入，对集成服务器中的集成模型进行训练，获得集成服务器中的训练后的集成模型；每个学习端分别获取每个参与者对待生产材料设计的工艺参数作为每个学习端的待测工艺参数；分别将每个学习端的待测工艺参数输入每个学习端的训练后的子模型的输入，将每个学习端的训练后的子模型的输出作为集成服务器中的训练后的集成模型的输入，并获取集成服务器中的训练后的集成模型的输出，作为预测得到的待生成材料的性能。2.根据权利要求1所述的基于隐私保护的材料性能预测方法，其特征在于，所述每个学习端分别利用每个学习端所获取的工艺参数训练每个学习端的子模型，获得每个学习端的训练后的子模型，之前还包括：每个学习端分别从每个参与者获取已知性能的材料的每个工序的工艺参数，构建每个学习端的样本子集；每个学习端分别对每个学习端的样本子集进行数据清理，获得每个学习端的清理后的样本子集；每个学习端采用多渠道沟通的方式对每个学习端的清理后的样本子集进行数据对齐，使同一材料的不同工序的工艺参数在不同样本子集中具有相同的索引且位于不同样本子集中的相同位置，获得每个学习端的对齐后的样本子集。3.根据权利要求2所述的基于隐私保护的材料性能预测方法，其特征在于，所述每个学习端分别利用每个学习端所获取的工艺参数训练每个学习端的子模型，获得每个学习端的训练后的子模型，具体包括：第i个学习端利用第i个学习端的对齐后的样本子集，对子模型候选集中的每个候选子模型进行预训练，获得预训练后的候选子模型；i＝1,2,...,n，n表示学习端的数量；第i个学习端计算每个预训练后的候选子模型的模型衡量指标，所述模型衡量指标为准确率和/或召回率；第i个学习端选取模型衡量指标最优的预训练后的候选子模型作为第i个学习端的待训练的子模型；第i个学习端利用第i个学习端的对齐后的样本子集，采用反复交叉验证的方式，对第i个学习端的待训练的子模型中的超参数进行调参，获得第i个学习端的训练后的子模型。4.根据权利要求1所述的基于隐私保护的材料性能预测方法，其特征在于，将每个学习端的训练后的子模型的输出作为所述集成服务器中的集成模型的输入，对集成服务器中的集成模型进行训练，获得集成服务器中的训练后的集成模型，之后还包括：将每个学习端的训练后的子模型采用二进制文件的形式固化到每个所述学习端；
将集成服务器中的训练后的集成模型采用二进制文件的形式固化到所述集成服务器中。5.一种基于...

【专利技术属性】
技术研发人员：钱权，方昊堃，张瑞，韩越兴，
申请(专利权)人：上海大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人