医学人工智能封闭式测试集安全计算平台制造技术

技术编号:34802790 阅读:18 留言:0更新日期:2022-09-03 20:09
本发明专利技术涉及医学人工智能封闭式测试集安全计算平台,包括数据建立,所述数据建立数据包含有数据库、数据采集模块、数据保存模块、数据分析模块、数据分层模块、数据清洗模块、数据抽样模块和数据合成模块,所述数据建立数据连接有训练模型和模型测试。该医学人工智能封闭式测试集安全计算平台,在训练集上训练模型,在验证集上评估模型,一旦找到的最佳的参数,就在测试集上最后测试一次,测试集上的误差作为泛化误差的近似,以此来尽可能的降低误差,通过验证集来作为调整模型的依据,这样不至于将测试集中的信息泄露,通过上述操作可大幅度减少部署和训练之间次数,从而降低成本,提升效率。效率。效率。

【技术实现步骤摘要】
医学人工智能封闭式测试集安全计算平台


[0001]本专利技术涉及智能医学
,具体为医学人工智能封闭式测试集安全计算平台。

技术介绍

[0002]在智能医学领域中,主要集中于云计算、大数据、数据挖掘方向,拟通过专业的研发技术,打造医学人工智能第三方检测平台,通过整合算法资源、数据资源和标注资源,供AI公司进行数据安全检测、形式化验证等,并推动各方资料的多方共享,服务智能医疗创新创业公司,促进智能医疗业态布局多元化,加快技术型服务产业基地建设。
[0003]然而,现有技术中,在医学人工智能测试集安全计算平台方面依旧存在一些问题,如,我们通过数据集建立训练模型,其目的是将训练好的模型部署到真实的环境中,希望训练好的模型能够在真实的数据上得到好的预测效果,换句话说就是希望模型在真实数据上预测的结果误差越小越好,我们把模型在真实环境中的误差叫做泛化误差,而我们训练模型的最终目的就是希望模型的泛化误差最低,当然可以使用泛化误差本身来作为检测信号,如果泛化误差小的话还可以接受,但是通常情况下没有那么幸运,泛化误差可能很大,这个时候你肯定会将部署的模型撤回,重新训练,你可能需要部署和训练之间往复很多次,这种方式虽然能够更好的指导我们的模型,但是成本和效率非常的差,为此提出了医学人工智能封闭式测试集安全计算平台。

技术实现思路

[0004]针对现有技术的不足,本专利技术提供了医学人工智能封闭式测试集安全计算平台,具备高效率,低成本等优点,解决了现有技术中泛化误差可能很大,故而需要部署和训练之间往复很多次,导致成本高和效率非常差的问题。
[0005]为实现上述高效率,低成本的目的,本专利技术提供如下技术方案:医学人工智能封闭式测试集安全计算平台,包括数据建立,所述数据建立数据包含有数据库、数据采集模块、数据保存模块、数据分析模块、数据分层模块、数据清洗模块、数据抽样模块和数据合成模块,所述数据建立数据连接有训练模型和模型测试,所述训练模型和模型测试数据连接有模型验证,所述训练模型包含有密钥转换模块、密钥传输模块、密钥引用模块和密钥验证模块,所述模型测试包含有密钥解密模块、密钥传输模块、密钥引用模块和密钥验证模块。
[0006]进一步,所述数据库采用SQLServe、Orac l e以及MySQL中的任意一种。
[0007]进一步,所述数据采集模块用于采集需要清洗的数据和数据清洗的项目,数据保存模块用于将需要清洗的数据和数据清洗的项目保存至清洗数据库内。
[0008]进一步,所述数据分析模块用于将数据中破损、残缺的数据进行标记,并删除。
[0009]进一步,所述数据分层模块通过sklearn库中的StratifiedShuffleSplit函数将数据划分成初始训练集和初始测试集
[0010]进一步,所述数据清洗模块用以检查数据一致性,处理无效值和缺失值,通过单线
性回归的方式进行数据清洗。
[0011]进一步,所述数据抽样模块用于对初始训练集和初始测试集进出分层抽样,然后通过数据合成模块将数据整合成训练集和测试集,训练集占总数据量的80%,测试集占总数据量的20%,并对测试集进行测试集加密,防止数据泄漏。
[0012]进一步,所述训练模型和模型验证的内部程序相同,训练模型通过训练集得出第一泛化误差,模型测试通过测试集得出第二泛化误差,通过反复抽取一部分数据投入模型验证中进行验证,而这个抽出的数据作为验证集。
[0013]进一步,所述第一泛化误差需要和第二泛化误差进行比对,随后通过模型验证不断调整参数,从而得出第三泛化误差,以此来防止测试集泄漏,训练集、验证集、测试集比例调整为98:1:1。
[0014]与现有技术相比,本专利技术提供了医学人工智能封闭式测试集安全计算平台,具备以下有益效果:
[0015]该医学人工智能封闭式测试集安全计算平台,通过搭建封闭式环境,进行数据集组装,而在数据集组装过程中,通过数据采集模块、数据保存模块、数据分析模块、数据分层模块、数据清洗模块、数据抽样模块和数据合成模块对数据进行精致的整理,利用分层清洗的方式对数据进行精良化,确保数据的唯一性和有效性,随后通过分类抽取,形成训练集和测试集,然后将训练集和测试集分别带入到训练模型和模型验证中,在训练集上训练模型,在验证集上评估模型,一旦找到的最佳的参数,就在测试集上最后测试一次,测试集上的误差作为泛化误差的近似,以此来尽可能的降低误差,通过验证集来作为调整模型的依据,这样不至于将测试集中的信息泄露,而在训练模型和模型验证以及模型验证中的数据采用加密方式,对数据进行加密,可进一步降低数据泄漏的风险,最在部署到现实场景,建立引用,直至最后的发布和共享,通过上述操作可大幅度减少部署和训练之间次数,从而有效的降低成本,进而提升了效率。
附图说明
[0016]图1为本专利技术系统示意图。
具体实施方式
[0017]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0018]请参阅图1,医学人工智能封闭式测试集安全计算平台,包括数据建立,数据建立数据包含有数据库、数据采集模块、数据保存模块、数据分析模块、数据分层模块、数据清洗模块、数据抽样模块和数据合成模块。
[0019]其中,数据库采用SQLServe、Oracle以及MySQL中的任意一种。
[0020]其次,数据采集模块用于采集需要清洗的数据和数据清洗的项目,数据保存模块用于将需要清洗的数据和数据清洗的项目保存至清洗数据库内。
[0021]另外,数据分析模块用于将数据中破损、残缺的数据进行标记,并删除,以此来确
保每个数据的真实性和完整性。
[0022]而数据分层模块通过sklearn库中的StratifiedShuffleSplit函数将数据划分成初始训练集和初始测试集,数据清洗模块用以检查数据一致性,处理无效值和缺失值,通过单线性回归的方式进行数据清洗。
[0023]数据建立数据连接有训练模型和模型测试,训练模型和模型测试数据连接有模型验证。
[0024]其中,训练模型包含有密钥转换模块、密钥传输模块、密钥引用模块和密钥验证模块,模型测试包含有密钥解密模块、密钥传输模块、密钥引用模块和密钥验证模块。
[0025]数据抽样模块用于对初始训练集和初始测试集进出分层抽样,然后通过数据合成模块将数据整合成训练集和测试集,训练集占总数据量的80%,测试集占总数据量的20%,并对测试集进行测试集加密,防止数据泄漏。
[0026]训练模型和模型验证的内部程序相同,训练模型通过训练集得出第一泛化误差,模型测试通过测试集得出第二泛化误差,通过反复抽取一部分数据投入模型验证中进行验证,而这个抽出的数据作为验证集。
[0027]将训练集本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.医学人工智能封闭式测试集安全计算平台,包括数据建立,其特征在于:所述数据建立数据包含有数据库、数据采集模块、数据保存模块、数据分析模块、数据分层模块、数据清洗模块、数据抽样模块和数据合成模块,所述数据建立数据连接有训练模型和模型测试,所述训练模型和模型测试数据连接有模型验证;所述训练模型包含有密钥转换模块、密钥传输模块、密钥引用模块和密钥验证模块;所述模型测试包含有密钥解密模块、密钥传输模块、密钥引用模块和密钥验证模块。2.根据权利要求1所述的医学人工智能封闭式测试集安全计算平台,其特征在于:所述数据库采用SQLServe、Oracle以及MySQL中的任意一种。3.根据权利要求1所述的医学人工智能封闭式测试集安全计算平台,其特征在于:所述数据采集模块用于采集需要清洗的数据和数据清洗的项目,数据保存模块用于将需要清洗的数据和数据清洗的项目保存至清洗数据库内。4.根据权利要求1所述的医学人工智能封闭式测试集安全计算平台,其特征在于:所述数据分析模块用于将数据中破损、残缺的数据进行标记,并删除。5.根据权利要求1所述的医学人工智能封闭式测试集安全计算平台,其特征在于:所述数据分层模块通过sklearn库中的St...

【专利技术属性】
技术研发人员:李静莉孟祥峰王浩李佳戈
申请(专利权)人:中国食品药品检定研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1