风险级别确定模型训练方法及装置、电子设备、存储介质制造方法及图纸

技术编号:23894847 阅读:21 留言:0更新日期:2020-04-22 08:01
本发明专利技术提供了一种风险级别确定模型训练方法及装置、电子设备、存储介质,涉及计算机技术领域。该风险级别确定模型训练方法包括:提取目标临床试验对应的样本特征数据;获取目标临床试验对应的标签数据;其中标签数据包括目标临床试验中出现的轻度问题数据、中度问题数据以及重度问题数据分别对应的问题数量;通过预设的数据划分方法对样本特征数据以及标签数据进行拆分以构建训练集以及测试集;根据训练集以及测试集对预构建的风险级别确定模型进行训练以通过训练好的风险级别确定模型确定目标临床试验对应的风险级别。本发明专利技术实施例的技术方案可以确定临床试验项目的风险级别,提高临床试验项目的成功率。

【技术实现步骤摘要】
风险级别确定模型训练方法及装置、电子设备、存储介质
本专利技术涉及计算机
,具体而言,涉及一种风险级别确定模型训练方法、风险级别确定模型训练装置、电子设备以及计算机可读存储介质。
技术介绍
每个临床试验消耗的资源较多,因此在临床试验中对于每个项目会有相关的项目核查,项目核查会检查出项目相关的问题,如果问题数量过多,或者有影响较为严重的问题,会导致临床试验的周期加长,甚至会导致临床试验失败的风险。因此对临床试验进行风险评估显得尤为重要。目前,相关方案中,通过人工的方式对临床试验进行风险评估,但是在临床试验的数据量较大、较复杂时,该方案不能够保证风险评估的准确性以及效率。需要说明的是,在上述
技术介绍
部分公开的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
技术实现思路
本专利技术实施例的目的在于提供一种风险级别确定模型训练方法、风险级别确定模型训练装置、电子设备以及计算机可读存储介质,进而至少在一定程度上克服相关方案中对临床试验风险级别确定的准确率以及效率较低的问题。本专利技术的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本专利技术的实践而习得。根据本专利技术实施例的第一方面,提供了一种风险级别确定模型训练方法,包括:提取目标临床试验对应的样本特征数据;其中所述样本特征数据包括所述目标临床试验各阶段对应的特征数据;获取所述目标临床试验对应的标签数据;其中所述标签数据包括所述目标临床试验中出现的轻度问题数据、中度问题数据以及重度问题数据分别对应的问题数量;通过预设的数据划分方法对所述样本特征数据以及所述标签数据进行拆分以构建训练集以及测试集;根据所述训练集以及所述测试集对预构建的风险级别确定模型进行训练以通过训练好的所述风险级别确定模型确定所述目标临床试验对应的风险级别在本专利技术的一些示例实施例中,基于前述方案,提取目标临床试验对应的样本特征数据,包括:提取所述目标临床试验对应的原始特征数据;对所述原始特征数据进行过滤,以确定影响级别大于或者等于预设阈值的所述原始特征数据作为样本特征数据。在本专利技术的一些示例实施例中,基于前述方案,对所述原始特征数据进行过滤,以确定影响级别大于或者等于预设阈值的所述原始特征数据作为样本特征数据,包括:根据预设先验数据以及统计分析数据对所述原始特征数据进行过滤,以确定影响级别大于或者等于预设阈值的所述原始特征数据作为样本特征数据。在本专利技术的一些示例实施例中,基于前述方案,所述预设数据划分方法包括折叠交叉验证方法;所述通过预设的数据划分方法对所述样本特征数据以及所述标签数据进行拆分以构建训练集以及测试集包括:根据折叠交叉验证方法对所述样本特征数据以及所述标签数据进行拆分以构建训练集以及测试集。在本专利技术的一些示例实施例中,基于前述方案,所述原始特征数据包括项目难度特征数据;所述提取所述目标临床试验对应的原始特征数据,还包括:根据注册类别数据、试验类型数据、实验分期数据以及加分项数据计算所述目标临床试验对应的项目难度特征数据。在本专利技术的一些示例实施例中,基于前述方案,在提取目标临床试验对应的样本特征数据之后,所述方法还包括:通过词频-逆文档频率方法将所述样本特征数据中的文本特征进行编码处理。在本专利技术的一些示例实施例中,基于前述方案,在根据所述训练集以及所述测试集对预构建的风险级别确定模型进行训练以通过训练好的所述风险级别确定模型确定所述目标临床试验对应的风险级别之后,所述方法还包括:提取真实临床试验对应的真实特征数据;其中所述真实特征数据包括所述真实临床试验各阶段对应的特征数据;将所述真实特征数据输入到训练好的所述风险级别确定模型中得到所述真实临床试验对应的真实问题数据对应的问题数量;其中所述真实问题数据包括轻度问题数据、中度问题数据以及重度问题数据;根据所述真实问题数据对应的问题数量确定所述真实临床试验对应的风险级别,其中所述真实问题数据对应的问题数量越多则所述真实临床试验对应的所述风险级别越高。根据本专利技术实施例的第二方面,提供了一种风险级别确定模型训练装置,包括:样本特征数据提取模块,用于提取目标临床试验对应的样本特征数据;其中所述样本特征数据包括所述目标临床试验各阶段对应的特征数据;标签数据获取模块,用于获取所述目标临床试验对应的标签数据;其中所述标签数据包括所述目标临床试验中出现的轻度问题数据、中度问题数据以及重度问题数据分别对应的问题数量;训练集构建模块,用于通过预设的数据划分方法对所述样本特征数据以及所述标签数据进行拆分以构建训练集以及测试集;风险级别确定模型训练模块,用于根据所述训练集以及所述测试集对预构建的风险级别确定模型进行训练以通过训练好的所述风险级别确定模型确定所述目标临床试验对应的风险级别。在本专利技术的一种示例性实施例中,基于前述方案,所述样本特征数据提取模块还包括:原始特征数据提取单元,用于提取所述目标临床试验对应的原始特征数据;原始特征数据过滤单元,用于对所述原始特征数据进行过滤,以确定影响级别大于或者等于预设阈值的所述原始特征数据作为样本特征数据。在本专利技术的一种示例性实施例中,基于前述方案,所述原始特征数据过滤单元还被配置为:根据预设先验数据以及统计分析数据对所述原始特征数据进行过滤,以确定影响级别大于或者等于预设阈值的所述原始特征数据作为样本特征数据。在本专利技术的一种示例性实施例中,基于前述方案,所述训练集构建模块还被配置为:根据折叠交叉验证方法对所述样本特征数据以及所述标签数据进行拆分以构建训练集以及测试集。在本专利技术的一种示例性实施例中,基于前述方案,所述原始特征数据提取单元还被配置为:根据注册类别数据、试验类型数据、实验分期数据以及加分项数据计算所述目标临床试验对应的项目难度特征数据。在本专利技术的一种示例性实施例中,基于前述方案,所述风险级别确定模型训练装置还包括特征数据编码单元,所述特征数据编码单元被配置为:通过词频-逆文档频率方法将所述样本特征数据中的文本特征进行编码处理。在本专利技术的一种示例性实施例中,基于前述方案,所述风险级别确定模型训练装置还包括风险级别确定单元,所述风险级别确定单元被配置为:提取真实临床试验对应的真实特征数据;其中所述真实特征数据包括所述真实临床试验各阶段对应的特征数据;将所述真实特征数据输入到训练好的所述风险级别确定模型中得到所述真实临床试验对应的真实问题数据对应的问题数量;其中所述真实问题数据包括轻度问题数据、中度问题数据以及重度问题数据;根据所述真实问题数据对应的问题数量确定所述真实临床试验对应的风险级别,其中所述真实问题数据对应的问题数量越多则所述真实临床试验对应的所述风险级别越高。根据本专利技术实施例的第三方面,提供了一种电子设备,包括:处理器;以及存储器,所述存储器上存储有计算机可读指令,所述计算机可读指令被所述处理器执行时实现上述任意一项所述的风险级别确定模型训练方法。根据本专利技术实施例的第四方面,提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器本文档来自技高网...

【技术保护点】
1.一种风险级别确定模型训练方法,其特征在于,包括:/n提取目标临床试验对应的样本特征数据;其中所述样本特征数据包括所述目标临床试验各阶段对应的特征数据;/n获取所述目标临床试验对应的标签数据;其中所述标签数据包括所述目标临床试验中出现的轻度问题数据、中度问题数据以及重度问题数据分别对应的问题数量;/n通过预设的数据划分方法对所述样本特征数据以及所述标签数据进行拆分以构建训练集以及测试集;/n根据所述训练集以及所述测试集对预构建的风险级别确定模型进行训练以通过训练好的所述风险级别确定模型确定所述目标临床试验对应的风险级别。/n

【技术特征摘要】
1.一种风险级别确定模型训练方法,其特征在于,包括:
提取目标临床试验对应的样本特征数据;其中所述样本特征数据包括所述目标临床试验各阶段对应的特征数据;
获取所述目标临床试验对应的标签数据;其中所述标签数据包括所述目标临床试验中出现的轻度问题数据、中度问题数据以及重度问题数据分别对应的问题数量;
通过预设的数据划分方法对所述样本特征数据以及所述标签数据进行拆分以构建训练集以及测试集;
根据所述训练集以及所述测试集对预构建的风险级别确定模型进行训练以通过训练好的所述风险级别确定模型确定所述目标临床试验对应的风险级别。


2.根据权利要求1所述的风险级别确定模型训练方法,其特征在于,提取目标临床试验对应的样本特征数据,包括:
提取所述目标临床试验对应的原始特征数据;
对所述原始特征数据进行过滤,以确定影响级别大于或者等于预设阈值的所述原始特征数据作为样本特征数据。


3.根据权利要求2所述的风险级别确定模型训练方法,其特征在于,对所述原始特征数据进行过滤,以确定影响级别大于或者等于预设阈值的所述原始特征数据作为样本特征数据,包括:
根据预设先验数据以及统计分析数据对所述原始特征数据进行过滤,以确定影响级别大于或者等于预设阈值的所述原始特征数据作为样本特征数据。


4.根据权利要求1所述的风险级别确定模型训练方法,其特征在于,所述预设数据划分方法包括折叠交叉验证方法;
所述通过预设的数据划分方法对所述样本特征数据以及所述标签数据进行拆分以构建训练集以及测试集包括:
根据折叠交叉验证方法对所述样本特征数据以及所述标签数据进行拆分以构建训练集以及测试集。


5.根据权利要求2所述的风险级别确定模型训练方法,其特征在于,所述原始特征数据包括项目难度特征数据;
所述提取所述目标临床试验对应的原始特征数据,还包括:
根据注册类别数据、试验类型数据、实验分期数据以及加分项数据计算所述目标临床试验对应的项目难度特征数据。


6.根据权利要求1所述的风险级别确定模型训练方法,其特征在于,在提...

【专利技术属性】
技术研发人员:胥世承郝原朱彤艾杰彭滔
申请(专利权)人:天津新开心生活科技有限公司天津开心生活科技有限公司
类型:发明
国别省市:天津;12

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1