动作策略生成模型训练方法、装置、设备及介质制造方法及图纸

技术编号:39330169 阅读:9 留言:0更新日期:2023-11-12 16:06
本发明专利技术涉及人工智能及医疗健康技术领域,公开了一种动作策略生成模型训练方法、装置、设备及介质,包括:通过采集指定对象的样本事件,从而根据样本事件中的动作前状态、动作后状态、样本动作信息分别确定延时奖励值和成本奖励值,进而确定样本事件的事件奖励值,再将样本事件作为训练样本进行模型迭代训练,得到动作策略生成模型,通过样本事件确定延时奖励值和成本奖励值,基于表征动作效果的延时奖励值、表征动作成本的成本奖励值确定事件奖励值,并基于事件奖励值训练得到动作策略生成模型,基于强化学习算法得到的动作策略生成模型将动作效果和动作成本相结合,使得生成的动作策略不再局限于个人经验,提高动作策略的实施效果。效果。效果。

【技术实现步骤摘要】
动作策略生成模型训练方法、装置、设备及介质


[0001]本专利技术涉及人工智能及医疗健康
,尤其涉及一种动作策略生成模型训练方法、装置、设备及介质。

技术介绍

[0002]随着社会的进步和科技的发展,人们生活水平的不断提高,医疗健康也逐渐引起了人们的重视,其中,抗生素使用策略、药品管理策略、患者管理策略、疫情管理策略等医疗动作策略在医疗健康领域的各个方面向用户进行审视、评估,从而提供指导,例如,现有的抗生素使用策略通常先采用广谱抗生素,获取到菌培养结果之后,根据菌培养结果实施对应的药物使用方案,不仅能够帮助用户提高药品的使用效率和治疗效果,延缓患者对药品产生耐药性,而且能够提高管理效率。
[0003]但是,相较于其他行业,由于医疗健康领域的涉及广泛,患者、药品、疫情等策略对象的状态存在不确定性,对行业人员的经验、阅历要求又高,往往通过医生、护士等医护人员根据个人经验总结得到的医疗动作策略具有较强局限性,使得动作策略的针对性较弱,降低动作策略的实施效果。

技术实现思路

[0004]本专利技术提供一种人工智能的动作策略生成模型训练方法、装置、计算机设备及介质,以加强动作策略的针对性,提高动作策略的实施效果。
[0005]第一方面,提供了一种动作策略生成模型训练方法,包括:
[0006]获取指定对象的样本事件集,其中,所述样本事件集包括多个样本事件,所述样本事件包括动作前状态、样本动作信息、动作后状态;
[0007]根据所述动作前状态和所述动作后状态之间的比较结果确定延时奖励值,并根据所述样本动作信息进行计算,得到成本奖励值;
[0008]通过各所述样本事件的延时奖励值和成本奖励值分别确定各所述样本事件的事件奖励值;
[0009]将所述样本事件集作为训练样本对预设学习模型进行迭代训练,以根据各所述样本事件对应的事件奖励值确定所述预设学习模型是否训练完成,并将训练完成的预设学习模型确定为所述指定对象对应的动作策略生成模型。
[0010]第二方面,提供了一种动作策略生成模型训练装置,包括:
[0011]获取模块,用于获取指定对象的样本事件集,其中,所述样本事件集包括多个样本事件,所述样本事件包括动作前状态、样本动作信息、动作后状态;
[0012]计算模块,用于根据所述动作前状态和所述动作后状态之间的比较结果确定延时奖励值,并根据所述样本动作信息进行计算,得到成本奖励值;
[0013]确定模块,用于通过各所述样本事件的延时奖励值和成本奖励值分别确定各所述样本事件的事件奖励值;
[0014]训练模块,用于将所述样本事件集作为训练样本对预设学习模型进行迭代训练,以根据各所述样本事件对应的事件奖励值确定所述预设学习模型是否训练完成,并将训练完成的预设学习模型确定为所述指定对象对应的动作策略生成模型。
[0015]第三方面,提供了一种计算机设备,包括存储器、处理器以及存储在存储器中并可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述动作策略生成模型训练方法的步骤。
[0016]第四方面,提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序被处理器执行时实现上述动作策略生成模型训练方法的步骤。
[0017]上述动作策略生成模型训练方法、装置、设备及介质所实现的方案中,通过采集指定对象的样本事件,从而根据样本事件中的动作前状态、动作后状态、样本动作信息分别确定延时奖励值和成本奖励值,进而确定样本事件的事件奖励值,再将样本事件作为训练样本进行模型迭代训练,得到动作策略生成模型。这样,相较于凭借个人经验确定动作策略,通过样本事件确定延时奖励值和成本奖励值,基于表征动作效果的延时奖励值、表征动作成本的成本奖励值确定事件奖励值,并基于事件奖励值训练得到动作策略生成模型,基于强化学习算法得到的动作策略生成模型将动作效果和动作成本相结合,使得生成的动作策略不再局限于个人经验,更具有针对性,提高动作策略的实施效果,同时,提高了动作策略的生成效率。
附图说明
[0018]为了更清楚地说明本专利技术实施例的技术方案,下面将对本专利技术实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0019]图1是本专利技术一实施例中动作策略生成模型训练方法的一应用环境示意图;
[0020]图2是本专利技术一实施例中动作策略生成模型训练方法的一流程示意图;
[0021]图3是本专利技术一实施例中步骤S10的的一示意图;
[0022]图4是本专利技术另一实施例中步骤S10的的一示意图;
[0023]图5是本专利技术一实施例中步骤S20的一流程示意图;
[0024]图6是本专利技术另一实施例中动作策略生成模型训练方法的一示意图;
[0025]图7是本专利技术一实施例中动作策略生成模型训练装置的一结构示意图;
[0026]图8是本专利技术一实施例中计算机设备的一结构示意图;
[0027]图9是本专利技术一实施例中计算机设备的另一结构示意图。
具体实施方式
[0028]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0029]对本专利技术实施例进行进一步详细说明之前,对本专利技术实施例中涉及的名词和术语
进行说明,本专利技术实施例中涉及的名词和术语适用于如下的解释。
[0030]人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
[0031]神经网络(Neural Network,NN):人工神经网络(Artificial Neural Network,ANN),简称神经网络或类神经网络,在机器学习和认知科学领域,是一种模仿生物神经网络(动物的中枢神经系统,特别是大脑)的结构和功能的数学模型或计算模型,用于对函数进行估计或近似。
[0032]机器学习(ML,Mach本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种动作策略生成模型训练方法,其特征在于,包括:获取指定对象的样本事件集,其中,所述样本事件集包括多个样本事件,所述样本事件包括动作前状态、样本动作信息、动作后状态;根据所述动作前状态和所述动作后状态之间的比较结果确定延时奖励值,并根据所述样本动作信息进行计算,得到成本奖励值;通过各所述样本事件的延时奖励值和成本奖励值分别确定各所述样本事件的事件奖励值;将所述样本事件集作为训练样本对预设学习模型进行迭代训练,以根据各所述样本事件对应的事件奖励值确定所述预设学习模型是否训练完成,并将训练完成的预设学习模型确定为所述指定对象对应的动作策略生成模型。2.根据权利要求1所述的方法,其特征在于,获取指定对象的样本事件集,包括:获取指定对象在预设记录时间段内的状态记录,其中,所述预设记录时间段包括多个动作时间点,各所述样本时间点分别配置有样本动作信息;分别将各所述样本动作信息确定为第一动作信息,将所述第一动作信息对应的动作时间点确定为目标时间点;根据所述目标时间点从所述状态记录中提取所述第一动作信息对应的动作前状态、动作后状态,以得到所述第一动作信息对应的样本事件;根据各所述样本动作信息对应的样本事件生成所述指定对象的样本事件集。3.根据权利要求1所述的方法,其特征在于,根据所述动作前状态和所述动作后状态之间的比较结果确定延时奖励值,包括:分别对所述动作前状态和所述动作后状态进行向量化,得到所述动作前状态对应的第一特征向量、所述动作后状态对应的第二特征向量;利用注意力机制网络对应的预设权重分别从所述第一特征向量、所述第二特征向量中确定感兴趣特征区域;根据所述第二特征向量的感兴趣特征区域比较所述第一特征向量的感兴趣特征区域,得到比较结果,其中,所述比较结果包括状态趋势和/或趋势幅度;将所述状态趋势和/或所述趋势幅度作为匹配关键信息从预设的延时奖励值表中进行匹配,将匹配得到的第一奖励值作为所述比较结果对应的延时奖励值,其中,所述延时奖励值表中包括多个预设关键信息与第一奖励值之间的对应关系,所述预设关键信息包括所述匹配关键信息。4.根据权利要求1所述的方法,其特征在于,根据所述样本动作信息进行计算,得到成本奖励值,包括:根据各所述样本动作信息进行统计,得到动作成本总值;将任一样本动作信息确定为第二动作信息,根据所述第二动作信息对所述动作成本总值进行计算,得到所述第二动作信息对应的所占成本比值;根据所述所占成本比值从预设的成本奖励值表中进行匹配,将匹配得到的第二奖励值作为所述第二动作信息对应的成本奖励值,其中,所述成本奖励值表包括多个预设成本比值与第二奖励值之间的对应关系,所述预设成本比值包括所述所占成本比值。5.根据权利要求1所述的方法,其特征在于,动作策略生成模型通过以下方法生成动作
策略:获取所述指定对象的初始...

【专利技术属性】
技术研发人员:张渊
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1