动作策略生成模型训练方法、装置、设备及介质制造方法及图纸

技术编号：39330169 阅读：9 留言：0更新日期：2023-11-12 16:06

本发明专利技术涉及人工智能及医疗健康技术领域，公开了一种动作策略生成模型训练方法、装置、设备及介质，包括：通过采集指定对象的样本事件，从而根据样本事件中的动作前状态、动作后状态、样本动作信息分别确定延时奖励值和成本奖励值，进而确定样本事件的事件奖励值，再将样本事件作为训练样本进行模型迭代训练，得到动作策略生成模型，通过样本事件确定延时奖励值和成本奖励值，基于表征动作效果的延时奖励值、表征动作成本的成本奖励值确定事件奖励值，并基于事件奖励值训练得到动作策略生成模型，基于强化学习算法得到的动作策略生成模型将动作效果和动作成本相结合，使得生成的动作策略不再局限于个人经验，提高动作策略的实施效果。效果。效果。

全部详细技术资料下载

【技术实现步骤摘要】
动作策略生成模型训练方法、装置、设备及介质

[0001]本专利技术涉及人工智能及医疗健康
，尤其涉及一种动作策略生成模型训练方法、装置、设备及介质。

技术介绍

[0002]随着社会的进步和科技的发展，人们生活水平的不断提高，医疗健康也逐渐引起了人们的重视，其中，抗生素使用策略、药品管理策略、患者管理策略、疫情管理策略等医疗动作策略在医疗健康领域的各个方面向用户进行审视、评估，从而提供指导，例如，现有的抗生素使用策略通常先采用广谱抗生素，获取到菌培养结果之后，根据菌培养结果实施对应的药物使用方案，不仅能够帮助用户提高药品的使用效率和治疗效果，延缓患者对药品产生耐药性，而且能够提高管理效率。
[0003]但是，相较于其他行业，由于医疗健康领域的涉及广泛，患者、药品、疫情等策略对象的状态存在不确定性，对行业人员的经验、阅历要求又高，往往通过医生、护士等医护人员根据个人经验总结得到的医疗动作策略具有较强局限性，使得动作策略的针对性较弱，降低动作策略的实施效果。

技术实现思路

[0004]本专利技术提供一种人工智能的动作策略生成模型训练方法、装置、计算机设备及介质，以加强动作策略的针对性，提高动作策略的实施效果。
[0005]第一方面，提供了一种动作策略生成模型训练方法，包括：
[0006]获取指定对象的样本事件集，其中，所述样本事件集包括多个样本事件，所述样本事件包括动作前状态、样本动作信息、动作后状态；
[0007]根据所述动作前状态和所述动作后状态之间的比较结果确定延...

【技术保护点】

【技术特征摘要】
1.一种动作策略生成模型训练方法，其特征在于，包括：获取指定对象的样本事件集，其中，所述样本事件集包括多个样本事件，所述样本事件包括动作前状态、样本动作信息、动作后状态；根据所述动作前状态和所述动作后状态之间的比较结果确定延时奖励值，并根据所述样本动作信息进行计算，得到成本奖励值；通过各所述样本事件的延时奖励值和成本奖励值分别确定各所述样本事件的事件奖励值；将所述样本事件集作为训练样本对预设学习模型进行迭代训练，以根据各所述样本事件对应的事件奖励值确定所述预设学习模型是否训练完成，并将训练完成的预设学习模型确定为所述指定对象对应的动作策略生成模型。2.根据权利要求1所述的方法，其特征在于，获取指定对象的样本事件集，包括：获取指定对象在预设记录时间段内的状态记录，其中，所述预设记录时间段包括多个动作时间点，各所述样本时间点分别配置有样本动作信息；分别将各所述样本动作信息确定为第一动作信息，将所述第一动作信息对应的动作时间点确定为目标时间点；根据所述目标时间点从所述状态记录中提取所述第一动作信息对应的动作前状态、动作后状态，以得到所述第一动作信息对应的样本事件；根据各所述样本动作信息对应的样本事件生成所述指定对象的样本事件集。3.根据权利要求1所述的方法，其特征在于，根据所述动作前状态和所述动作后状态之间的比较结果确定延时奖励值，包括：分别对所述动作前状态和所述动作后状态进行向量化，得到所述动作前状态对应的第一特征向量、所述动作后状态对应的第二特征向量；利用注意力机制网络对应的预设权重分别从所述第一特征向量、所述第二特征向量中确定感兴趣特征区域；根据所述第二特征向量的感兴趣特征区域比较所述第一特征向量的感兴趣特征区域，得到比较结果，其中，所述比较结果包括状态趋势和/或趋势幅度；将所述状态趋势和/或所述趋势幅度作为匹配关键信息从预设的延时奖励值表中进行匹配，将匹配得到的第一奖励值作为所述比较结果对应的延时奖励值，其中，所述延时奖励值表中包括多个预设关键信息与第一奖励值之间的对应关系，所述预设关键信息包括所述匹配关键信息。4.根据权利要求1所述的方法，其特征在于，根据所述样本动作信息进行计算，得到成本奖励值，包括：根据各所述样本动作信息进行统计，得到动作成本总值；将任一样本动作信息确定为第二动作信息，根据所述第二动作信息对所述动作成本总值进行计算，得到所述第二动作信息对应的所占成本比值；根据所述所占成本比值从预设的成本奖励值表中进行匹配，将匹配得到的第二奖励值作为所述第二动作信息对应的成本奖励值，其中，所述成本奖励值表包括多个预设成本比值与第二奖励值之间的对应关系，所述预设成本比值包括所述所占成本比值。5.根据权利要求1所述的方法，其特征在于，动作策略生成模型通过以下方法生成动作
策略：获取所述指定对象的初始...

【专利技术属性】
技术研发人员：张渊，
申请(专利权)人：平安科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人