药物信息推送方法、装置、计算机设备及存储介质制造方法及图纸

技术编号:29156824 阅读:23 留言:0更新日期:2021-07-06 22:56
本申请实施例公开了一种药物信息推送方法、装置、计算机设备及存储介质,该方法适用于数字医疗领域,包括:获取目标用户的目标用户属性信息,将目标用户属性信息输入药物奖励预测模型;通过药物奖励预测模型输出目标用户在各药物作用下的各第一目标奖励参数和各第二目标奖励参数;基于目标用户的各第一目标奖励参数和/或目标用户的各第二目标奖励参数,确定目标用户在各药物作用下的各用户奖励参数;从各用户奖励参数中确定出最大用户奖励参数,并将具有最大用户奖励参数的目标药物的药物信息输出至用户界面,以向目标用户展示目标药物。采用本申请实施例,可增强药物奖励预测模型的可扩展性,从而提高了药物信息推送的精准度。

【技术实现步骤摘要】
药物信息推送方法、装置、计算机设备及存储介质
本申请涉及计算机
,尤其涉及一种药物信息推送方法、装置、计算机设备及存储介质。
技术介绍
目前,运用深度强化学习(deepreinforcementlearning,DRL)模型可解决越来越多的实际问题。在运行DRL模型时,可将患者的样本数据输入DRL模型以输出一个Q值(value),这里的Q值可用于评估不同行动(action,如医生的开药方案)的预期奖励(reward,如药物的影响程度)。由于DRL模型往往会考虑短期结局和长期结局且DRL模型只有一个回传因子,因此Q值会同时评估短期结局的预期奖励和长期结局的预期奖励,从而会导致长期结局的预期奖励和短期结局的预期奖励的本质相同。然而,由于长期结局和短期结局具有本质差异,该本质差异主要体现在长期结局和短期结局的行动距离不同(如短期结局主要受最近时间的药物影响,长期结局主要受更久时间之前的药物影响),因此导致了DRL模型的可扩展性差。
技术实现思路
本申请实施例提供一种药物信息推送方法、装置、计算机设备及存储介质,可增强药物奖励预测模型的可扩展性,从而提高了药物信息推送的精准度。第一方面,本申请提供了一种药物信息推送方法,该方法包括:获取目标用户的目标用户属性信息,将目标用户属性信息输入药物奖励预测模型,目标用户属性信息包括人口统计学信息、针对目标疾病用药的健康指标以及历史用药信息中的至少一种;通过药物奖励预测模型输出目标用户在各药物作用下的各第一目标奖励参数和各第二目标奖励参数,其中,药物奖励预测模型包括第一网络参数和第二网络参数,第一网络参数用于确定具有任一用户属性信息的任一用户在各种药物作用下的第一奖励参数,第二网络参数用于确定任一用户在各种药物作用下的第二奖励参数,任一用户在一种药物作用下对应一个第一奖励参数和一个第二奖励参数,第一奖励参数对应的药物作用时长大于第二奖励参数对应的药物作用时长;基于目标用户的各第一目标奖励参数和/或目标用户的各第二目标奖励参数,确定目标用户在各药物作用下的各用户奖励参数,其中,目标用户在一种药物作用下对应一个用户奖励参数;从各用户奖励参数中确定出最大用户奖励参数,并将具有最大用户奖励参数的目标药物的药物信息输出至用户界面,以向目标用户展示目标药物。结合第一方面,在一种可能的实施方式中,方法还包括:获取至少两个用户的样本数据,一个用户的样本数据包括用户的用户属性信息和样本药物信息;获取各用户在样本药物信息所指示的样本药物作用下的各第一样本奖励参数和各第二样本奖励参数,并将至少两个用户的样本数据、各第一样本奖励参数以及各第二样本奖励参数输入药物奖励预测模型;基于至少两个用户的用户属性信息、各第一样本奖励参数以及各第二样本奖励参数训练药物奖励预测模型的第一网络参数和第二网络参数,以获取基于任一用户的用户属性信息预测任一用户在各药物作用下的第一奖励参数和第二奖励参数的能力。结合第一方面,在一种可能的实施方式中,第一网络参数包括第一模型参数和第一回传参数,第二网络参数包括第二模型参数和第二回传参数;基于至少两个用户的用户属性信息、各第一样本奖励参数以及各第二样本奖励参数训练药物奖励预测模型的第一网络参数和第二网络参数,包括:基于第一模型参数和第一回传参数确定各用户在样本药物作用下的各第一预期奖励参数,并基于第二模型参数和第二回传参数确定各用户在样本药物作用下的各第二预期奖励参数;基于第一回传参数、第二回传参数、各第一样本奖励参数、各第二样本奖励参数、各第一预期奖励参数以及各第二预期奖励参数确定各用户的样本数据对应的各损失值;基于各损失值迭代更新第一模型参数的参数值和第二模型参数的参数值直至损失值不变,以获取基于任一用户的用户属性信息预测任一用户在各药物作用下的第一奖励参数和第二奖励参数的能力。结合第一方面,在一种可能的实施方式中,基于目标用户的各第一目标奖励参数和目标用户的各第二目标奖励参数,确定目标用户在各药物作用下的各用户奖励参数,包括:确定第一目标奖励参数的第一加权系数和第二目标奖励参数的第二加权系数;基于第一加权系数和目标用户的各第一目标奖励参数确定各第一目标奖励参数对应的各第一加权奖励参数,并基于第二加权系数和目标用户的各第二目标奖励参数确定各第二目标奖励参数对应的各第二加权奖励参数;基于各第一加权奖励参数和各第二加权奖励参数确定目标用户在各药物作用下的各用户奖励参数,一个第一加权奖励参数和一个第二加权奖励参数对应一个用户奖励参数。结合第一方面,在一种可能的实施方式中,基于目标用户的各第一目标奖励参数,确定目标用户在各药物作用下的各用户奖励参数,包括:将目标用户的各第一目标奖励参数确定为目标用户在各药物作用下的各用户奖励参数;其中,最大用户奖励参数为各第一目标奖励参数中的最大第一目标奖励参数。结合第一方面,在一种可能的实施方式中,基于目标用户的各第二目标奖励参数,确定目标用户在各药物作用下的各用户奖励参数,包括:将目标用户的各第二目标奖励参数确定为目标用户在各药物作用下的各用户奖励参数;其中,最大用户奖励参数为各第二目标奖励参数中的最大第二目标奖励参数。结合第一方面,在一种可能的实施方式中,用户界面包括属性信息输入区域;获取目标用户的目标用户属性信息,包括:在检测到属性信息输入区域上的输入指令时,基于输入指令获取目标用户的目标用户属性信息。第二方面,本申请提供了一种药物信息推送装置,该装置包括:信息输入模块,用于获取目标用户的目标用户属性信息,将目标用户属性信息输入药物奖励预测模型,目标用户属性信息包括人口统计学信息、针对目标疾病用药的健康指标以及历史用药信息中的至少一种;参数输出模块,用于通过药物奖励预测模型输出目标用户在各药物作用下的各第一目标奖励参数和各第二目标奖励参数,其中,药物奖励预测模型包括第一网络参数和第二网络参数,第一网络参数用于确定具有任一用户属性信息的任一用户在各种药物作用下的第一奖励参数,第二网络参数用于确定任一用户在各种药物作用下的第二奖励参数,任一用户在一种药物作用下对应一个第一奖励参数和一个第二奖励参数,第一奖励参数对应的药物作用时长大于第二奖励参数对应的药物作用时长;参数确定模块,用于基于目标用户的各第一目标奖励参数和/或目标用户的各第二目标奖励参数,确定目标用户在各药物作用下的各用户奖励参数,其中,目标用户在一种药物作用下对应一个用户奖励参数;信息展示模块,用于从各用户奖励参数中确定出最大用户奖励参数,并将具有最大用户奖励参数的目标药物的药物信息输出至用户界面,以向目标用户展示目标药物。结合第二方面,在一种可能的实施方式中,上述装置还包括:数据获取模块,用于获取至少两个用户的样本数据,一个用户的样本数据包括用户的用户属性信息和样本药物信息;样本输入模块,用于获取各用户在样本药物信息所指示本文档来自技高网...

【技术保护点】
1.一种药物信息推送方法,其特征在于,包括:/n获取目标用户的目标用户属性信息,将所述目标用户属性信息输入药物奖励预测模型,所述目标用户属性信息包括人口统计学信息、针对目标疾病用药的健康指标以及历史用药信息中的至少一种;/n通过所述药物奖励预测模型输出所述目标用户在各药物作用下的各第一目标奖励参数和各第二目标奖励参数,其中,所述药物奖励预测模型包括第一网络参数和第二网络参数,所述第一网络参数用于确定具有任一用户属性信息的任一用户在各种药物作用下的第一奖励参数,所述第二网络参数用于确定所述任一用户在各种药物作用下的第二奖励参数,所述任一用户在一种药物作用下对应一个第一奖励参数和一个第二奖励参数,所述第一奖励参数对应的药物作用时长大于所述第二奖励参数对应的药物作用时长;/n基于所述目标用户的各第一目标奖励参数和/或所述目标用户的各第二目标奖励参数,确定所述目标用户在所述各药物作用下的各用户奖励参数,其中,所述目标用户在一种药物作用下对应一个用户奖励参数;/n从所述各用户奖励参数中确定出最大用户奖励参数,并将具有所述最大用户奖励参数的目标药物的药物信息输出至用户界面,以向所述目标用户展示所述目标药物。/n...

【技术特征摘要】
1.一种药物信息推送方法,其特征在于,包括:
获取目标用户的目标用户属性信息,将所述目标用户属性信息输入药物奖励预测模型,所述目标用户属性信息包括人口统计学信息、针对目标疾病用药的健康指标以及历史用药信息中的至少一种;
通过所述药物奖励预测模型输出所述目标用户在各药物作用下的各第一目标奖励参数和各第二目标奖励参数,其中,所述药物奖励预测模型包括第一网络参数和第二网络参数,所述第一网络参数用于确定具有任一用户属性信息的任一用户在各种药物作用下的第一奖励参数,所述第二网络参数用于确定所述任一用户在各种药物作用下的第二奖励参数,所述任一用户在一种药物作用下对应一个第一奖励参数和一个第二奖励参数,所述第一奖励参数对应的药物作用时长大于所述第二奖励参数对应的药物作用时长;
基于所述目标用户的各第一目标奖励参数和/或所述目标用户的各第二目标奖励参数,确定所述目标用户在所述各药物作用下的各用户奖励参数,其中,所述目标用户在一种药物作用下对应一个用户奖励参数;
从所述各用户奖励参数中确定出最大用户奖励参数,并将具有所述最大用户奖励参数的目标药物的药物信息输出至用户界面,以向所述目标用户展示所述目标药物。


2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取至少两个用户的样本数据,一个用户的样本数据包括所述用户的用户属性信息和样本药物信息;
获取各用户在所述样本药物信息所指示的样本药物作用下的各第一样本奖励参数和各第二样本奖励参数,并将所述至少两个用户的样本数据、所述各第一样本奖励参数以及所述各第二样本奖励参数输入药物奖励预测模型;
基于所述至少两个用户的用户属性信息、所述各第一样本奖励参数以及所述各第二样本奖励参数训练所述药物奖励预测模型的第一网络参数和第二网络参数,以获取基于任一用户的用户属性信息预测所述任一用户在各药物作用下的第一奖励参数和第二奖励参数的能力。


3.根据权利要求2所述的方法,其特征在于,所述第一网络参数包括第一模型参数和第一回传参数,所述第二网络参数包括第二模型参数和第二回传参数;
所述基于所述至少两个用户的用户属性信息、所述各第一样本奖励参数以及所述各第二样本奖励参数训练所述药物奖励预测模型的第一网络参数和第二网络参数,包括:
基于所述第一模型参数和所述第一回传参数确定所述各用户在所述样本药物作用下的各第一预期奖励参数,并基于所述第二模型参数和所述第二回传参数确定所述各用户在所述样本药物作用下的各第二预期奖励参数;
基于所述第一回传参数、所述第二回传参数、所述各第一样本奖励参数、所述各第二样本奖励参数、所述各第一预期奖励参数以及所述各第二预期奖励参数确定所述各用户的样本数据对应的各损失值;
基于所述各损失值迭代更新所述第一模型参数的参数值和所述第二模型参数的参数值直至所述损失值不变,以获取基于任一用户的用户属性信息预测所述任一用户在各药物作用下的第一奖励参数和第二奖励参数的能力。


4.根据权利要求3所述的方法,其特征在于,所述基于所述目标用户的各第一目标奖励参数和所述目标用户的各第二目标奖励参数,确定所述目标用户在所述各药物作用下的各用户奖励参数,包括:
确定所述第一目标奖励参数的第一加权系数和所述第二目标奖励参数的第二加权系数;
基于所述第一加权系数和所述目标用户的各第一...

【专利技术属性】
技术研发人员:徐卓扬孙行智胡岗
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1