【技术实现步骤摘要】
药物信息推送方法、装置、计算机设备及存储介质
本申请涉及计算机
,尤其涉及一种药物信息推送方法、装置、计算机设备及存储介质。
技术介绍
目前,运用深度强化学习(deepreinforcementlearning,DRL)模型可解决越来越多的实际问题。在运行DRL模型时,可将患者的样本数据输入DRL模型以输出一个Q值(value),这里的Q值可用于评估不同行动(action,如医生的开药方案)的预期奖励(reward,如药物的影响程度)。由于DRL模型往往会考虑短期结局和长期结局且DRL模型只有一个回传因子,因此Q值会同时评估短期结局的预期奖励和长期结局的预期奖励,从而会导致长期结局的预期奖励和短期结局的预期奖励的本质相同。然而,由于长期结局和短期结局具有本质差异,该本质差异主要体现在长期结局和短期结局的行动距离不同(如短期结局主要受最近时间的药物影响,长期结局主要受更久时间之前的药物影响),因此导致了DRL模型的可扩展性差。
技术实现思路
本申请实施例提供一种药物信息推送方法、装置、计算机设备及存储介质,可增强药物奖励预测模型的可扩展性,从而提高了药物信息推送的精准度。第一方面,本申请提供了一种药物信息推送方法,该方法包括:获取目标用户的目标用户属性信息,将目标用户属性信息输入药物奖励预测模型,目标用户属性信息包括人口统计学信息、针对目标疾病用药的健康指标以及历史用药信息中的至少一种;通过药物奖励预测模型输出目标用户在各药物作用下的各第一目标奖励参数和各第二目标奖励参 ...
【技术保护点】
1.一种药物信息推送方法,其特征在于,包括:/n获取目标用户的目标用户属性信息,将所述目标用户属性信息输入药物奖励预测模型,所述目标用户属性信息包括人口统计学信息、针对目标疾病用药的健康指标以及历史用药信息中的至少一种;/n通过所述药物奖励预测模型输出所述目标用户在各药物作用下的各第一目标奖励参数和各第二目标奖励参数,其中,所述药物奖励预测模型包括第一网络参数和第二网络参数,所述第一网络参数用于确定具有任一用户属性信息的任一用户在各种药物作用下的第一奖励参数,所述第二网络参数用于确定所述任一用户在各种药物作用下的第二奖励参数,所述任一用户在一种药物作用下对应一个第一奖励参数和一个第二奖励参数,所述第一奖励参数对应的药物作用时长大于所述第二奖励参数对应的药物作用时长;/n基于所述目标用户的各第一目标奖励参数和/或所述目标用户的各第二目标奖励参数,确定所述目标用户在所述各药物作用下的各用户奖励参数,其中,所述目标用户在一种药物作用下对应一个用户奖励参数;/n从所述各用户奖励参数中确定出最大用户奖励参数,并将具有所述最大用户奖励参数的目标药物的药物信息输出至用户界面,以向所述目标用户展示所述 ...
【技术特征摘要】
1.一种药物信息推送方法,其特征在于,包括:
获取目标用户的目标用户属性信息,将所述目标用户属性信息输入药物奖励预测模型,所述目标用户属性信息包括人口统计学信息、针对目标疾病用药的健康指标以及历史用药信息中的至少一种;
通过所述药物奖励预测模型输出所述目标用户在各药物作用下的各第一目标奖励参数和各第二目标奖励参数,其中,所述药物奖励预测模型包括第一网络参数和第二网络参数,所述第一网络参数用于确定具有任一用户属性信息的任一用户在各种药物作用下的第一奖励参数,所述第二网络参数用于确定所述任一用户在各种药物作用下的第二奖励参数,所述任一用户在一种药物作用下对应一个第一奖励参数和一个第二奖励参数,所述第一奖励参数对应的药物作用时长大于所述第二奖励参数对应的药物作用时长;
基于所述目标用户的各第一目标奖励参数和/或所述目标用户的各第二目标奖励参数,确定所述目标用户在所述各药物作用下的各用户奖励参数,其中,所述目标用户在一种药物作用下对应一个用户奖励参数;
从所述各用户奖励参数中确定出最大用户奖励参数,并将具有所述最大用户奖励参数的目标药物的药物信息输出至用户界面,以向所述目标用户展示所述目标药物。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取至少两个用户的样本数据,一个用户的样本数据包括所述用户的用户属性信息和样本药物信息;
获取各用户在所述样本药物信息所指示的样本药物作用下的各第一样本奖励参数和各第二样本奖励参数,并将所述至少两个用户的样本数据、所述各第一样本奖励参数以及所述各第二样本奖励参数输入药物奖励预测模型;
基于所述至少两个用户的用户属性信息、所述各第一样本奖励参数以及所述各第二样本奖励参数训练所述药物奖励预测模型的第一网络参数和第二网络参数,以获取基于任一用户的用户属性信息预测所述任一用户在各药物作用下的第一奖励参数和第二奖励参数的能力。
3.根据权利要求2所述的方法,其特征在于,所述第一网络参数包括第一模型参数和第一回传参数,所述第二网络参数包括第二模型参数和第二回传参数;
所述基于所述至少两个用户的用户属性信息、所述各第一样本奖励参数以及所述各第二样本奖励参数训练所述药物奖励预测模型的第一网络参数和第二网络参数,包括:
基于所述第一模型参数和所述第一回传参数确定所述各用户在所述样本药物作用下的各第一预期奖励参数,并基于所述第二模型参数和所述第二回传参数确定所述各用户在所述样本药物作用下的各第二预期奖励参数;
基于所述第一回传参数、所述第二回传参数、所述各第一样本奖励参数、所述各第二样本奖励参数、所述各第一预期奖励参数以及所述各第二预期奖励参数确定所述各用户的样本数据对应的各损失值;
基于所述各损失值迭代更新所述第一模型参数的参数值和所述第二模型参数的参数值直至所述损失值不变,以获取基于任一用户的用户属性信息预测所述任一用户在各药物作用下的第一奖励参数和第二奖励参数的能力。
4.根据权利要求3所述的方法,其特征在于,所述基于所述目标用户的各第一目标奖励参数和所述目标用户的各第二目标奖励参数,确定所述目标用户在所述各药物作用下的各用户奖励参数,包括:
确定所述第一目标奖励参数的第一加权系数和所述第二目标奖励参数的第二加权系数;
基于所述第一加权系数和所述目标用户的各第一...
【专利技术属性】
技术研发人员:徐卓扬,孙行智,胡岗,
申请(专利权)人:平安科技深圳有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。