基于改进DQN的可解释性监测数据识别方法技术

技术编号:37986320 阅读:10 留言:0更新日期:2023-06-30 10:01
本发明专利技术为基于改进DQN的可解释性监测数据识别方法,包括如下步骤:S1:将监测数据进行预处理后,按时序和周期进行采样并作为输入;S2:利用马尔科夫链模型生成状态转移概率,构建强化学习网络;S3:将步骤S2所述的强化学习网络作为互注意力机制的预测器,构建改进的DQN模型;S4:将历史监测数据和对应的解释文本作为输入,对改进的DQN模型进行训练;S5:实时采集监测数据并采用改进的DQN模型对其进行分析,识别出其中的状态并输出对应的可解释性文本。本发明专利技术能够直接对监测数据进行实时在线学习,利用基于注意力机制的时序卷积网络的改进的DQN模型感知监测状态,生成准确预测结果的同时产生可解释性文本对预测结果进行解释说明。时产生可解释性文本对预测结果进行解释说明。时产生可解释性文本对预测结果进行解释说明。

【技术实现步骤摘要】
基于改进DQN的可解释性监测数据识别方法


[0001]本专利技术涉及基于改进DQN的可解释性监测数据识别方法,属于数据挖掘,尤其适用于基于改进DQN的可解释性监测数据识别方法。

技术介绍

[0002]目前利用人工智能技术分析医学诊疗数据进行预警研究已成为学科交叉融合新领域。既往研究报道和我们前期研究发现采用机器学习对术中监测数据进行挖掘具备术后心血管早期诊断和预警价值,在“预警算法改进和可解释性文本”上深入,有望显著提高围术期心血管不良事件早期预警准确性和可信性。
[0003]DeepQ

Learning(DQN)算法与既往使用的监督学习不同,基于强化深度学习,针对动态直接监测数据的序列决策问题,可在无标记的情况下智能体(Agent)会与环境(Environment)进行交互并获取信息,学出状态与动作之间的映射,指导智能体根据状态做出最佳决策。基于动态直接监护体征数据的心血管危重不良事件预测是一个连续过程,这与DQN算法中智能体agent和环境进行交互并基于所采取的行动接收反馈的场景有相似之处。此外DQN算法无需大量人工标记训练样本即可做出时序的决策,利于建模时序数据的预测,已经用于制定癫痫和肺癌的治疗策略、脓毒症的治疗策略以及肾衰透析时控制红细胞生成刺激剂(ESA)进行贫血治疗。
[0004]可解释性人工智能要求模型评估数据得出结论的同时给医生提供决策数据,以了解如何达成该结论,达到质控并辅助医生做出正确医疗决策。而当前医疗人工智能算法用于预测和预警的瓶颈问题之一在于模型结论的不可解释性;即医疗决策者难以明确算法模型给出的结论是否正确以及可信度。因此亟待开展能够解释机器的决定、预测和证明可靠性的研究。即要求传统的诊断预测模型提供医疗决策者可读的解释性文本。目前模型结论可解释性亦是AI领域新近重点关注问题。有学者尝试通过可解释的表示来搭建模型,但该方法仅适用于特定的分类器,无法推广。还有学者尝试用热力图可视化隐藏元素对预测结果的影响。这些探索性研究具备一定解释性效果,但未使用可用于解释模型行为的细粒度信息。针对研究高质量文本对医疗预测结果进行解释,可使AI模型结论更准确和值得信赖,具备重要的研究意义。

技术实现思路

[0005]有鉴于此,本专利技术提供及基于改进DQN的可解释性监测数据识别方法,意在对直接对监测数据进行实时在线学习,生成准确预测结果的同时产生可解释性文本对预测结果进行解释说明。
[0006]为达到上述目的,本专利技术提供如下技术方案:
[0007]基于改进DQN的可解释性监测数据识别方法,结合图1,其特征在于,包括如下步骤:
[0008]S1:将监测数据进行预处理后,按时序和周期进行采样并作为输入;
[0009]S2:利用马尔科夫链模型生成状态转移概率P,构建强化学习网络(DQN);
[0010]S3:将步骤S2所述的强化学习网络作为互注意力机制的预测器,构建改进的DQN模型;
[0011]S4:将历史监测数据和对应的解释文本作为输入,对改进的DQN模型进行训练;
[0012]S5:实时采集监测数据并采用改进的DQN模型对其进行分析,识别出其中的状态并输出对应的可解释性文本;
[0013]所述的强化学习网络由一个包含五个元素(S,A,R,P,γ)的元组组成,其中,R为奖励函数,P为状态转移概率,γ为折现因子;所述的S为状态空间,为输入的监测数据;所述的A为动作空间,包含等待监测更多数据和及时做出选择对应某个解释标签这两类动作;
[0014]所述的互注意力机制由一个编码器串联一对并联的生成器和预测器,然后再串联一个分类器构成;其中分类器中预设了所有的解释标签类别。
[0015]进一步,步骤S1所述的监测数据预处理包含对监测数据的补缺、归一化;所述的周期T的选取要远小于监测总时长,同时要兼顾精度和计算能力;所述的作为输入的监测数据为q
×
T维矩阵,其中q为监测数据的类别。
[0016]进一步,步骤S2所述的生成状态转移概率P具体为:统计历史监测数据和对应的解释文本,利用马尔科夫链模型建立状态转移矩阵即为状态转移概率P,根据概率来决定这一时刻的动作。
[0017]可选的,步骤S2可以采用基于强化学习网络的推荐系统来实现,利用历史周期数据的相似度排序,推荐出相似度最高的周期对应的动作。
[0018]进一步,所述的强化学习网络的奖励函数R在t时刻对应为
[0019][0020]其中,s
t
∈S为t时刻的状态,a
t
∈A为t时刻的动作;p>0分别为准确性和提前预测性的折中参数,可以通过步骤S4训练得到。
[0021]进一步,所述的编码器和生成器为卷积神经网络(CNN);所述的分类器为多类分类器,如随机森林分类器、朴素贝叶斯分类器、卷积神经网络(CNN)等。
[0022]进一步,步骤S4所述的改进的DQN模型训练,具体包含了两个训练过程:
[0023](1)对于已标记的测试数据集D,对强化学习网络和互注意力机制网络两个网络的参数同时进行训练;其性能评价机制为——分类器C的精确度:
[0024][0025]其中,i=1,...,n为已标记好的测试数据集D的数量,#为求集合中数据个数操作;s
i
∈S、l
i
为第i个测试数据的对应状态和真实的解释标签;为强化学习网络预测得到的第i个测试数据对应的解释标签;C(s
i
)为分类器预测的第i个测试数据对应的解释标签;
[0026](2)对于未标记的测试数据集,利用训练好的互注意力机制网络,对强化学习网络的参数进行调优。
[0027]进一步,步骤S5所述的改进的DQN模型可以根据具体的需求进行调整:对于精度要
求不太高、实时性要求高的情形,可以裁剪掉生成器,只利用编码器串联一个强化学习网络作为预测器,再串联一个分类器实现。
[0028]应用于基于改进DQN的可解释性监测数据识别方法的一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1至8中任一项所述基于改进DQN的可解释性监测数据识别方法的步骤。
[0029]应用于基于改进DQN的可解释性监测数据识别方法的一种可读存储介质,所述可读存储介质为计算机可读存储介质,所述计算机可读存储介质上存储有实现基于改进DQN的可解释性监测数据识别方法的程序,所述实现基于改进DQN的可解释性监测数据识别方法的程序被处理器执行以实现如权利要求1至8中任一项所述基于改进DQN的可解释性监测数据识别方法的步骤。
[0030]本专利技术的有益效果在于:本专利技术提供了基于改进DQN的可解释性监测数据识别方法,直接对监测数据进行实时在线学习,利用基于注意力机制的时序卷积网络的改进的DQN模型感知监测状态,生成本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于改进DQN的可解释性监测数据识别方法,其特征在于,包括以下步骤:S1:将监测数据进行预处理后,按时序和周期进行采样并作为输入;S2:利用马尔科夫链模型生成状态转移概率P,构建强化学习网络(DQN);S3:将步骤S2所述的强化学习网络作为互注意力机制的预测器,构建改进的DQN模型;S4:将历史监测数据和对应的解释文本作为输入,对改进的DQN模型进行训练;S5:实时采集监测数据并采用改进的DQN模型对其进行分析,识别出其中的状态并输出对应的可解释性文本;所述的强化学习网络由一个包含五个元素(S,A,R,P,γ)的元组组成,其中,R为奖励函数,P为状态转移概率,γ为折现因子;所述的S为状态空间,为输入的监测数据;所述的A为动作空间,包含等待监测更多数据和及时做出选择对应某个解释标签这两类动作;所述的互注意力机制由一个编码器串联一对并联的生成器和预测器,然后再串联一个分类器构成;其中分类器中预设了所有的解释标签类别。2.根据权利要求1所述的基于改进DQN的可解释性监测数据识别方法,其特征在于,步骤S1所述的监测数据预处理包含对监测数据的补缺、归一化;所述的周期T的选取要远小于监测总时长,同时要兼顾精度和计算能力;所述的作为输入的监测数据为q
×
T维矩阵,其中q为监测数据的类别。3.根据权利要求1所述的基于改进DQN的可解释性监测数据识别方法,其特征在于,步骤S2所述的生成状态转移概率P具体为:统计历史监测数据和对应的解释文本,利用马尔科夫链模型建立状态转移矩阵即为状态转移概率P,根据概率来决定当前时刻的动作。4.根据权利要求1所述的基于改进DQN的可解释性监测数据识别方法,其特征在于,所述的步骤S2也可以采用基于强化学习网络的推荐系统来实现,利用历史周期数据的相似度排序,推荐出相似度最高的周期对应的动作。5.根据权利要求1所述的基于改进DQN的可解释性监测数据识别方法,其特征在于,所述的强化学习网络的奖励函数R在t时刻对应为:其中,s
t
为t时刻的状态,a
t
为t时刻的动作;p>...

【专利技术属性】
技术研发人员:陈芋文钟坤华孙启龙陈嘉翼
申请(专利权)人:中国科学院重庆绿色智能技术研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1