用于医疗推理的事理图谱生成方法、装置、设备及介质制造方法及图纸

技术编号:39414469 阅读:7 留言:0更新日期:2023-11-19 16:05
本发明专利技术提供了用于医疗推理的事理图谱生成方法、装置、设备及介质。该方法包括获取每个文本数据中包括多个经标识事件的训练医疗文本数据集,每个事件对之间存在确定的转移概率;按照多个经标识事件的顺序,依次输入具有BiLSTM的神经网络进行训练,以基于转移概率生成包括以任一经标识事件为起点的多个逻辑路径的马尔科夫链;将多个逻辑路径与临床路径进行比较以确定与多个逻辑路径相匹配的、包括临床路径事件集合的至少一个匹配路径;基于临床路径事件集合,确定训练医疗文本数据中存在与至少一个经标识事件具有因果关系的未被标识的证据事件;以及基于多个逻辑路径以及未被标识的证据事件与至少一个经标识事件的因果关系,构建事理图谱。构建事理图谱。构建事理图谱。

【技术实现步骤摘要】
用于医疗推理的事理图谱生成方法、装置、设备及介质


[0001]本专利技术涉及数据处理领域,更具体地,涉及用于医疗推理的事理图谱生成方法、装置、设备及介质。

技术介绍

[0002]随着信息产业的快速进步,发展出了利用大数据来辅助治疗的各种各样的技术。例如,一些技术通过使用大数据构建事理图谱,并基于事理图谱所提供的信息来辅助治疗。
[0003]事理图谱是一种事理逻辑知识库,该事理逻辑知识库描述了事件之间的演化规律和模式。从事理图谱的结构角度来看,事理图谱是一个有向有环图,节点代表事件,有向边代表事件之间的顺承、因果、条件和上下位等逻辑关系。基于这种特性,医学事理图谱可以基于已知的诊疗信息,通过多种类型事件之间的关联关系,以时间为维度针对患者的诊疗流程进行事件预测、病理推断和/或辅助决策。
[0004]因此,一种能够有效针对癌症进行辅助诊断的事理图谱是目前急需的医疗解决方案之一。为了准确地实现尤其是针对癌症的事件预测、病理推断和/或辅助决策,需要准确地构建医学事理图谱中各个事件之间的关联关系。然而,在大数据环境下,医疗机构所使用的用于记载关于癌症诊疗信息的文件数据类型繁多,缺乏一致性。此外,此类医疗数据多为非结构化的文本数据(例如,例如不同医生书写的病例)。换句话说,医疗文本数据通常具有多源异构性、复杂性和海量性等特性。在这种情况下,如何在海量数据中快速地提取非结构化数据并且生成准确的诊疗路径的事理图谱面临着巨大挑战。例如,通常的医疗文本数据中可能缺少事件证据,从而无法准确地表示两个事件间的因果关系等关系。这将导致所生成的事理图谱经常会遗漏从一个事件转移到另一个事件中间可能的一个或多个其他事件,进而导致生成的事理图谱无法准确地用于医疗推理。
[0005]因此,需要一种准确的事理图谱生成方法来解决上述技术问题。

技术实现思路

[0006]针对上述问题,本专利技术提供了一种用于医疗推理的事理图谱生成方法、装置、设备及介质。该方法通过使用具有BiLSTM的神经网络对包括经标识事件的数据集进行训练,基于经标识事件之间的转移概率生成多个逻辑路径的马尔科夫链,并且将生成的多个逻辑路径与临床路径进行比较以确定存在与至少一个经标识事件具有因果关系的未被标识的证据事件,进而基于多个逻辑路径以及未被标识的证据事件与至少一个经标识事件的因果关系来构建事理图谱。通过这样的方式生成事理图谱避免了因训练数据中存在未标识事件而导致事理图谱缺少事件和/或事件之间的关系,进而使得所生成的事理图谱可以更加准确地用于癌症医疗路径推理。
[0007]根据本专利技术的一方面提供了一种用于医疗推理的事理图谱生成方法,包括:获取训练医疗文本数据集,其中所述训练医疗文本数据集的每个训练医疗文本数据中包括多个经标识事件,所述多个经标识事件包括与癌症医疗相关的事件,并且所述多个经标识事件
的每个事件对之间存在确定的转移概率; 按照所述多个经标识事件在所述训练文本数据中的顺序,将所述多个经标识事件依次输入具有双向长短期记忆BiLSTM的神经网络进行训练,以基于所述转移概率生成由所述多个经标识事件的经标识事件子集形成的马尔科夫链,其中所述马尔科夫链包括以所述经标识事件子集中的任一经标识事件为起点的多个逻辑路径;将所述多个逻辑路径与临床路径进行比较以确定与所述多个逻辑路径相匹配的所述临床路径中的至少一个匹配路径,其中所述至少一个匹配路径包括临床路径事件集合; 基于所述临床路径事件集合,确定所述训练医疗文本数据中存在未被标识的证据事件,其中所述未被标识的证据事件与所述经标识事件子集中的至少一个经标识事件具有因果关系;以及基于所述多个逻辑路径以及所述未被标识的证据事件与所述经标识事件子集中的至少一个经标识事件的因果关系,构建用于癌症医疗路径推理的事理图谱。
[0008]根据本专利技术的一些实施例,将所述多个经标识事件依次输入具有双向长短期记忆BiLSTM的神经网络进行训练,以基于所述转移概率生成由所述多个经标识事件的经标识事件子集形成的马尔科夫链还包括针对所述经标识事件子集中的每个经标识事件对之间的转移概率确定相应的奖励值;基于每个经标识事件对之间的相应奖励值,确定以所述经标识事件子集中的任一事件为起点的多个逻辑路径各自的最终奖励值;确定具有最高的最终奖励值的逻辑路径作为以所述任一事件为起点的最优逻辑路径;以及基于所述最优逻辑路径更新所述马尔科夫链中的参数以生成更新后的马尔科夫链。
[0009]根据本专利技术的一些实施例,基于所述多个逻辑路径以及所述未被标识的证据事件与所述经标识事件子集中的至少一个经标识事件的因果关系,构建用于癌症医疗路径推理的事理图谱还包括基于所述最优逻辑路径构建所述用于癌症医疗路径推理的事理图谱。
[0010]根据本专利技术的一些实施例,基于每个经标识事件对之间的相应奖励值,确定以所述经标识事件子集中的任一经标识事件为起点的多个逻辑路径各自的最终奖励值包括针对所述多个逻辑路径中的任一逻辑路径,以所述任一经标识事件为起点并且基于所述经标识事件子集在所述特定逻辑路径中的顺序,通过衰减系数对所述任一逻辑路径中的奖励值进行加权求和,以确定所述任一逻辑路径的最终奖励值。
[0011]根据本专利技术的一些实施例,基于以下公式计算所述任一逻辑路径的最终奖励值:其中,G表示所述最终奖励值;R表示当前经标识事件到下一经标识事件的奖励值;y表示预设的衰减函数,其中0<y<1,k大于等于0。
[0012]根据本专利技术的一些实施例,基于以下奖励函数获得每个经标识事件对之间的奖励值:R
ki =A
ki
·
R(S,E),其中R表示当前经标识事件到下一经标识事件的奖励值并且R包括正值和/或负值,A表示当前经标识事件到下一经标识事件的动作,k大于等于0。
[0013]根据本专利技术的一些实施例,将所述多个经标识事件依次输入具有双向长短期记忆BiLSTM的神经网络进行训练,以基于所述转移概率生成由所述多个经标识事件的经标识事件子集形成的马尔科夫链包括对所述多个经标识事件进行预处理以将所述多个经标识事件转换为具有固定维度的多个经标识事件向量;将所述多个经标识事件向量输入具有双向长短期记忆BiLSTM的神经网络进行训练,以基于所述转移概率生成描述由所述多个经标识事件的经标识事件子集形成的马尔科夫链的高维向量。
[0014]根据本专利技术的一些实施例,将所述多个逻辑路径与临床路径进行比较以确定与所述多个逻辑路径相匹配的所述临床路径中的至少一个匹配路径包括基于所述多个逻辑路径中的每个逻辑路径中的经标识事件转移方向与所包含的经标识事件子集,确定描述所述马尔科夫链的所述高维向量与所述临床路径的距离,基于所述高维向量与所述临床路径的距离,确定与所述多个逻辑路径相匹配的所述临床路径中的至少一个匹配路径。
[0015]根据本专利技术的一些实施例,基于所述临床路径事件集合,确定所述训练医疗文本数据中存在未被标识的证据事件包括将所述临床路径事件集合中所包含的第一临床路径事件与所述训练文本数据进行文本匹配以确定本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种用于医疗推理的事理图谱生成方法,包括:获取训练医疗文本数据集,其中所述训练医疗文本数据集的每个训练医疗文本数据中包括多个经标识事件,所述多个经标识事件包括与癌症医疗相关的事件,并且所述多个经标识事件的每个事件对之间存在确定的转移概率;按照所述多个经标识事件在所述训练文本数据中的顺序,将所述多个经标识事件依次输入具有双向长短期记忆BiLSTM的神经网络进行训练,以基于所述转移概率生成由所述多个经标识事件的经标识事件子集形成的马尔科夫链,其中所述马尔科夫链包括以所述经标识事件子集中的任一经标识事件为起点的多个逻辑路径;将所述多个逻辑路径与临床路径进行比较以确定与所述多个逻辑路径相匹配的所述临床路径中的至少一个匹配路径,其中所述至少一个匹配路径包括临床路径事件集合;基于所述临床路径事件集合,确定所述训练医疗文本数据中存在未被标识的证据事件,其中所述未被标识的证据事件与所述经标识事件子集中的至少一个经标识事件具有因果关系;以及基于所述多个逻辑路径以及所述未被标识的证据事件与所述经标识事件子集中的至少一个经标识事件的因果关系,构建用于癌症医疗路径推理的事理图谱。2.根据权利要求1所述的事理图谱生成方法,其中,将所述多个经标识事件依次输入具有双向长短期记忆BiLSTM的神经网络进行训练,以基于所述转移概率生成由所述多个经标识事件的经标识事件子集形成的马尔科夫链还包括:针对所述经标识事件子集中的每个经标识事件对之间的转移概率确定相应的奖励值;基于每个经标识事件对之间的相应奖励值,确定以所述经标识事件子集中的任一事件为起点的多个逻辑路径各自的最终奖励值;确定具有最高的最终奖励值的逻辑路径作为以所述任一事件为起点的最优逻辑路径;以及基于所述最优逻辑路径更新所述马尔科夫链中的参数以生成更新后的马尔科夫链。3.根据权利要求2所述的事理图谱生成方法,其中,基于所述多个逻辑路径以及所述未被标识的证据事件与所述经标识事件子集中的至少一个经标识事件的因果关系,构建用于癌症医疗路径推理的事理图谱还包括:基于所述最优逻辑路径构建所述用于癌症医疗路径推理的事理图谱。4.根据权利要求2或3所述的事理图谱生成方法,其中,基于每个经标识事件对之间的相应奖励值,确定以所述经标识事件子集中的任一经标识事件为起点的多个逻辑路径各自的最终奖励值包括:针对所述多个逻辑路径中的任一逻辑路径,以所述任一经标识事件为起点并且基于所述经标识事件子集在所述特定逻辑路径中的顺序,通过衰减系数对所述任一逻辑路径中的奖励值进行加权求和,以确定所述任一逻辑路径的最终奖励值。5.根据权利要求4所述的事理图谱生成方法,其中,基于以下公式计算所述任一逻辑路径的最终奖励值:其中,G表示所述最终奖励值;R表示当前经标识事件到下一经标识事件的奖励值;y表示预设的衰减函数,其中0<y<1,k大于等于0。
6.根据权利要求2或3所述的事理图谱生成方法,其中,基于以下奖励函数获得每个经标识事件对之间的奖励值:R
ki =A
ki
·
R(S,E),其中R表示当前经标识事件到下一经标识事件的奖励值并且R包括正值和/或负值,A表示当前经标识事件到下一经标识事件的动作,k大于等于0,S指示观察到的状态,E指示事件。7.根据权利要求1所述的事理图谱生成方法,其中,将所述多个经标识事件依次输入具有双向长短期记忆BiLSTM的神经网络进行训练,以基于所述转移概率生成由所述多个经标识事件的经标识事件子集形成的马尔科夫链包括:对所述多个经标识事件进行预处理以将所述多个经标识事件转换为具有固定维度的多个经标识事件向量;将所述多个经标识事件向量输入具有双向长短期记忆BiLSTM的神经网络进行训练,以基于所述转移概率生成描述由所述多个经标识事件的经标识事件子集形成的马尔科夫链的高维向量。8.根据权利要求7所述的事理图谱生成方法,其中,将所述多个逻辑路径与临床路径进行比较以确定与所述多个逻辑路径相匹配的所述临床路径中的至少一个匹配路径包括:基于所述多个逻辑路径中的每个逻辑路径中的经标识事件转移方向与所包含的经标识事件子集,确定描述所述马尔科夫链的所述高维向量与所述临床路径的距离,基于所述高维向量与所述临床路径的距离,确定与所述多个逻辑路径相匹配的所述临床路径中的至少一个匹配路径。9.根据权利要求1所述的事理图谱生成方法,其中基于所述临床路径事件集合,确定所述训练医疗文本数据中存在未被标识的证据事件包括:将所述临床路径事件集合中所包含的第一临床路径事件与所述训练文本数据进行文本匹配以确定所述第一临床路径事件存在于所述训练医疗文本数据中并且所述第一临床路径事件不属于经标识事件;将所述第一临床路径事件作为所述训练医疗文本数据中存在未被标识的证据事件。10.根据权利要求9所述的事理图谱生成方法,还包括:基于所述第一临床路径事件在所述匹配路径中的位置,确定所述匹配路径中与所述第一临床路径事件相关联的至少一个第二临床路径事件;响应于所述第二临床路径事件与所述经标识事件子集中的一个经标识事件相对应,基于所述第一临床路径事件与所述第二临床路径事件的关联,确定所述未被标识的证据事件与所述一个经标识事件具有因果关系。11.根据权利要求1所述的事理图谱生成方法,其中,所述确定的转移概率是基于先验知识获取的。12.根据权利要求1所述的事理图谱生成方法,其中,所述事理图谱用于针对癌症的医疗决策,构建所述事理图谱还包括基于病例类型、转移类型和/或分期类型的关系构建所述事理图谱。13.根据权利要求1所述的事理图谱生成方法,其中,所述临床路径包括经过验证的标准临床路径和/或真实世界临床路径。
14.根据权利要求1所述的事理图谱生成方法,其中,获取训练医疗文本数据集包括:获取待处理的训练医疗文本数据集,对待处理的训练医疗文本数据集中的每个待处理的训练医疗文本数据进行纳排,其中对待处理的训练医疗文本数据进行纳排包括:根据所述待处理的训练医疗文本数据的语义,将所述待处理的训练医疗文本数据划分为多个经标识事件;确定所述多个经标识事件的组合条件,其中所述组合条件包括所述多个经标识事件的时间关系、组合关系以及筛选信息;基于所述组合条件对所述待处理的训练医疗文本数据中的多个经标识事件进行纳排存储以生成训练医疗文本数据。15.根据权利要求14所述的事理图谱生成方法,其中,所述多个经标识事件的时间关系指示所述一个或多个时间与最早起始事件时间或者最早起始事件时间及一个或多个其他时间锚点之间的时间先后顺序。16.一种用于医疗推理的事理图谱生成装置,包括:训练数据集获取单元,被配置为获取训练医疗文本数据集,其中所述训练医疗文本数据集的每个训练医疗文本数据中包括多个经标识事件,所述多个经标识事件包括与癌症医疗相关的事件,并且所述多个经标识事件的每个事件对之间存在确定的转移概率;神经网络训练单元,被配置为按照所述多个经标识事件在所述训练文本数据中的顺序,将所述多个经标识事件依次...

【专利技术属性】
技术研发人员:徐博陈小梅肖娟刘晓华
申请(专利权)人:北京壹永科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1