当前位置: 首页 > 专利查询>浙江大学专利>正文

基于知识引导的疾病辅助诊断系统技术方案

技术编号:37175037 阅读:22 留言:0更新日期:2023-04-20 22:44
本发明专利技术公开了一种基于知识引导的疾病辅助诊断系统,包含:临床疾病知识库;获取模块,获取患者主诉文本、所患疾病知识文本和非所患疾病知识文本对应的显式表征向量;堆叠自编码器,得到对应的隐式表征向量和重建表征向量;KL损失模块,修正患者主诉文本的隐式表征向量;疾病诊断模块,通过修正患者主诉文本的隐式表征向量进行训练。本发明专利技术的基于知识引导的疾病辅助诊断系统,将基于患者主诉等临床文本建模的模型范式扩展至同时基于患者主诉临床文本和标签临床知识文本建模的模型范式,有效的结合临床疾病的领域知识,设计有效的文本显式表征、隐式表征挖掘方法,构建多任务损失函数,实现了对患者主诉短文本数据的快速精准分类。类。类。

【技术实现步骤摘要】
基于知识引导的疾病辅助诊断系统


[0001]本专利技术属于医学自然语言处理领域,具体涉及一种基于知识引导的疾病辅助诊断系统。

技术介绍

[0002]随着人工智能技术的不断发展及医学文本的大规模存储与累积,如何将人工智能的方法与模型应用于医学领域,为医生提供理论与方法支持逐渐受到广泛关注。基于深度学习模型的自然语言处理方法的不断迭代更新为优化临床文本分类效果、辅助疾病诊断提供了新的研究思路。
[0003]传统的基于深度学习模型的疾病辅助诊断系统在处理医学文本时,借助医学领域的预训练模型及不断优化的神经网络架构挖掘医学文本的深层次语义,在疾病分类任务上取得了不错效果。然而,不同于常见的医学文本,患者主诉多为短文本,其词汇个数较少且缺乏上下文语义信息,这导致目前主流的自然语言处理方法在仅基于这些短文本建模时无法较好的实现疾病分类与辅助诊断。虽然已经有研究通过构建知识图谱增强短文本语义信息,但知识图谱的构建方法与完整度等均对模型效果有较大影响。疾病的知识与诊断依据是医生诊断的金标准,如何充分利用疾病标签的知识文本数据、基于这些领域知识对短文本数据进行语义补充、提升模型分类效果、构建有效疾病辅助诊断系统仍缺乏深入研究。

技术实现思路

[0004]本专利技术提供了一种基于知识引导的疾病辅助诊断系统解决上述提到的技术问题,具体采用如下的技术方案:
[0005]一种基于知识引导的疾病辅助诊断系统,包含:
[0006]临床疾病知识库,包含疾病的知识文本;
[0007]获取模块,用于获取患者主诉文本、所患疾病知识文本和非所患疾病知识文本所对应的显式表征向量;
[0008]堆叠自编码器,用于将患者主诉文本、所患疾病知识文本和非所患疾病知识文本所对应的显式表征向量映射至新的隐式语义空间得到对应的隐式表征向量和重建表征向量;
[0009]KL损失模块,用于修正患者主诉文本的隐式表征向量;
[0010]疾病诊断模块,用于通过修正患者主诉文本的隐式表征向量进行训练。
[0011]进一步地,临床疾病知识库包含每种疾病的临床主要症状及诊断依据数据,二者拼接得到疾病的知识文本。
[0012]进一步地,搭建所述临床疾病知识库的具体方法为:
[0013]S11:对包含K种疾病的疾病集合{disease1,disease2,

,disease
K
},构建所述临床疾病知识库其中disease
k
表示第k种疾病的名称,knowledge
k
标识第k种疾病对应的知识文本,K标识疾病的种类数目,疾病对应的知识
文本由该疾病的临床主要症状文本及临床诊断依据文本拼接而成;
[0014]S12:对S11中每个疾病对应的知识文本按照字符分割构建字符序列knowledge
k
=[a1,a2,

,a
m
],其中m标识知识文本的总字符数目。
[0015]进一步地,所述获取模块为MacBERT预训练模型。
[0016]进一步地,通过所述MacBERT预训练模型获取患者主诉文本、所患疾病知识文本和非所患疾病知识文本所对应的显式表征向量的主要方法为:
[0017]S21:给定第i个患者的主诉文本x
symptom,i
=[c1,c2,

,c
n
]及所患的疾病标签l
i
,其中c
n
标识主诉文本的第n个字符,n标识主诉文本的总字符数目,l
i
∈{disease1,disease2,

,disease
K
},从所述临床疾病知识库中检索疾病标签l
i
对应的疾病知识文本x
targK,i
=[a1,a2,

,a
m
],从剩余疾病列表中随机抽样一个疾病名称在临床疾病知识库中检索其对应的疾病知识文本x
untargK,i
=[a1,a2,

,a
m
],其中a
m
标识疾病知识文本的第m个字符,m标识疾病知识文本的总字符数目;
[0018]S22:构建患者数据集N标识患者数目;
[0019]S23:将第i个患者的数据三元组(x
symptom,i
,x
targK,i
,x
untargK,i
)分别输入MacBERT预训练模型,采用遮挡语言建模和上下文预测建模在领域语料中进行微调,得到患者主诉文本的显式表征向量所患疾病知识文本的显式表征向量非所患疾病知识文本的显式表征向量其中emb为所述MacBERT预训练模型的文本嵌入向量维度,并基于上述显示表征向量构建患者的显式表征向量三元组(e
symptom,i
,e
targK,i
,e
untargK,i
)。
[0020]进一步地,通过所述堆叠自编码器将患者主诉文本、所患疾病知识文本和非所患疾病知识文本所对应的显式表征向量映射至新的隐式语义空间得到对应的隐式表征向量的具体方法为:
[0021]S31:将患者的显式表征向量三元组(e
symptom,i
,e
targK,i
,e
untargK,i
)输入两层全连接神经网络构建的所述堆叠自编码器的Encoder中,将显式表征向量映射至新的语义空间以得到对应的隐式表征向量,患者主诉文本隐式表征向量所患疾病知识文本隐式表征向量非所患疾病知识文本隐式表征向量其中enc标识Encoder的输出维度,即Encoder的第二层全连接神经网络的神经元数目,基于上述隐式表征向量构建患者的隐式表征向量三元组(v
symptom,i
,v
targK,i
,v
untargK,i
);
[0022]S32:将隐式表征向量三元组(v
symptom,i
,v
targK,i
,v
untargK,i
)输入两层全连接神经网络构建的所述堆叠自编码器的Decoder中,重建文本的显式表征向量,患者主诉文本重建表征向量所患疾病知识文本重建表征向量非所患疾病知识
文本重建表征向量其中dec标识Decoder的输出维度,即Decode的第二层全连接神经网络的神经元数目,基于上述重建表征向量构建患者的重建表征向量三元组(r
symptom,i
,r
targK,i
,r
untargK,i
);
[0023]S33:结合患者的显式表征向量三元组和重建表征向量三元组,设置均方误差计算所述堆叠自编码器的重建损失以保证所述堆叠自编码器学习有效隐式变量嵌入,损失函数设置为:
[0024][002本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于知识引导的疾病辅助诊断系统,其特征在于,包含:临床疾病知识库,包含疾病的知识文本;获取模块,用于获取患者主诉文本、所患疾病知识文本和非所患疾病知识文本所对应的显式表征向量;堆叠自编码器,用于将患者主诉文本、所患疾病知识文本和非所患疾病知识文本所对应的显式表征向量映射至新的隐式语义空间得到对应的隐式表征向量和重建表征向量;KL损失模块,用于修正患者主诉文本的隐式表征向量;疾病诊断模块,用于通过修正患者主诉文本的隐式表征向量进行训练。2.根据权利要求1所述的基于知识引导的疾病辅助诊断系统,其特征在于,临床疾病知识库包含每种疾病的临床主要症状及诊断依据数据,二者拼接得到疾病的知识文本。3.根据权利要求2所述的基于知识引导的疾病辅助诊断系统,其特征在于,搭建所述临床疾病知识库的具体方法为:S11:对包含K种疾病的疾病集合{disease1,disease2,

,disease
K
},构建所述临床疾病知识库其中disease
k
表示第k种疾病的名称,knowledge
k
标识第k种疾病对应的知识文本,K标识疾病的种类数目,疾病对应的知识文本由该疾病的临床主要症状文本及临床诊断依据文本拼接而成;S12:对S11中每个疾病对应的知识文本按照字符分割构建字符序列knowledge
k
=[a1,a2,

,a
m
],其中m标识知识文本的总字符数目。4.根据权利要求3所述的基于知识引导的疾病辅助诊断系统,其特征在于,所述获取模块为MacBERT预训练模型。5.根据权利要求4所述的基于知识引导的疾病辅助诊断系统,其特征在于,通过所述MacBERT预训练模型获取患者主诉文本、所患疾病知识文本和非所患疾病知识文本所对应的显式表征向量的主要方法为:S21:给定第i个患者的主诉文本x
symptom,i
=[c1,c2,

,c
n
]及所患的疾病标签l
i
,其中c
n
标识主诉文本的第n个字符,n标识主诉文本的总字符数目,l
i
∈{disease1,disease2,

,disease
K
},从所述临床疾病知识库中检索疾病标签l
i
对应的疾病知识文本x
targK,i
=[a1,a2,

,a
m
],从剩余疾病列表中随机抽样一个疾病名称在临床疾病知识库中检索其对应的疾病知识文本x
untargK,i
=[a1,a2,

,a
m
],其中a
m
标识疾病知识文本的第m个字符,m标识疾病知识文本的总字符数目;S22:构建患者数据集N标识患者数目;S23:将第i个患者的数据三元组(x
symptom,i
,x
targK,i
,x
untargK,i
)分别输入MacBERT预训练模型,采用遮挡语言建模和上下文预测建模在领域语料中进行微调,得到患者主诉文本的显式表征向量所患疾病知识文本的显式表征向量非所患疾病知识文本的显式表征向量
其中emb为所述MacBERT预训练模型的文本嵌入向量维度,并基于上述显示表征向量构建患者的显式表征向量三元组(e
symptom,i
,e
targK,i
,e
untargK,i
)。6.根据权利要求5所述的基于知识引导的疾病辅助诊断系统,其特征在于,通过所述堆叠自编码器将患者主诉文本、所患疾病知识文本和非所患疾病知识文本所对应的显式表征向量映射至新的隐式语义空间得到对应的隐式表征向量的具体方法为:S31:将患者的显式表征向量三元组(e
symptom,i
,e
targK,i
,e
untargK,i
)输入两层全连接神经网络构建的所述堆叠自编码器的Encoder中,将显式表征向量映射至新的语义空间以得到对应的隐式表征向量,患者主诉文本隐式表征向量所患疾病知识文本隐式表征向量非所患疾病知识文本隐式表征向量其中enc标识Encoder的输出维度,即Encoder的第二层全连接神经网络的神经元数目,基于上述隐式表征向量构建患者的隐式表征向量三元组(v
symptom,i
,v
targK,i
,v
untargK,i
);S32:将隐式表征向量三元组(v
symptom,i
,v
targK,i
,v
untargK,i
)输入两层全连接神经网络构建的所述堆叠自编码器的Decoder中,重建文本的显式表征向量,患者主诉文本重建表征向量所患疾病知识文本重建表征向量非所患疾病知识文本重建表征向量其中dec标识Decoder的输出维度,即Decode的第二层全连接神经网络的神经元数目,基于上述重建表征向量构建患者的重建表征向量三元组(r
symptom,i
,r
targK,i
,r
untargK,i
);S33:结合患者的显式表征向量三元组和重建表征向量三元组,设置均方误差计算所述堆叠自编码器的重建损失以保证所述堆叠自编码器学习有效隐式变量嵌入,损失函数设置为:其中N标识患者数目,e
symptom,i
标识第i个患者主诉文本显式...

【专利技术属性】
技术研发人员:黄正行李金绪卢梦林
申请(专利权)人:浙江大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1