一种基于主题模型的胸部X光片诊断报告异常检测方法技术

技术编号:24126654 阅读:26 留言:0更新日期:2020-05-13 04:50
本发明专利技术涉及一种基于主题模型的胸部X光片诊断报告异常检测方法,属于计算机自然语言处理技术领域。本发明专利技术首先根据诊断报告自身特性提出了基于LSTM‑CRF模型进行诊断报告的实体抽取;然后依据领域知识和模板将诊断报告进行有效的特征扩展,缓解数据稀疏问题;利用改进的LDA模型得到影像描述和诊断结论这两种诊断报告的实例主题分布;通过计算比较影像描述实体和诊断结论实体得到的实例主题分布是否匹配,就能用来检测异常诊断报告;本发明专利技术的检测准确率高。

【技术实现步骤摘要】
一种基于主题模型的胸部X光片诊断报告异常检测方法
本专利技术涉及一种基于主题模型的胸部X光片诊断报告异常检测方法,属于计算机自然语言处理

技术介绍
胸部X光片是患者胸部检查的优先选择,对患者的诊断治疗起着重要的作用。医生依据自身的经验和习惯书写胸部X光片诊断报告,诊断报告核心的内容是影像描述和诊断结论,这两部分是辅助医生诊断和患者治疗的重要参考,也是用于诊断报告异常检测的关键信息。医生书写诊断报告具有相当大的主观性,有可能会因为经验不足或疲劳而产生影像描述内容的解读错误,使一些疾病漏诊,误诊。另外诊断报告中影像所见部分描述自由,多为医疗惯例描述语言,复杂的影像描述内容,也可能影响医生的鉴别诊断,得出错误的诊断结论。筛选出这些异常的诊断报告,首先可以减少疾病误诊率,为临床医生的诊断治疗,提供更准确有效的参考。其次,为建立规范化的医疗检查体系和实现高效精准的医疗服务提供了基础。最后,增强医院的管理水平,监督考察医疗工作者的技术素养。所以,对诊断报告进行异常检测方法的研究意义重大。传统的异常检测方法都是为了找出不满足规则和期望的样本。目前在医疗领域出现了大量的异常检测方法用于检测医疗保险记录,医疗处方等医疗数据。有监督的异常检测方法,首先通过大量高质量的人工标注数据,利用传统的分类方法,找出异常类别的数据。传统的有监督检测,异常点检测,上下文异常检测等方法检测异常诊断报告效果不佳。由于缺乏有效的标注数据,诊断报告不适用于有监督的检测方法。诊断报告文本描述自由,一些影像描述的症状或者疾病出现较少,但不能归为异常,所以异常点检测会出现偏差。诊断报告数据高维稀疏,通过传统的映射函数进行上下文的特征匹配,效果不佳。诊断报告中的诊断结论是根据影像描述得到的,影像描述中的症状实体与诊断中的结论实体存在特有的语义信息和对应关系。诊断报告中存在大量的专业术语,如果不进行实体的抽取,直接以字符或者词语特征进行训练,输入特征就会失去原有的语义信息和对应关系。如:影像描述中的“双侧膈肌光滑,双肋膈角锐利”对应结论中的“膈无异常”,分成字符或词语就失去了原有的语义信息和对应关系。通过计算这两类实体之间的对应关系是否成立,就可以判断该诊断报告影像描述与诊断结论是否匹配,既可以检测该诊断报告是否异常。
技术实现思路
本专利技术提供了一种基于主题模型的胸部X光片诊断报告异常检测方法,用于提高实体提取的效果、缓解了特征稀疏的问题、取得很好的检测识别效果。本专利技术的技术方案是:一种基于主题模型的胸部X光片诊断报告异常检测方法,所述方法的具体步骤如下:Step1、诊断报告实体抽取:诊断报告核心的内容是影像描述和诊断结论,根据诊断报告自身特性提出了基于LSTM-CRF模型进行诊断报告的实体抽取;Step2、实体特征扩展补充:将Step1中抽取的实体进行特征扩展和补充,并将诊断的性质加入结论部分,并与影像描述中的症状实体进行匹配;Step3、诊断报告异常检测:利用改进的LDA模型得到影像描述和诊断结论这两种诊断报告的实例主题分布;Step4、特征匹配得出结论:通过计算比较影像描述实体和诊断结论实体得到的实例主题分布是否匹配,就能用来检测异常诊断报告。进一步地,所述步骤Step1的具体步骤如下:Step1.1、以字符基本特征结合诊断报告特有的实体后缀特征,生成表示其类型的字嵌入向量;解决了未登录词过多的问题,减少分词带来的负面影响,并且结合症状实体和疾病实体的字符特级征,对诊断报告中较长实体的识别,取得了很好的效果。Step1.2、把Step1.1得出的字嵌入向量输入BI-LSTM神经网络层,得到序列中字符标签的分布矩阵;Step1.3、根据Step1.2输出的标签概率分布,利用CRF层的序列标注功能预测出最优的序列组合,完成对诊断报告实体进行抽取。进一步地,所述步骤Step2的具体步骤如下:Step2.1、特征扩展:诊断报告中存在较多并列描述,将这些并列实体分开描述如“双肺纹理增强,紊乱”改为“双肺纹理增强”和“双肺纹理紊乱”;“心脏大小形态无异常”改为“心脏大小无异常”和“心脏形态无异常”;通过特征扩展能大大丰富特征信息;缓解数据稀疏问题;Step2.2、特征补充:诊断结论主要突出表征的是影像描述中的异常,主要给出异常结论,很多正常的影像描述没有给出相应的结论,这是造成诊断结论简短的一个主要原因;对于胸部X光片,当地医院和在线医疗网站都有对应的参考模板,诊断报告中的结论都有着与之相对应的规范描述;依据这些模板对诊断报告中的正常结论进行补充;大大缓解了诊断结论特征稀疏,主题提取困难的问题;Step2.3、将诊断的性质即阴阳性加入结论部分,并与影像描述中的症状实体进行匹配。进一步地,所述步骤Step3的具体步骤如下:Step3.1、利用改进的LDA模型,对同一个实例分为两个部分进行采样,得到每一份实例(胸片诊断报告)的A类(影像描述)特征和B类(诊断结论)特征;该模型既能够挖掘上下两部分潜在的特征主题,又能够将上下两部分进行关联,得到具有对应关系的主题;Step3.2、由Step3.1抽取到的影像描述和诊断结论两类特征语义相似,并且两类主题分布能进行关联分析最后得到影像描述和诊断结论之间的对应关系。进一步地,所述改进的LDA模型;首先通过以共同的参数α得到每一份诊断报告实例共同的主题分布θ,然后分为两部分进行主题建模和求解,分别以βA和βB为参数得到影像描述部分的特征分布和诊断结论部分的特征分布基于以上参数信息得到每一份实例胸片诊断报告的A类影像描述特征和B类诊断结论特征;改进的LDA模型参数包括参数α、βA和βB求解使用吉布斯采样方法,对同一个实例分为两个部分A类影像描述特征和B类诊断结论特征进行采样,两者有着相同的求解过程;以A类影像描述特征为例,计算实例d中A类影像描述特征w属于主题t的概率,即A类影像描述类实体特征在该LDA模型上的实例主题分布为:其中,标记为主题t的所有A类影像描述特征中,特征w的比重为:其中,实例d标记为主题t的特征在所有特征中的比重:zw表示当前的特征项的主题标识,z-w表示A类影像描述特征全部特征去除zw后的主题标识,VA表示A类影像描述特征的种类数,K表示主题的数目,N代表矩阵,表示全体实例特征w标记为主题t的个数,表示所有标记为主题t的A类影像描述特征的个数,表示d中所有特征标记为主题k的个数,表示d中所有特征的个数;将诊断报告分为影像描述和诊断结论单独出发进行推断,得到两个诊断报告的实例主题分布。所述对胸片诊断报告进行特征的扩展和补充中,为进一步解决实体特征较少稀疏、进行主题提取面临挑战这一问题,提出了特征进行特征扩展和特征补充,对诊断报告中的正常结论进行补充,将诊断的性质即阴阳性加入结论部分,并与影像描述中的症状实体进行匹配。本专利技术的有益效果是:1、本专利技术中的模型以字嵌入向量作为模型的输入,解决了未登录词过多的问题,本文档来自技高网
...

【技术保护点】
1.一种基于主题模型的胸部X光片诊断报告异常检测方法,其特征在于:/n所述方法的具体步骤如下:/nStep1、诊断报告实体抽取:诊断报告核心的内容是影像描述和诊断结论,根据诊断报告自身特性提出了基于LSTM-CRF模型进行诊断报告的实体抽取;/nStep2、实体特征扩展补充:将Step1中抽取的实体进行特征扩展和补充,并将诊断的性质加入结论部分,并与影像描述中的症状实体进行匹配;/nStep3、诊断报告异常检测:利用改进的LDA模型得到影像描述和诊断结论这两种诊断报告的实例主题分布;/nStep4、特征匹配得出结论:通过计算比较影像描述实体和诊断结论实体得到的实例主题分布是否匹配,就能用来检测异常诊断报告。/n

【技术特征摘要】
1.一种基于主题模型的胸部X光片诊断报告异常检测方法,其特征在于:
所述方法的具体步骤如下:
Step1、诊断报告实体抽取:诊断报告核心的内容是影像描述和诊断结论,根据诊断报告自身特性提出了基于LSTM-CRF模型进行诊断报告的实体抽取;
Step2、实体特征扩展补充:将Step1中抽取的实体进行特征扩展和补充,并将诊断的性质加入结论部分,并与影像描述中的症状实体进行匹配;
Step3、诊断报告异常检测:利用改进的LDA模型得到影像描述和诊断结论这两种诊断报告的实例主题分布;
Step4、特征匹配得出结论:通过计算比较影像描述实体和诊断结论实体得到的实例主题分布是否匹配,就能用来检测异常诊断报告。


2.根据权利要求1所述的基于主题模型的胸部X光片诊断报告异常检测方法,其特征在于:所述步骤Step1的具体步骤如下:
Step1.1、以字符基本特征结合诊断报告特有的实体后缀特征,生成表示其类型的字嵌入向量;
Step1.2、把Step1.1得出的字嵌入向量输入BI-LSTM神经网络层,得到序列中字符标签的分布矩阵;
Step1.3、根据Step1.2输出的标签概率分布,利用CRF层的序列标注功能预测出最优的序列组合,完成对诊断报告实体进行抽取。


3.根据权利要求1所述的基于主题模型的胸部X光片诊断报告异常检测方法,其特征在于:所述步骤Step2的具体步骤如下:
Step2.1、特征扩展:诊断报告中存在较多并列描述,将这些并列实体分开描述如“双肺纹理增强,紊乱”改为“双肺纹理增强”和“双肺纹理紊乱”;“心脏大小形态无异常”改为“心脏大小无异常”和“心脏形态无异常”;通过特征扩展能大大丰富特征信息;
Step2.2、特征补充:对于胸部X光片,当地医院和在线医疗网站都有对应的参考模板,诊断报告中的结论都有着与之相对应的规范描述;依据这些模板对诊断报告中的正常结论进行补充;
Step2.3、将诊断...

【专利技术属性】
技术研发人员:黄青松殷宁波尤诚诚刘利军冯旭鹏
申请(专利权)人:昆明理工大学
类型:发明
国别省市:云南;53

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1