当前位置: 首页 > 专利查询>吉林大学专利>正文

一种基于深度学习超声文本诊断结果的辅助诊断方法技术

技术编号:37642244 阅读:14 留言:0更新日期:2023-05-25 10:09
本发明专利技术属于医学诊断技术领域,具体为一种基于深度学习超声文本诊断结果的辅助诊断方法,包括步骤1:Report Preparation,超声检查所见和诊断结果报告由医生人工输入,能够有效地处理报告,减少错别字和无效文本对信息抽取的影响,必须在提取所需信息之前对其进行预处理;步骤2:Information Extraction,把序列到序列模型应用到超声文本的信息抽取中,并结合基于规则的NLP算法完善seq2seq模型的结果:步骤3:Extrinsic Evaluation Framework,通过观察步骤2部分的结果,发现医生诊断习惯也会影响实验结果,不同医生对待同一个疾病的表述不同,因此,加入同义词处理和概率准确性方法来解决这一问题,其结构合理,普适性高,不受领域的限制,具有较好的可扩展性,可以迁移到其它医学诊断领域中。医学诊断领域中。医学诊断领域中。

【技术实现步骤摘要】
一种基于深度学习超声文本诊断结果的辅助诊断方法


[0001]本专利技术涉及医学诊断
,具体为一种基于深度学习超声文本诊断结果的辅助诊断方法。

技术介绍

[0002]超声是一种常用的成像方式,被医生公认为是一种强大的辅助诊断工具。其优点是检查方法简便、诊断准确率高。目前已经广泛应用于多种疾病的诊断中。在医院妇产科临床中,超声检查技术的应用也是至关重要的。超声可以筛查出子宫肌瘤、子宫肌腺症等常见妇科疾病。妇产科疾病病情多样、发生率高,对女性健康危害极大,而超声检查能非常有效地提高妇产科疾病的诊断效率,最大程度地避免妇科疾病恶化。在超声检查中,超声科医生通过超声影像结果观察各个脏器的形态、大小等物理特征,总结出超声检查所见文本,进而给出超声诊断结果。最终交由妇产科医生结合超声诊断结果和患者的临床表现给出最终的诊断结果。
[0003]知识提取(Knowledge Extraction,KE)指的是根据人们的实际需求,利用计算机技术识别文档中的信息片段,并将其转换为适合计算机存储、处理和检索的表示形式。KE系统的输入可能是各种各样结构化或者非结构化的知识,输出是任务定制的特定标准化的输出。知识提取技术有助于高效地分析文本,从中发现有价值的相关知识。KE目前已经广泛应用在结构化信息抽取、新闻检测和桥梁维修等领域。知识提取有许多下游应用,如知识感知的问题回答,推荐系统,temporal event reasoning等。信息提取在这些领域中都已经取得了较好的效果。在医学领域,已经有学者研究肿瘤、消化系统、循环系统和神经系统等疾病的信息提取,包括识别有胰腺癌家族史的患者、从超声心动图报告中识别充血性心力衰竭、优化胰腺囊肿和头痛的治疗等。The included IE studies involved 14 disease categories among a total of 19 ICD

9 categories,Five disease areas were not covered in these studies(i.e.,diseases of the sense organs;complications of pregnancy,childbirth,and the puerperium;congenital anomalies;certain conditions originating in the perinatal period)。由此可知,国际上很少有学者研究妇科领域的疾病,产生这一问题的可能原因主要有两点,一是合适的妇科检查报告难以获得,需要大量有标注的数据集,而网络上没有类似的公开数据集;二是处理数据还需要结合一定相关的领域知识。我们的研究针对这一空白,利用医院真实的妇产科超声报告数据,从报告中自动识别关键的医学观察结果。
[0004]在医学领域,信息抽取已经广泛应用在识别癌症、循环系统疾病、消化系统疾病、神经系统疾病、代谢疾病和免疫紊乱等领域中。Fu等设计了基于规则和机器学习两种方法的系统。从电子健康记录(EHR)中识别Silent brain infarction(SBI)和white matter disease(WMD),准确率等各项指标均可达到0.9以上。Selen等提出了一个NLP模型,综合了基于规则的特征提取模块和条件随机场模型。该模型可以从放射学报告中提取96%正确的measurements and their core descriptors。Zhou等采用NLP的方法,从临床记录数据中
抽取了260名患者和正常患者的生活方式信息,根据这些信息探索可能导致AD dementia的因素。结果表明该方法能正确提取74%的影响因素。Warner等设计了一个NLP算法,从EHR中提取癌症的stage信息。结果表明,72%的患者可以根据该算法计算出确切的stage(如I期,II期)。Mehrabi等提出了一个基于规则的NLP方法来识别有胰腺癌家族史的患者。该方法在两个公开数据集上的精度分别达到了87.8%和88.1%。Farrugia等提出了一个NLP方法,从放射学报告中提取癌症的stage和复发信息。该方法正确鉴别原发肿瘤流、转移和复发的准确率可达97.3%。
[0005]在本专利技术中,我们提出了一个基于深度学习的NLP模型,which aims to从超声检查报告中自动生成关键的超声诊断结果。与上述方法相比,我们提出的方法基于深度学习,而不是传统的机器学习模型。我们研究的另一贡献是针对妇科疾病,填补了国际上少有学者研究妇科疾病这一空白。
[0006]基于上述问题,我们提出一种基于深度学习超声文本诊断结果的辅助诊断方法。

技术实现思路

[0007]本部分的目的在于概述本专利技术的实施方式的一些方面以及简要介绍一些较佳实施方式。在本部分以及本申请的说明书摘要和专利技术名称中可能会做些简化或省略以避免使本部分、说明书摘要和专利技术名称的目的模糊,而这种简化或省略不能用于限制本专利技术的范围。
[0008]鉴于现有技术中存在的问题,提出了本专利技术。
[0009]因此,本专利技术的目的是提供一种基于深度学习超声文本诊断结果的辅助诊断方法,能够实现在使用的过程中,普适性高,不受领域的限制,具有较好的可扩展性,可以迁移到其它医学诊断领域中。
[0010]为解决上述技术问题,根据本专利技术的一个方面,本专利技术提供了如下技术方案:
[0011]一种基于深度学习超声文本诊断结果的辅助诊断方法,其包括如下步骤:
[0012]步骤1:Report Preparation,超声检查所见和诊断结果报告由医生人工输入,能够有效地处理报告,减少错别字和无效文本对信息抽取的影响,必须在提取所需信息之前对其进行预处理;
[0013]步骤2:Information Extraction,把序列到序列模型应用到超声文本的信息抽取中,并结合基于规则的NLP算法完善seq2seq模型的结果;第一步将训练集的检查所见和诊断结果文本输入到transformer模型中训练;第二步将测试集的检查所见文本输入到第一步训练的模型中得到初步结果;第三步将其中的错误结果根据基于规则的NLP算法修改,得到信息抽取部分的最终结果:
[0014]步骤3:Extrinsic Evaluation Framework,通过观察步骤2部分的结果,发现医生诊断习惯也会影响实验结果,不同医生对待同一个疾病的表述不同,因此,加入同义词处理和概率准确性方法来解决这一问题。
[0015]作为本专利技术所述的一种基于深度学习超声文本诊断结果的辅助诊断方法的一种优选方案,其中:所述步骤1的具体流程如下:
[0016](1)处理结果中常见的拼写错误,例如“纳囊”被拼写为“那囊”;处理报告中的无效文本,超声报告中的检查结果是间接的诊断结果,医生根据超声报告和患者的临床表现产
生最终的诊断结果,因此超声报告中会存在大量建议性语句,例如“建议会诊胎儿超声和产前咨询”、“请结合临床”,这些语句对医生判本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于深度学习超声文本诊断结果的辅助诊断方法,其特征在于:包括如下步骤:步骤1:Report Preparation,超声检查所见和诊断结果报告由医生人工输入,能够有效地处理报告,减少错别字和无效文本对信息抽取的影响,必须在提取所需信息之前对其进行预处理;步骤2:Information Extraction,把序列到序列模型应用到超声文本的信息抽取中,并结合基于规则的NLP算法完善seq2seq模型的结果;第一步将训练集的检查所见和诊断结果文本输入到transformer模型中训练;第二步将测试集的检查所见文本输入到第一步训练的模型中得到初步结果;第三步将其中的错误结果根据基于规则的NLP算法修改,得到信息抽取部分的最终结果:步骤3:Extrinsic Evaluation Framework,通过观察步骤2部分的结果,发现医生诊断习惯也会影响实验结果,不同医生对待同一个疾病的表述不同,因此,加入同义词处理和概率准确性方法来解决这一问题。2.根据权利要求1所述的一种基于深度学习超声文本诊断结果的辅助诊断方法,其特征在于:所述步骤1的具体流程如下:(1)处理结果中常见的拼写错误,例如“纳囊”被拼写为“那囊”;处理报告中的无效文本,超声报告中的检查结果是间接的诊断结果,医生根据超声报告和患者的临床表现产生最终的诊断结果,因此超声报告中会存在大量建议性语句,例如“建议会诊胎儿超声和产前咨询”、“请结合临床”,这些语句对医生判断病情没有帮助,因此将类似的条语句去除,减少其对后续特征抽取的影响;(2)使用Jieba Chinese word segmentation tool结合超声领域专业词典完成分词工作,构建超声领域专业词典;原因有两点:第一,超声检查报告中存在大量医学专业词汇,由于专业词汇在现实生活中出现的频率远远低于常用词汇,分词工具容易产生错误,例如“宫腔线清”会被分词工具分为“宫腔”和“线清”,而正确的分词结果是“宫腔线”和“清”;第二,医学检查报告使用的词汇相对闭合,数据集涉及到的词汇数量较少,在该数据集的检查所见文本中,只涉及3763个词语,在诊断结果文本中,只涉及498个词语,因此构建超声领域专业词典会显著增加分词的准确率,有助于后续的信息提取工作;通过观察报告文本,发现96.3%的专业词汇都是由两个字或三个字组成,四个字以上词汇都是由短词汇组成,因此在构建词典时以每个字为单位,使用bigram和trigram方法,将组合后的所有词语按照出现次数进行排序,从中取出次数较高的1281个词语,最终结合超声科医生的建议,标注了其中的382个词语作为自定义词典;(3)在分词任务结束后,对超声报告中的同义词进行处理,例如“宫颈处见外凸低回声”被分词为“宫颈处见外凸低回声”,“胃泡可见”被分词为“胃泡可见”;其中的“处见...

【专利技术属性】
技术研发人员:赵跃铭胡亮迟令
申请(专利权)人:吉林大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1