当前位置: 首页 > 专利查询>同济大学专利>正文

一种肺部X线胸片检查报告自动生成方法技术

技术编号:24414524 阅读:111 留言:0更新日期:2020-06-06 10:49
目前的X线胸片检查报告自动生成方法无法准确地生成长段的检查报告、无法有效地捕获胸片包含的语义信息、未考虑中文检查报告中正常样本描述相似的特点。一种肺部X线胸片检查报告自动生成方法,本发明专利技术的创新点在于利用胸片的语义标签生成检查报告,并针对中文检查报告的特点加入二分类器来区分胸片的正常与异常,有效地提高了自动生成中文检查报告的精确度。

An automatic generation method of chest X-ray examination report of lung

【技术实现步骤摘要】
一种肺部X线胸片检查报告自动生成方法
本专利技术涉及计算机视觉以及自然语言处理领域。X线胸片检查报告自动生成是计算机辅助诊断领域的一个重要分支。
技术介绍
由于目前仍未出现公开的胸片中文检查报告数据集,因此针对中文检查报告的自动生成研究仍十分匮乏。在胸片检查报告生成领域,仅有印第安纳大学公开的英文检查报告数据集openI,相关的研究大部分是在此数据集上进行的。Wang等人设计的TieNet,将检查报告和图像作为输入,在实现疾病分类的同时,生成检查报告。该方法提升了疾病分类的准确度,但是生成的检查报告BLEU值较低。Jing等人借鉴了Krause用于生成长段落的分层LSTM方法,将图像的特征以及语义特征作为句子级LSTM的输入,生成多个话题向量,并通过单词级LSTM对每个话题向量生成一句描述。Li等人把正面和侧面胸片同时作为CNN的输入,将检索法和生成法相结合,对于出现频率高的句子采用检索法,对于出现频率低的句子采用分层LSTM方法生成,最后将所有句子组合成一段检查报告。Xu等人提出的模型以循环的方式将CNN和LSTM结合在一起。模型结合图像特征和生成的句子构建输入,以指导下一个句子的生成。以上方法的目标是生成检查报告的finding和impression部分,由于该部分包含大量的语义信息,但是模型在生成报告时难以捕捉如此丰富的信息,因此以上方法生成的检查报告精度较低。
技术实现思路
X线胸片检查报告自动生成是计算机辅助诊断的一项重要任务,有助于减轻医生工作负担,提高诊断效率。目前的检查报告自动生成方法以生成长段的检查报告为目标,由于长段报告包含信息量过大,自动生成的报告质量不高;并且现有方法通常使用图像特征直接生成报告,而图像特征包含的语义信息有限;另外,现有研究多是针对英文检查报告,未考虑到中文检查报告的一些特点。针对以上问题,本专利技术以生成肺部的检查报告为目标,采用多标签分类得到的语义标签来生成检查报告,并且针对中文检查报告中正常症状描述相似这一特点,通过加入二分类器提高了生成正常症状报告的精确度。为了实现上述目的,本专利技术给出的技术方案为:本专利技术提供一种肺部X线胸片检查报告自动生成方法,包括:步骤1、构建胸片检查报告数据集;步骤2、对中文检查报告进行预处理工作;步骤3、利用多标签分类器获取胸片的语义标签;步骤4、利用二分类器区分胸片的正常与异常;步骤5、将步骤2多标签分类器得到的语义标签与步骤3二分类器的输出相结合,输入LSTM生成检查报告。有益效果本专利技术针对现有目前的X线胸片检查报告自动生成方法无法准确地生成长段的检查报告、无法有效地捕获胸片包含的语义信息、未考虑中文检查报告中正常样本描述相似的特点等问题,实现了一种肺部X线胸片检查报告自动生成方法。本专利技术以生成肺部检查报告为目标,通过选取与异常相关的高频词作为语义标签,利用语义标签生成检查报告,并且结合二分类器提高了生成正常症状报告的精确度,有助于推进中文检查报告自动生成领域的研究,对于计算机辅助诊断领域有重大意义。本专利技术仅生成肺部的检查报告,给出一种肺部X线胸片检查报告自动生成方法。肺部报告相对于整段检查报告,包含的信息较少,便于模型在生成时捕捉有效信息,从而生成更确切的报告。附图说明附图是用来提动对本专利技术的进一步理解,并且构成说明书的一部分,与下面的具体实施方式一起用于解释本公开,但不构成对本专利技术的限制。在附图中:图1为胸片肺部检查报告自动生成方法的技术路线图;图2为步骤二中文检查报告预处理的流程图;图3为步骤三利用多标签分类器获取胸片的语义标签;图4为步骤四利用二分类器区分胸片的正常与异常;图5为利用LSTM生成肺部检查报告的说明图;图6为肺部胸片检查报告自动生成的流程图。具体实施方式为了使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合附图对本专利技术的具体实施方式进行清楚、完整的描述。应当理解的是,此处所描述的具体实施方法仅用于说明和解释本专利技术,并不用于限制本专利技术。本专利技术的具体实施过程如图1所示,包括如下5个方面:步骤1、构建胸片检查报告数据集;步骤2、对中文检查报告进行预处理工作;步骤3、利用多标签分类器获取胸片的语义标签;步骤4、利用二分类器区分胸片的正常与异常;步骤5、将步骤2多标签分类器得到的语义标签与步骤3二分类器的输出相结合,输入LSTM生成检查报告。各个步骤详述如下。第一步:采集胸片和中文检查报告用于构建胸片检查报告数据集。数据集中包含胸片和检查报告,其中,将中文检查报告提供给第二步,将胸片提供给第三步和第四步。第二步:对中文检查报告进行预处理工作,如图2所示2.1:按句号对中文检查报告的片示部分内容进行划分;2.2:筛选出中文检查报告中与肺相关的描述;2.3:将收集的医学词典加入jieba分词器的用户字典,使用jieba分词器对中文检查报告中与肺相关的描述进行分词;2.4:得到肺部检查报告数据集,提供给步骤3.1,步骤4.1和步骤5.2。第三步:利用多标签分类器获取胸片的语义标签,如图3所示3.1:首先,利用步骤2.4的肺部检查报告数据集建立一个语义标签集合。3.1.1:统计肺部检查报告中所有词语出现的次数;3.1.2:选择出现次数高并且与异常相关的词语,将这些词语按照词意进行归类(词语的意思相同的归为一类),得到40类语义标签,作为语义标签集合;提供给步骤3.2。3.2:为胸片标记语义标签。每张胸片需要标注一个语义标签y=[y1,y2,…,y40]T。设当胸片的肺部检查报告中出现了属于j类语义标签的词语时,yj=1,否则yj=0。正常胸片的语义标签全为0,即y=[0,0,…,0]T。将标注了语义标签的胸片提供给步骤3.3。3.3:训练多标签分类器。多标签分类器的输入为胸片,输出一个语义标签概率向量多标签分类器的实现采用现有的空间正则化网络[1](SpatialRegularizationNetwork,SRN),网络包括两部分:第一个部分采用现有的ResNet-101神经网络[2],输入是一张胸片,输出是向量作用是预测每个标签出现的概率;第二个部分是一个基于注意力机制的神经网络,该网络为3层卷积层组成的注意力预测器fatt,连接一个三层卷积网络fsr构成。输入是ResNet-101的“res4b22_relu”层提取的特征图X,输出是向量作用是利用注意力机制学习语义标签之间的关联性。最终多标签分类器即所述空间正则化网络输出的语义标签概率向量其中σ表示Sigmoid函数。空间正则化网络的损失函数公式为:其中y表示步骤3.2标注的语义标签,表示空间正则化网络输出的语义标签概率向量。利用随机梯度下降法优化方法训练空间正则化网络。3.4:将胸片输入已训练的多标签分本文档来自技高网...

【技术保护点】
1.一种肺部X线胸片检查报告自动生成方法,其特征在于,包括/n步骤1、构建胸片检查报告数据集;/n步骤2、对中文检查报告进行预处理工作;/n步骤3、利用多标签分类器获取胸片的语义标签;/n步骤4、利用二分类器区分胸片的正常与异常;/n步骤5、将步骤2多标签分类器得到的语义标签与步骤3二分类器的输出相结合,输入LSTM生成检查报告。/n

【技术特征摘要】
1.一种肺部X线胸片检查报告自动生成方法,其特征在于,包括
步骤1、构建胸片检查报告数据集;
步骤2、对中文检查报告进行预处理工作;
步骤3、利用多标签分类器获取胸片的语义标签;
步骤4、利用二分类器区分胸片的正常与异常;
步骤5、将步骤2多标签分类器得到的语义标签与步骤3二分类器的输出相结合,输入LSTM生成检查报告。


2.如权利要求1所述的肺部X线胸片检查报告自动生成方法,其特征在于,第一步:采集胸片和中文检查报告用于构建胸片检查报告数据集。
数据集中包含胸片和检查报告,其中,将中文检查报告提供给第二步,将胸片提供给第三步和第四步。


3.如权利要求1所述的肺部X线胸片检查报告自动生成方法,其特征在于,第二步:对中文检查报告进行预处理工作,
2.1:按句号对中文检查报告的片示部分内容进行划分;
2.2:筛选出中文检查报告中与肺相关的描述;
2.3:将收集的医学词典加入jieba分词器的用户字典,使用jieba分词器对中文检查报告中与肺相关的描述进行分词;
2.4:得到肺部检查报告数据集,提供给步骤3.1,步骤4.1和步骤5.2。


4.如权利要求1所述的肺部X线胸片检查报告自动生成方法,其特征在于,
第三步:利用多标签分类器获取胸片的语义标签,
3.1:首先,利用步骤2.4的肺部检查报告数据集建立一个语义标签集合;
3.1.1:统计肺部检查报告中所有词语出现的次数;
3.1.2:选择出现次数高并且与异常相关的词语,将这些词语按照词意进行归类(词语的意思相同的归为一类),得到40类语义标签,作为语义标签集合;提供给步骤3.2;
3.2:为胸片标记语义标签;
每张胸片需要标注一个语义标签y=[y1,y2,…,y40]T;设当胸片的肺部检查报告中出现了属于j类语义标签的词语时,yj=1,否则yj=0;正常胸片的语义标签全为0,即y=[0,0,…,0]T;
将标注了语义标签的胸片提供给步骤3.3。
3.3:训练多标签分类器。
多标签分类器的输入为胸片,输出一个语义标签概率向量
多标签分类器的实现采用现有的空间正则化网络[1](SpatialRegularizationNetwork,SRN),网络包括两部分:第一个部分采用现有的ResNet-101神经网络[2],输入是一张胸片,输出是向量作用是预测每个标签出现的概率;第二个部分是一个基于注意力机制的神经网络,该网络为3层卷积层组成的注意力预测器fatt,连接一个三层卷积网络fsr构成。输入是ResNet-...

【专利技术属性】
技术研发人员:方钰顾梦丹黄欣陆明名翟鹏珺
申请(专利权)人:同济大学
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1