一种肺部X线胸片检查报告自动生成方法技术

技术编号：24414524 阅读：111 留言：0更新日期：2020-06-06 10:49

目前的X线胸片检查报告自动生成方法无法准确地生成长段的检查报告、无法有效地捕获胸片包含的语义信息、未考虑中文检查报告中正常样本描述相似的特点。一种肺部X线胸片检查报告自动生成方法，本发明专利技术的创新点在于利用胸片的语义标签生成检查报告，并针对中文检查报告的特点加入二分类器来区分胸片的正常与异常，有效地提高了自动生成中文检查报告的精确度。

An automatic generation method of chest X-ray examination report of lung

全部详细技术资料下载

【技术实现步骤摘要】
一种肺部X线胸片检查报告自动生成方法
本专利技术涉及计算机视觉以及自然语言处理领域。X线胸片检查报告自动生成是计算机辅助诊断领域的一个重要分支。
技术介绍
由于目前仍未出现公开的胸片中文检查报告数据集，因此针对中文检查报告的自动生成研究仍十分匮乏。在胸片检查报告生成领域，仅有印第安纳大学公开的英文检查报告数据集openI，相关的研究大部分是在此数据集上进行的。Wang等人设计的TieNet，将检查报告和图像作为输入，在实现疾病分类的同时，生成检查报告。该方法提升了疾病分类的准确度，但是生成的检查报告BLEU值较低。Jing等人借鉴了Krause用于生成长段落的分层LSTM方法，将图像的特征以及语义特征作为句子级LSTM的输入，生成多个话题向量，并通过单词级LSTM对每个话题向量生成一句描述。Li等人把正面和侧面胸片同时作为CNN的输入，将检索法和生成法相结合，对于出现频率高的句子采用检索法，对于出现频率低的句子采用分层LSTM方法生成，最后将所有句子组合成一段检查报告。Xu等人提出的模型以循环的方式将CNN和LSTM结合在一起。模型结合图像特征和生成的句子构建输入，以指导下一个句子的生成。以上方法的目标是生成检查报告的finding和impression部分，由于该部分包含大量的语义信息，但是模型在生成报告时难以捕捉如此丰富的信息，因此以上方法生成的检查报告精度较低。
技术实现思路
X线胸片检查报告自动生成是计算机辅助诊断的一项重要任务，有助于减轻医生工作负担，提高诊断效率。目前的...

【技术保护点】
1.一种肺部X线胸片检查报告自动生成方法，其特征在于，包括/n步骤1、构建胸片检查报告数据集；/n步骤2、对中文检查报告进行预处理工作；/n步骤3、利用多标签分类器获取胸片的语义标签；/n步骤4、利用二分类器区分胸片的正常与异常；/n步骤5、将步骤2多标签分类器得到的语义标签与步骤3二分类器的输出相结合，输入LSTM生成检查报告。/n

【技术特征摘要】
1.一种肺部X线胸片检查报告自动生成方法，其特征在于，包括
步骤1、构建胸片检查报告数据集；
步骤2、对中文检查报告进行预处理工作；
步骤3、利用多标签分类器获取胸片的语义标签；
步骤4、利用二分类器区分胸片的正常与异常；
步骤5、将步骤2多标签分类器得到的语义标签与步骤3二分类器的输出相结合，输入LSTM生成检查报告。

2.如权利要求1所述的肺部X线胸片检查报告自动生成方法，其特征在于，第一步：采集胸片和中文检查报告用于构建胸片检查报告数据集。
数据集中包含胸片和检查报告，其中，将中文检查报告提供给第二步，将胸片提供给第三步和第四步。

3.如权利要求1所述的肺部X线胸片检查报告自动生成方法，其特征在于，第二步：对中文检查报告进行预处理工作，
2.1：按句号对中文检查报告的片示部分内容进行划分；
2.2：筛选出中文检查报告中与肺相关的描述；
2.3：将收集的医学词典加入jieba分词器的用户字典，使用jieba分词器对中文检查报告中与肺相关的描述进行分词；
2.4：得到肺部检查报告数据集，提供给步骤3.1，步骤4.1和步骤5.2。

4.如权利要求1所述的肺部X线胸片检查报告自动生成方法，其特征在于，
第三步：利用多标签分类器获取胸片的语义标签，
3.1：首先，利用步骤2.4的肺部检查报告数据集建立一个语义标签集合；
3.1.1：统计肺部检查报告中所有词语出现的次数；
3.1.2：选择出现次数高并且与异常相关的词语，将这些词语按照词意进行归类(词语的意思相同的归为一类)，得到40类语义标签，作为语义标签集合；提供给步骤3.2；
3.2：为胸片标记语义标签；
每张胸片需要标注一个语义标签y＝[y1，y2，…，y40]T；设当胸片的肺部检查报告中出现了属于j类语义标签的词语时，yj＝1，否则yj＝0；正常胸片的语义标签全为0，即y＝[0,0,…,0]T；
将标注了语义标签的胸片提供给步骤3.3。
3.3：训练多标签分类器。
多标签分类器的输入为胸片，输出一个语义标签概率向量
多标签分类器的实现采用现有的空间正则化网络[1](SpatialRegularizationNetwork,SRN)，网络包括两部分：第一个部分采用现有的ResNet-101神经网络[2]，输入是一张胸片，输出是向量作用是预测每个标签出现的概率；第二个部分是一个基于注意力机制的神经网络，该网络为3层卷积层组成的注意力预测器fatt，连接一个三层卷积网络fsr构成。输入是ResNet-...

【专利技术属性】
技术研发人员：方钰，顾梦丹，黄欣，陆明名，翟鹏珺，
申请(专利权)人：同济大学，
类型：发明
国别省市：上海;31

全部详细技术资料下载我是这个专利的主人