【技术实现步骤摘要】
影像学报告文本的结构化信息处理方法、肺部疾病监测方法和系统
[0001]本申请涉及医疗文本的处理分析技术,更具体地说,涉及一种影像学报告文本的结构化信息处理方法和系统、基于影像学报告文本的肺部疾病监测方法和系统以及电子设备。
技术介绍
[0002]关于医疗文本的处理分析一直以来都是国内外研究关注的重点。医疗文本包含了病患的入院记录、病理报告以及影像学报告等丰富的信息,对于临床诊断有重要的指导作用。不同于国外研究较多的关于英文医疗文本的分析和应用,由于中文语言的独特性质,即没有明确的分隔符,没有词根和前缀,对中文的文本分析有较大的困难。同时,不同医院的数据编码各异,医生书写电子病历的方法千差万别,导致电子病历中包含大量无意义的标点符号和停用词,存在格式不统一、用词有歧义、包含缩写、拼写错误等问题,这些都给后续的文本挖掘分析带来了极大的困难。
[0003]医疗文本大多数是以半结构化的方式进行存储,其中非结构化的文本在表达能力和展现形式上更多样,但不利于后续的深入分析。因此,提取非结构化文本信息,实现结构化的表示对于文本分 ...
【技术保护点】
【技术特征摘要】
1.一种影像学报告文本的结构化信息处理方法,其特征在于,包括如下步骤:S11、将影像医学专业实体中部位和形态特征进一步划分成阴性和阳性两类,得到八个实体标签,即空位填符、句子起始符、句子终止符、部位
‑
阴性、部位
‑
阳性、形态
‑
阴性、形态
‑
阳性和病名,基于所述八个实体标签对影像学报告文本进行命名体识别,提取得到BIO格式的命名实体输出;S12、依据所述步骤S11中提取得到的命名实体过滤掉标记为O以及实体标签为部位
‑
阴性和形态
‑
阴性的冗余信息,计算得到所述影像学报告文本的句向量并将所述句向量存储于数据库中。2.根据权利要求1所述的方法,其特征在于,所述步骤S11中采用BERT
‑
BiLSTM
‑
CRF模型对影像学报告文本进行命名体识别。3.根据权利要求2所述的方法,其特征在于,所述步骤S12中计算句向量进一步包括:使用去掉冗余信息后保留的部位
‑
阳性、形态
‑
阳性和病名三个实体标签对应的字词的词向量来计算句向量,并在计算所述句向量时为不同实体标签对应的词向量设置各自的权重,其中,所述词向量是步骤S11中BERT模型的输出。4.一种基于影像学报告文本的肺部疾病监测方法,其特征在于,包括如下步骤:S21、采用如权利要求1
‑
3中任一项所述的影像学报告文本的结构化信息处理方法对肺部影像学报告文本进行处理,构建数据库;S22、检索数据库,计算各影像学报告文本的句向量之间的相似度,将相似度大于阈值的所有影像学报告文本归类为相似病例;S23、分析归类为相似病例的所有影像学报告文本的时空分布特征。5.根据权利要求4所述的方法,其特征在于,所述步骤S22进一步包括:获取一段时间内的n个影像学报告文本;计算所述n个影像学报告文本之间的余弦相似度,得到n x n的余弦相似度矩阵;以各影像学报告文本为图节点,依据所述余弦相似度矩阵和余弦相似度阈值构造影像学报告文本之间的有权无向图表示,得到影像学报告文本的有权邻接矩阵A;计算影像学报告文本之间的有权无向图表示的卡普拉斯矩阵L,L=D
–
A,其中D是度矩阵,D为一个维度是n x n的对角矩阵;计算归一化的拉普拉...
【专利技术属性】
技术研发人员:靳超,郭利,冯圣中,
申请(专利权)人:国家超级计算深圳中心深圳云计算中心,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。