【技术实现步骤摘要】
一种在病历文本中识别出疾病内容的方法
本专利技术涉及电子文档处理
,特别是一种在病历文本中识别出疾病内容的方法。
技术介绍
医疗行业信息化程度高,但存在大量非结构化数据,严重影响临床医疗数据的质量,导致医疗数据的利用率并不高。由此产生的需求是:医疗数据的结构化势在必行。但是由于不同的疾病存在着明显区别,所以病历的结构化方式也有很大差异,采用通用结构化方式就会造成大量的结构冗余,不能满足不同疾病的个性化特点。
技术实现思路
本专利技术的主要目的在于提供一种在病历文本中识别出疾病内容的方法,包括步骤:A、将病历文本拆分成不同类型;B、针对所述不同类型文本内容分别进行特征向量提取;C、依据所提取的特征向量进行疾病确认。由上,区别于现有技术,本方法尊重了病历内容的差异化,通过对病历本文内容的拆分,确定出多个类型。对每个类型分别进行特征向量提取,并基于所提取的特征向量进行疾病确认,提高了疾病确认的准确性。其中,在步骤A前,还包括对所述病历本文内容进行内容清洗,去除无效内 ...
【技术保护点】
1.一种在病历文本中识别出疾病内容的方法,其特征在于,包括步骤:/nA、将病历文本拆分成不同类型;/nB、针对所述不同类型文本内容分别进行特征向量提取;/nC、依据所提取的特征向量进行疾病确认。/n
【技术特征摘要】
1.一种在病历文本中识别出疾病内容的方法,其特征在于,包括步骤:
A、将病历文本拆分成不同类型;
B、针对所述不同类型文本内容分别进行特征向量提取;
C、依据所提取的特征向量进行疾病确认。
2.根据权利要求1所述的方法,其特征在于,在步骤A前,还包括对所述病历本文内容进行内容清洗,去除无效内容的步骤。
3.根据权利要求1或2所述的方法,其特征在于,所述不同类型包括但不限于以下几类:出院诊断、病理诊断、出院小结和病理描述。
4.根据权利要求1所述的方法,其特征在于,所述步骤B包括以下子步骤:
B1:分别将所述不同类型文本内容转换成one-hot向量矩阵;
B2:分别对所述不同类型文本内容的one-hot向量矩阵进行卷积运算,提取特征向量;
B3:将所述不同类型文本内容的的特征向量进行组合。
5.根据权利要求4所述的方法,其特征在于,在所述步骤B1后还包括对所述one-hot向量矩阵进行降维处理的步骤;
所述步骤B2中,对降维处理后的one-hot向量矩阵进行卷积运算,提取特征向量。
<...
【专利技术属性】
技术研发人员:罗立刚,张正宽,刘辉,张天泽,
申请(专利权)人:零氪科技北京有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。