【技术实现步骤摘要】
病历数据结构化分析处理方法
本专利技术涉及病历数据处理
,特别是涉及一种病历数据结构化分析处理方法。更具体地涉及一种基于自然语言处理对病历数据结构化进行分析处理的方法。
技术介绍
自然语言处理(NLP)是近年来机器学习领域的一大应用。它的研究目的是探索计算机如何对基于人类自然语言的文字和语音理解并运用。从事自然语言处理的研究目标,一是通过对人类理解语言的方式的分析,设计出一种类似人类的机器算法;二是使用近年来较为流行的深度学习工具,对自然语言的文本进行直接分析。病历数据包含了丰富的文本与数字信息。在病历电子化潮流兴起的现在,对病历文本进行分析也成为了自然语言处理的新课题。无论是对于医疗数据归档工作,还是对于病人与医生的病情分析,病历结构化都将带来极大的便利。由于目前自然语言处理与医疗结合并不紧密,因此现有技术存在一定缺陷与不足:一是尽管目前病历已经尽量保证在输入时的格式化,但是不同医院之间的病历之间的格式还是存在差异,过往的陈旧病历格式更是千差万别,不利于医疗研究的进一步开展;二是目前对中文病历进行相关信息序列分析的技术较少,无法为医学研究人员探究发病规律提 ...
【技术保护点】
1.一种病历数据结构化分析处理方法,其特征在于,包括以下步骤:S1,对原始病历文本进行预处理,得到诊断结果和不含诊断结果的文本;S2,对不含诊断结果的文本进行关键词识别;S3,提取关键词特征向量,进行空间可视化与分类分析;S4,根据分析结果计算不同关键词与诊断结果的相关程度。
【技术特征摘要】
1.一种病历数据结构化分析处理方法,其特征在于,包括以下步骤:S1,对原始病历文本进行预处理,得到诊断结果和不含诊断结果的文本;S2,对不含诊断结果的文本进行关键词识别;S3,提取关键词特征向量,进行空间可视化与分类分析;S4,根据分析结果计算不同关键词与诊断结果的相关程度。2.如权利要求1所述的病历数据结构化分析处理方法,其特征在于,在步骤S2中,在关键词识别前,还包括对不含诊断结果的文本进行时间信息提取并整理排序步骤。3.如权利要求2所述的病历数据结构化分析处理方法,其特征在于,所述步骤S2包括以下步骤:S21,对不含诊断结果的文本进行时间信息提取,整理出按时间顺序排列的语句序列;S22,对整理出的语句序列进行分词与词性判别,识别出关键词序列。4.如权利要求3所述的病历数据结构化分析处理方法,其特征在于,在步骤S21中,所述语句序列是通过将提取的时间信息及其作用范围内的语句信息进行组合处理,并按照时间顺序进行排序整理得到。5.如权利要求4所述的病历数据结构化分析处理方法,其特征在于,每个时间信息的作用范围为自该时间信息结束位...
【专利技术属性】
技术研发人员:张学工,林子坤,闾海荣,
申请(专利权)人:清华大学,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。