当前位置: 首页 > 专利查询>清华大学专利>正文

病历数据结构化分析处理方法技术

技术编号:19781344 阅读:51 留言:0更新日期:2018-12-15 12:11
本发明专利技术公开了一种病历数据结构化分析处理方法。该方法包括以下步骤:对原始病历文本进行预处理,得到诊断结果和不含诊断结果的文本;对不含诊断结果的文本进行关键词识别;提取关键词特征向量,进行机器学习、空间可视化与分类分析;根据分析结果计算不同关键词与诊断结果的相关程度。本发明专利技术方法能够最大限度地减小病历格式差异对于分析造成的影响,具有普遍适用性,能够广泛运用于各种格式病历的分析;能够在训练数据的引导下对于不同科室的病历进行分类分析;能够为今后病历结构化文本构建基础信息,及病历相关性分析提供参考。

【技术实现步骤摘要】
病历数据结构化分析处理方法
本专利技术涉及病历数据处理
,特别是涉及一种病历数据结构化分析处理方法。更具体地涉及一种基于自然语言处理对病历数据结构化进行分析处理的方法。
技术介绍
自然语言处理(NLP)是近年来机器学习领域的一大应用。它的研究目的是探索计算机如何对基于人类自然语言的文字和语音理解并运用。从事自然语言处理的研究目标,一是通过对人类理解语言的方式的分析,设计出一种类似人类的机器算法;二是使用近年来较为流行的深度学习工具,对自然语言的文本进行直接分析。病历数据包含了丰富的文本与数字信息。在病历电子化潮流兴起的现在,对病历文本进行分析也成为了自然语言处理的新课题。无论是对于医疗数据归档工作,还是对于病人与医生的病情分析,病历结构化都将带来极大的便利。由于目前自然语言处理与医疗结合并不紧密,因此现有技术存在一定缺陷与不足:一是尽管目前病历已经尽量保证在输入时的格式化,但是不同医院之间的病历之间的格式还是存在差异,过往的陈旧病历格式更是千差万别,不利于医疗研究的进一步开展;二是目前对中文病历进行相关信息序列分析的技术较少,无法为医学研究人员探究发病规律提供便利。
技术实现思路
基于上述缺陷与不足,本专利技术的目的在于提供一种病历数据结构化分析处理方法,该方法能够最大限度地减小病历格式差异对于分析造成的影响,具有普遍适用性,能够广泛运用于各种格式病历的分析;能够为中文病历带来结构化分析的模块,能够在训练数据的引导下对于不同科室的病历进行分类分析。上述目的是通过以下技术方案实现的:一种病历数据结构化分析处理方法,包括以下步骤:S1,对原始病历文本进行预处理,得到诊断结果和不含诊断结果的文本;S2,对不含诊断结果的文本进行关键词识别;S3,提取关键词特征向量,进行空间可视化与分类分析;S4,根据分析结果计算不同关键词与诊断结果的相关程度。优选地,在步骤S2中,在关键词识别前,还包括对不含诊断结果的文本进行时间信息提取并整理排序步骤。优选地,步骤S2包括以下步骤:S21,对不含诊断结果的文本进行时间信息提取,整理出按时间顺序排列的语句序列;S22,对整理出的语句序列进行分词与词性判别,识别出关键词序列。优选地,在步骤S21中,所述语句序列是通过将提取的时间信息及其作用范围内的语句信息进行组合处理,并按照时间顺序进行排序整理得到。更优选地,每个时间信息的作用范围为自该时间信息结束位置开始,至下一时间信息开始位置之前为止。优选地,还包括步骤S6,对步骤S21整理出的语句序列进行分词判别后,使用LDA(LatentDirichletAllocation)主题模型提取并分析文本中主题关键词,并对主题关键词进行加权计数,进行空间可视化与分类分析。优选地,在步骤S22中的所述关键词序列为名词序列。优选地,本专利技术还包括步骤S5,对步骤S22识别出的关键词序列进行时间排序,整理出按时间顺序排列的关键词序列,运用序列模型进行时间信息分析,训练带有病情预测推断功能的网络。其中,序列模型包括LSTM(LongShort-TermMemory)序列模型等多种循环神经网络。优选地,在步骤S3中,可以将关键词的出现情况与被否定情况作为特征向量,其中,特征0代表未出现或出现后被否定,1代表出现且未被否定。进行DLA主题模型分析后,也可以将提取并加权计数后的主题关键词作为特征向量,进行空间可视化与分类分析。优选地,在步骤S3中,基于t-SNE算法进行聚类可视化,运用SVM(SupportVectorMachine)机器学习方法,以诊断结果作为分类标签,对病历进行分类分析。有益效果:本专利技术病历数据结构化分析处理方法使用中文自然语言处理方法,对病历进行结构化分析,能够最大限度地减小病历格式差异对于分析造成的影响,具有普遍适用性,能够广泛运用于各种格式病历的分析;能够为中文病历带来结构化分析的模块,能够在训练数据的引导下对于不同科室的病历进行分类分析;能够为今后病历结构化文本构建基础信息,及病历相关性分析提供参考。本专利技术对文本进行时间信息提取并排序,获得按时间顺序排列的语句序列,并获得按照时间顺序排列的关键词序列,能够保证词语序列是按照病情发展的时间顺序排列,为医生对病情的掌握提供极大的帮助。本专利技术将按照时间顺序排列的关键词序列使用序列模型进行对病情预测任务的训练,完成基于循环神经网络的深度学习处理,尤其适合于对病历数据中同一个人有先后入院病历的样本进行分析。附图说明图1是本专利技术病历数据结构化分析处理方法的流程示意图。具体实施方式下面将结合本专利技术实施例及实施例中的附图,对本专利技术的技术方案进行清楚、完整地描述:图1示意性地示出了本专利技术的病历数据结构化分析处理方法的流程。本专利技术提供的病历数据结构化分析处理方法,包括以下步骤:对原始病历文本进行预处理,得到诊断结果和不含诊断结果的文本;对不含诊断结果的文本进行关键词识别;提取关键词特征向量,进行机器学习、空间可视化与分类分析;根据分析结果计算不同关键词与诊断结果的相关程度。本专利技术使用中文自然语言处理方法,对病历进行结构化分析,能够最大限度地减小病历格式差异对于分析造成的影响,具有普遍适用性,能够广泛运用于各种格式病历的分析;能够为中文病历带来结构化分析的模块,能够在训练数据的引导下对于不同科室的病历进行分类分析;能够为今后病历结构化文本构建基础信息,及病历相关性分析提供参考。作为一个可选实施例,在上述病历结构化的基础上,对不含诊断结果的文本进行时间信息提取并排序,获得按时间顺序排列的语句序列,并获得按时间顺序排列关键词序列。其中,提取出的关键词序列是按照时间顺序进行排列的,而不是按照病历文本的先后顺序,这样能够基本保证这个词语序列是按照病情发展的时间顺序排列,为医生对病情的掌握提供了极大的帮助。下面具体描述引入时间信息序列的病历数据结构化分析处理方法,如图1所示,包括如下步骤:(1)使用规则,对于每份病历,为了保证分析时只分析病情发展,因此从原始病历文本中暂时剔除诊断结果,得到剩余不含诊断结果的文本,以及诊断结果文本;然后,将不含诊断结果的文本提取时间信息,整理出按照时间顺序排列的语句序列。(2)使用现有的英汉医疗词典资源,提取出其中的中文字符文本,并将其作为医疗专业用词词库,使用中文分词工具包,对上一步中提取出的语句序列进行分词与词性判别,识别出关键词序列。(3)将第(2)步中识别出的关键词进行排序,本实施例关键词为名词,整理出按照时间顺序排列的名词/字符序列;将识别出的名词的出现情况与被否定情况作为该病历的特征向量,结构化得到结构化特征向量。(4)使用第(3)步中提取出的结构化特征向量,运用t-SNE方法进行聚类可视化,其中,T-SNE算法是由对称版的SNE(stochasticneighborembedding)算法使用t分布改进而得的;并运用SVM(SupportVectorMachine)等机器学习方法,以诊断结果作为分类标签,对病历进行分类尝试;然后,分析各项特征与最终分类结果的相关性。(5)使用第(3)步中的按照时间顺序排列的名词/字符序列,运用LSTM(LongShort-TermMemory)等序列模型进行时间信息分析,训练带有较基本的病情预测推断功能的网络,完成基于循环神本文档来自技高网...

【技术保护点】
1.一种病历数据结构化分析处理方法,其特征在于,包括以下步骤:S1,对原始病历文本进行预处理,得到诊断结果和不含诊断结果的文本;S2,对不含诊断结果的文本进行关键词识别;S3,提取关键词特征向量,进行空间可视化与分类分析;S4,根据分析结果计算不同关键词与诊断结果的相关程度。

【技术特征摘要】
1.一种病历数据结构化分析处理方法,其特征在于,包括以下步骤:S1,对原始病历文本进行预处理,得到诊断结果和不含诊断结果的文本;S2,对不含诊断结果的文本进行关键词识别;S3,提取关键词特征向量,进行空间可视化与分类分析;S4,根据分析结果计算不同关键词与诊断结果的相关程度。2.如权利要求1所述的病历数据结构化分析处理方法,其特征在于,在步骤S2中,在关键词识别前,还包括对不含诊断结果的文本进行时间信息提取并整理排序步骤。3.如权利要求2所述的病历数据结构化分析处理方法,其特征在于,所述步骤S2包括以下步骤:S21,对不含诊断结果的文本进行时间信息提取,整理出按时间顺序排列的语句序列;S22,对整理出的语句序列进行分词与词性判别,识别出关键词序列。4.如权利要求3所述的病历数据结构化分析处理方法,其特征在于,在步骤S21中,所述语句序列是通过将提取的时间信息及其作用范围内的语句信息进行组合处理,并按照时间顺序进行排序整理得到。5.如权利要求4所述的病历数据结构化分析处理方法,其特征在于,每个时间信息的作用范围为自该时间信息结束位...

【专利技术属性】
技术研发人员:张学工林子坤闾海荣
申请(专利权)人:清华大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1