病历文本数据结构化的文本分词解析方法及系统技术方案

技术编号:28839233 阅读:11 留言:0更新日期:2021-06-11 23:37
本发明专利技术公开了病历文本数据结构化的文本分词解析方法及系统,属于病历数据挖掘技术领域,要解决的技术问题为如何解决传统病历数据中存在的挖掘效率低、精确性差以及不满足病例实体映射关系的缺陷。包括如下步骤:基于医疗文本数据构建医学词库;基于词库词典生成待分词医疗文本数据的所有成词,并基于上述所有成词构建有向无环图;基于上述医学词库和有向无环图,通过动态规划查找最大归零路径查找语句词频的最大切分组合,得到带有前后文顺序和词性的词语集合;通过三元关系模型对上述词语集合进行解析,得到三元映射关系数据组;对上述三元映射关系数据组进行标准化处理,得二元映射关系数据组。

【技术实现步骤摘要】
病历文本数据结构化的文本分词解析方法及系统
本专利技术涉及病历数据挖掘
,具体地说是病历文本数据结构化的文本分词解析方法及系统。
技术介绍
医学领域数据具有其特殊性,主要包括诊断、疾病、药物、治疗等类别,癌症专病数据在这些类别基础上,更加关注于和疾病相关的并发症数据、病理及免疫组化数据,和治疗相关的手术、放疗、化疗、靶向治疗、中医治疗数据,和病人相关的家族史、疾病史数据等,这些数据大多为非结构化或者半结构化的文本数据存储于患者病历数据中。数据挖掘主要是利用算法进行相关信息抽取,将非结构化的文本数据转化为计算机可以识别、处理的结构化数据。传统专病数据挖掘,由于数据源少、数据量小的原因,一般由人为手工识别处理,存在效率低、不满足组大数据情况下专病数据治理挖掘的缺点。基于上述分析,如何解决传统病历数据中存在的挖掘效率低、精确性差以及不满足病例实体映射关系的缺陷,是需要解决的技术问题。
技术实现思路
本专利技术的技术任务是针对以上不足,提供病历文本数据结构化的文本分词解析方法及系统,来解决如何解决传统病历数据中存在的挖掘效率低、精确性差以及不满足病例实体映射关系的缺陷的技术问题。第一方面,本专利技术提供一种病历文本数据结构化的文本分词解析方法,包括如下步骤:基于医疗文本数据构建医学词库,所述医学词库包括医学词语、权重和词性,所述词性包括词语传统词性和词语医学词性;基于词库词典生成待分词医疗文本数据的所有成词,并基于上述所有成词构建有向无环图;基于上述医学词库和有向无环图,通过动态规划查找最大归零路径查找语句词频的最大切分组合,得到带有前后文顺序和词性的词语集合;基于词语所处位置、词语原本词性以及词语医学词性三个维度构建三元结构数据以及三元结构数据之间的映射关系组成三元关系模型,并通过上述三元关系模型对上述词语集合进行解析,得到三元映射关系数据组;对上述三元映射关系数据组进行标准化处理,得二元映射关系数据组,所述二元映射关系数据组匹配标准医疗词典。作为优选,所述词语传统词性包括名词、动词、副词和标点;所述词语医学词性包括诊断、疾病、药品、化疗方案、放疗方案以及称谓。作为优选,基于医疗文本数据构建医学词库,包括如下步骤:获取医疗文本数据,通过词库对医疗文本数据进行分词,得到分词结果数据集;通过TF-IDF算法模型对分词结果数据集进行关键医学词汇抽词,得到抽词结果数据集;添加医学词汇相关的权重和词性,得到包括医学词语、权重和词性的医学词库。作为优选,对抽词结果数据集中连续多个单字进行医学词汇组合拼接后,添加医学词汇相关的权重和词性,得到包括医学词语、权重和词性的医学词库。作为优选,对于医学词库中未登录的医疗文本数据,通过基于汉字成词的HMM模型进行分词。第二方面,本专利技术提供一种病历文本数据结构化的文本分词解析系统,通过如第一方面任一项所述的病历文本数据结构化的文本分词解析方法对病历文本数据进行结构化的分词和解析,所述系统包括:医学词库构建模块,所述医学词库构建模块用于基于医疗文本数据构建医学词库,所述医学词库包括医学词语、权重和词性,所述词性包括词语传统词性和词语医学词性;分词模型构建模块,所述分词模型构建模块用于基于词库词典生成待分词医疗文本数据的所有成词,并基于上述所有成词构建有向无环图;分词模块,所述分词模块用于基于上述医学词库和有向无环图,通过动态规划查找最大归零路径查找语句词频的最大切分组合,得到带有前后文顺序和词性的词语集合;三元解析模块,所述三元解析模块用于基于词语所处位置、词语原本词性以及词语医学词性三个维度构建三元结构数据以及三元结构数据之间的映射关系组成三元关系模型,并通过上述三元关系模型对上述词语集合进行解析,得到三元映射关系数据组;标准化模块,所述标准化模块用于对上述三元映射关系数据组进行标准化处理,得二元映射关系数据组,所述二元映射关系数据组匹配标准医疗词典。作为优选,所述词语传统词性包括名词、动词、副词和标点;所述词语医学词性包括诊断、疾病、药品、化疗方案、放疗方案以及称谓。作为优选,医学词库构建模块用于通过如下步骤基于医疗文本数据构建医学词库:获取医疗文本数据,通过词库对医疗文本数据进行分词,得到分词结果数据集;通过TF-IDF算法模型对分词结果数据集进行关键医学词汇抽词,得到抽词结果数据集;对抽词结果数据集中连续多个单字进行医学词汇组合拼接;添加医学词汇相关的权重和词性,得到包括医学词语、权重和词性的医学词库。作为优选,对于医学词库中未登录的医疗文本数据,所述分词模块用于通过基于汉字成词的HMM模型进行分词。第三方面,本专利技术提供一种计算机可读介质,所述计算机可读介质上存储有计算机指令,所述计算机指令在被处理器执行时,使所述处理器执行第一方面任一所述的方法。本专利技术的病历文本数据结构化的文本分词解析方法及系统具有以下优点:1、基于构建的医学词库以及有向无环图进行分词得到词语集合,并通过构建的三元关系模型对词语集合进行解析,得到三元映射关系数据组,基于标准医疗词典对三元映射关系数据组进行标准化处理,得到符合标准医疗词典的二元映射关系数据组,实现了病历文本数据的结构化分词以及词汇解析,既满足传了统医学数据需求,也满足了专病挖掘的特殊需求,减少人工识别和手动重复性工作,解决人工挖掘效率低和传统医疗数据挖掘不满足专病实体映射关系需求;2、构建医学词库过程中,对于对抽词结果数据集中连续多个单字进行医学词汇组合拼接,使得得到的医学词汇更加精确;3、进行分词时,对于医学词库中未登录的医疗文本数据,通过基于汉字成词的HMM模型进行分词,提高了分词精确性。附图说明为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。下面结合附图对本专利技术进一步说明。图1为实施例1病历文本数据结构化的文本分词解析方法的流程框图。具体实施方式下面结合附图和具体实施例对本专利技术作进一步说明,以使本领域的技术人员可以更好地理解本专利技术并能予以实施,但所举实施例不作为对本专利技术的限定,在不冲突的情况下,本专利技术实施例以及实施例中的技术特征可以相互结合。本专利技术实施例提供病历文本数据结构化的文本分词解析方法及系统,用于解决如何解决传统病历数据中存在的挖掘效率低、精确性差以及不满足病例实体映射关系的缺陷的技术问题。实施例1:本专利技术的病历文本数据结构化的文本分词解析方法,包括如下步骤:S100、基于医疗文本数据构建医学词库,上述医学词库包括医学词语、权重和词性,上述词性包括词语传统词性和词语医学词性;基于词本文档来自技高网...

【技术保护点】
1.病历文本数据结构化的文本分词解析方法,其特征在于包括如下步骤:/n基于医疗文本数据构建医学词库,所述医学词库包括医学词语、权重和词性,所述词性包括词语传统词性和词语医学词性;/n基于词库词典生成待分词医疗文本数据的所有成词,并基于上述所有成词构建有向无环图;/n基于上述医学词库和有向无环图,通过动态规划查找最大归零路径查找语句词频的最大切分组合,得到带有前后文顺序和词性的词语集合;/n基于词语所处位置、词语原本词性以及词语医学词性三个维度构建三元结构数据以及三元结构数据之间的映射关系组成三元关系模型,并通过上述三元关系模型对上述词语集合进行解析,得到三元映射关系数据组;/n对上述三元映射关系数据组进行标准化处理,得二元映射关系数据组,所述二元映射关系数据组匹配标准医疗词典。/n

【技术特征摘要】
1.病历文本数据结构化的文本分词解析方法,其特征在于包括如下步骤:
基于医疗文本数据构建医学词库,所述医学词库包括医学词语、权重和词性,所述词性包括词语传统词性和词语医学词性;
基于词库词典生成待分词医疗文本数据的所有成词,并基于上述所有成词构建有向无环图;
基于上述医学词库和有向无环图,通过动态规划查找最大归零路径查找语句词频的最大切分组合,得到带有前后文顺序和词性的词语集合;
基于词语所处位置、词语原本词性以及词语医学词性三个维度构建三元结构数据以及三元结构数据之间的映射关系组成三元关系模型,并通过上述三元关系模型对上述词语集合进行解析,得到三元映射关系数据组;
对上述三元映射关系数据组进行标准化处理,得二元映射关系数据组,所述二元映射关系数据组匹配标准医疗词典。


2.根据权利要求1所述的病历文本数据结构化的文本分词解析方法,其特征在于所述词语传统词性包括名词、动词、副词和标点;
所述词语医学词性包括诊断、疾病、药品、化疗方案、放疗方案以及称谓。


3.根据权利要求1或2所述的病历文本数据结构化的文本分词解析方法,其特征在于基于医疗文本数据构建医学词库,包括如下步骤:
获取医疗文本数据,通过词库对医疗文本数据进行分词,得到分词结果数据集;
通过TF-IDF算法模型对分词结果数据集进行关键医学词汇抽词,得到抽词结果数据集;
添加医学词汇相关的权重和词性,得到包括医学词语、权重和词性的医学词库。


4.根据权利要求3所述的病历文本数据结构化的文本分词解析方法,其特征在于对抽词结果数据集中连续多个单字进行医学词汇组合拼接后,添加医学词汇相关的权重和词性,得到包括医学词语、权重和词性的医学词库。


5.根据权利要求3所述的病历文本数据结构化的文本分词解析方法,其特征在于对于医学词库中未登录的医疗文本数据,通过基于汉字成词的HMM模型进行分词。


6.病历文本数据结构化的文本分词解析系统,其特征在于通过如权利要求1-5任一项所述的病历文本数据结构化的文本分词解析方法对病历文本数据进行结构化的分词...

【专利技术属性】
技术研发人员:钟信真左霖
申请(专利权)人:山东健康医疗大数据有限公司
类型:发明
国别省市:山东;37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1