病历文本数据结构化的文本分词解析方法及系统技术方案

技术编号：28839233 阅读：14 留言：0更新日期：2021-06-11 23:37

本发明专利技术公开了病历文本数据结构化的文本分词解析方法及系统，属于病历数据挖掘技术领域，要解决的技术问题为如何解决传统病历数据中存在的挖掘效率低、精确性差以及不满足病例实体映射关系的缺陷。包括如下步骤：基于医疗文本数据构建医学词库；基于词库词典生成待分词医疗文本数据的所有成词，并基于上述所有成词构建有向无环图；基于上述医学词库和有向无环图，通过动态规划查找最大归零路径查找语句词频的最大切分组合，得到带有前后文顺序和词性的词语集合；通过三元关系模型对上述词语集合进行解析，得到三元映射关系数据组；对上述三元映射关系数据组进行标准化处理，得二元映射关系数据组。

全部详细技术资料下载

【技术实现步骤摘要】
病历文本数据结构化的文本分词解析方法及系统
本专利技术涉及病历数据挖掘
，具体地说是病历文本数据结构化的文本分词解析方法及系统。
技术介绍
医学领域数据具有其特殊性，主要包括诊断、疾病、药物、治疗等类别，癌症专病数据在这些类别基础上，更加关注于和疾病相关的并发症数据、病理及免疫组化数据，和治疗相关的手术、放疗、化疗、靶向治疗、中医治疗数据，和病人相关的家族史、疾病史数据等，这些数据大多为非结构化或者半结构化的文本数据存储于患者病历数据中。数据挖掘主要是利用算法进行相关信息抽取，将非结构化的文本数据转化为计算机可以识别、处理的结构化数据。传统专病数据挖掘，由于数据源少、数据量小的原因，一般由人为手工识别处理，存在效率低、不满足组大数据情况下专病数据治理挖掘的缺点。基于上述分析，如何解决传统病历数据中存在的挖掘效率低、精确性差以及不满足病例实体映射关系的缺陷，是需要解决的技术问题。
技术实现思路
本专利技术的技术任务是针对以上不足，提供病历文本数据结构化的文本分词解析方法及系统，来解决如何解决传统病历数据中存在的挖掘效率低、精确性差以及不满足病例实体映射关系的缺陷的技术问题。第一方面，本专利技术提供一种病历文本数据结构化的文本分词解析方法，包括如下步骤：基于医疗文本数据构建医学词库，所述医学词库包括医学词语、权重和词性，所述词性包括词语传统词性和词语医学词性；基于词库词典生成待分词医疗文本数据的所有成词，并基于上述所有成词构建有向无环图；基...

【技术保护点】
1.病历文本数据结构化的文本分词解析方法，其特征在于包括如下步骤：/n基于医疗文本数据构建医学词库，所述医学词库包括医学词语、权重和词性，所述词性包括词语传统词性和词语医学词性；/n基于词库词典生成待分词医疗文本数据的所有成词，并基于上述所有成词构建有向无环图；/n基于上述医学词库和有向无环图，通过动态规划查找最大归零路径查找语句词频的最大切分组合，得到带有前后文顺序和词性的词语集合；/n基于词语所处位置、词语原本词性以及词语医学词性三个维度构建三元结构数据以及三元结构数据之间的映射关系组成三元关系模型，并通过上述三元关系模型对上述词语集合进行解析，得到三元映射关系数据组；/n对上述三元映射关系数据组进行标准化处理，得二元映射关系数据组，所述二元映射关系数据组匹配标准医疗词典。/n

【技术特征摘要】
1.病历文本数据结构化的文本分词解析方法，其特征在于包括如下步骤：
基于医疗文本数据构建医学词库，所述医学词库包括医学词语、权重和词性，所述词性包括词语传统词性和词语医学词性；
基于词库词典生成待分词医疗文本数据的所有成词，并基于上述所有成词构建有向无环图；
基于上述医学词库和有向无环图，通过动态规划查找最大归零路径查找语句词频的最大切分组合，得到带有前后文顺序和词性的词语集合；
基于词语所处位置、词语原本词性以及词语医学词性三个维度构建三元结构数据以及三元结构数据之间的映射关系组成三元关系模型，并通过上述三元关系模型对上述词语集合进行解析，得到三元映射关系数据组；
对上述三元映射关系数据组进行标准化处理，得二元映射关系数据组，所述二元映射关系数据组匹配标准医疗词典。

2.根据权利要求1所述的病历文本数据结构化的文本分词解析方法，其特征在于所述词语传统词性包括名词、动词、副词和标点；
所述词语医学词性包括诊断、疾病、药品、化疗方案、放疗方案以及称谓。

3.根据权利要求1或2所述的病历文本数据结构化的文本分词解析方法，其特征在于基于医疗文本数据构建医学词库，包括如下步骤：
获取医疗文本数据，通过词库对医疗文本数据进行分词，得到分词结果数据集；
通过TF-IDF算法模型对分词结果数据集进行关键医学词汇抽词，得到抽词结果数据集；
添加医学词汇相关的权重和词性，得到包括医学词语、权重和词性的医学词库。

4.根据权利要求3所述的病历文本数据结构化的文本分词解析方法，其特征在于对抽词结果数据集中连续多个单字进行医学词汇组合拼接后，添加医学词汇相关的权重和词性，得到包括医学词语、权重和词性的医学词库。

5.根据权利要求3所述的病历文本数据结构化的文本分词解析方法，其特征在于对于医学词库中未登录的医疗文本数据，通过基于汉字成词的HMM模型进行分词。

6.病历文本数据结构化的文本分词解析系统，其特征在于通过如权利要求1-5任一项所述的病历文本数据结构化的文本分词解析方法对病历文本数据进行结构化的分词...

【专利技术属性】
技术研发人员：钟信真，左霖，
申请(专利权)人：山东健康医疗大数据有限公司，
类型：发明
国别省市：山东;37

全部详细技术资料下载我是这个专利的主人