基于上下文语义分析的医疗主题管理系统与方法技术方案

技术编号:26261256 阅读:51 留言:0更新日期:2020-11-06 17:58
本发明专利技术涉及计算机技术领域,特别是涉及一种基于上下文语义分析的医疗主题管理系统与方法。该系统包括:数据存储模块,数据预处理模块,NLP词频统计模块,关键词语义分析模块,主题关系处理模块。该系统和方法通过语义计算的方式,对病症相关的数据进行自动的多维影响因素的提取和综合分析,建立医疗语义关键词库,深入分析和挖掘病症与各个影响因素之间的潜在关系,并针对医疗主题进行自适应的综合性分类和管理。本发明专利技术主要用于医疗社区、医疗论坛、电子病历等医疗相关电子资源的管理与分析。

【技术实现步骤摘要】
基于上下文语义分析的医疗主题管理系统与方法
本专利技术涉及计算机
,特别是涉及一种基于上下文语义分析的医疗主题管理系统与方法。
技术介绍
随着医疗信息化的不断深入,医疗数据量呈现指数式增长,传统的医院数字化信息系统及电子健康档案系统已远远不能满足对海量医疗数据的存储处理、分析挖掘以及多元化医疗数据服务等方面的要求,如何从各种类型数据中提取有用的信息,发掘隐藏其间的知识,是当今医疗信息发展的一个重要研究方向。数据挖掘一直是计算机研究领域的一个热门话题。语义分析与文本主题挖掘是数据中获取知识的重要技术,充分利用医疗数据,挖掘潜在的关系,可以有效提高医疗服务水平。经过研究发现,电子病历不同于普通文本数据,电子病历包含大量的医学专业术语,此类术语在生活用语中并不常见,即使在电子病历中,此类医学术语所占比重也较小。传统的数据挖掘类算法难以满足此类电子病历的知识提取要求,在对专业术语提取阶段可能因其生僻性将其当做干扰词直接去除,导致语义分析不准确,提取出的语义关键词不完整,从而影响整个实验结果。数据挖掘类算法主要分为三大类:有监督类,本文档来自技高网...

【技术保护点】
1.基于上下文语义分析的医疗主题管理系统与方法,其特征在于,包括:数据存储模块、数据预处理模块、NLP词频统计模块、关键词语义分析模块和主题关系处理模块;/n所述数据存储模块用于存储原始数据,构造数据库整体;/n所述数据预处理模块基于数据库中的原始数据对数据进行数据清洗,提高原始数据质量,并对数据进行分类处理;/n所述NLP词频统计模块对预处理后的数据进行词频统计,并去除停用词,保存有效关键词,初步构造语义关键词库与生成关键词条;/n所述关键词语义分析模块对初步构造的语义关键词库中的关键词进行权重分析并归类,生成三个有效语义关键词库;/n所述主题关系处理模块,对语义关键词库中的关键词进行主题抽...

【技术特征摘要】
1.基于上下文语义分析的医疗主题管理系统与方法,其特征在于,包括:数据存储模块、数据预处理模块、NLP词频统计模块、关键词语义分析模块和主题关系处理模块;
所述数据存储模块用于存储原始数据,构造数据库整体;
所述数据预处理模块基于数据库中的原始数据对数据进行数据清洗,提高原始数据质量,并对数据进行分类处理;
所述NLP词频统计模块对预处理后的数据进行词频统计,并去除停用词,保存有效关键词,初步构造语义关键词库与生成关键词条;
所述关键词语义分析模块对初步构造的语义关键词库中的关键词进行权重分析并归类,生成三个有效语义关键词库;
所述主题关系处理模块,对语义关键词库中的关键词进行主题抽取并提纯。


2.根据权利要求1所述的基于上下文语义分析的医疗主题管理系统与方法,其特征在于,所述数据存储模块将所有数据整合存储成统一的json字典格式数据。


3.根据权利要求1所述的基于上下文语义分析的医疗主题管理系统与方法,其特征在于,所述数据预处理模块包括数据清洗装置和数据分类装置;
所述数据清洗装置对数据库进行数据清洗,减少噪声数据;
所述数据分类装置将清洗后的数据按照记录抽取,并将每条记录单独存储成一个文件,形成独立的文本文件。


4.根据权利要求1所述的基于上下文语义分析的医疗主题管理系统与方法,其特征在于,所述NLP词频统计模块包括英文分词装置、词性标注装置、停用词去除装置、特殊字符去除装置、词频统计装置和词频存储装置;
所述英文分词装置,按照英文句子中的空格将单词划分;
所述词性标注装置,对划分好的英文单词进行词性标注;
所述停用词去除装置,对英文单词中的停用词进行去除;
所述特殊字符去除装置,对特殊字符进行去除;
所述词频统计装置,对经过上述步骤处理后的英文单词进行词频统计,只保留名词与形容词及其词频,对总文档进行NLP词频统计后得到的词频表定义为wl,对记录型文档进行NLP词频统计后得到的词频表定义为wt1,wt2,…,wtn;
所述词频存储装置,将上述步骤所得词频表按照json字典格式存储,并将单词的词频作为单词的权重存储在词频表中,对wl的词频存储按照权重降序存储,对wt1,wt2,…,wtn的存储按照单词在原始文本中单词顺序存储。


5.根据权利要求1所述的基于...

【专利技术属性】
技术研发人员:周铁华王玲刘文强李建
申请(专利权)人:东北电力大学
类型:发明
国别省市:吉林;22

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1