当前位置: 首页 > 专利查询>莫毓昌专利>正文

一种基于自然语言处理框架的电子病历信息抽取系统技术方案

技术编号:19745396 阅读:28 留言:0更新日期:2018-12-12 04:46
本发明专利技术公开了一种基于自然语言处理框架的电子病历信息抽取系统,包括服务器、HIS系统、电子病历与信息抽取模块,所述HIS系统、电子病历、信息抽取模块与服务器之间均为双向电性连接,所述信息抽取模块由抽取规则设定模块、信息处理模块、抽取结果转换模块构成;通过信息处理模块将电子病历中的信息合理转换成可便于GATE抽取的句式结构,使得电子病历中的信息能够被更迅速的抽取,可以协助医生进行临床诊断;通过抽取规则设定模块利用GATE框架中的应用实例组件ANNIE将电子病历中的信息进行进行快速的读取,使电子病历成为可供科研参考的一手数据,提高了电子病历数据的利用率。

【技术实现步骤摘要】
一种基于自然语言处理框架的电子病历信息抽取系统
本专利技术涉及信息工程
,具体为一种基于自然语言处理框架的电子病历信息抽取系统。
技术介绍
目前医院的信息化数据包括完全结构化的数据和半结构化的数据。结构化的数据处理起来相对容易,包括病历号、姓名、年龄等。而电子病历病历(如病程记录和出院小结等)并不是完全结构化的数据,这种文本信息方便表达概念以及事件等,是临床治疗过程的主要记录形式,但它在实际使用中仍存在以下弊端:1.电子病历中的信息不能够以结构化的形式描述,无法被顺利的抽取而形成一套完整有用的可分析数据;2.电子病历中的细信结构形式过于单一,无法提取成为科研提供进一步的研究信息,因此造成了大量的数据闲置性浪费。
技术实现思路
本专利技术的目的在于提供一种基于自然语言处理框架的电子病历信息抽取系统,以解决上述
技术介绍
中提出的问题。为实现上述目的,本专利技术提供如下技术方案:一种基于自然语言处理框架的电子病历信息抽取系统,包括服务器、HIS系统、电子病历与信息抽取模块,所述HIS系统、电子病历、信息抽取模块与服务器之间均为双向电性连接,所述信息抽取模块由抽取规则设定模块、信息处理模块、抽取结果转换模块构成,所述抽取规则设定模块由字段抽取规则模块、句子抽取规则模块与诊状抽取规则模块构成,所述信息处理模块由分词处理模块、词表查询模块与词性标注模块构成,所述抽取结果转换模块由文档转换模块与文档导入模块构成。优选的,所述HIS系统、电子病历、服务器和互联网保持双向传输,互联网保证服务器中数据的实时更新。优选的,所述信息抽取模块基于自然语言处理框架GATE作为基础,并且信息抽取模块主要是通过根据GATE框架所提供的应用实例组件ANNIE来实现电子病历信息的抽取。优选的,所述抽取规则设定模块是基于规则的信息抽取模块,通过JAPE语言定义出的规则实现准确的命名实体识别。优选的,所述字段抽取规则模块与句子抽取规则模块均是利用设置JAPE规则Rule可以精确定义简单的字段与句子的抽取,而诊状抽取规则模块则使利用GATE的中文电子病历信息抽取系统来实现诊状的抽取。优选的,所述信息处理模块中是将电子病历中的信息处理成便于向GATE输入的句式结构,且信息处理模块中的分词处理模块是利用中文分词软件ICTCLAS将电子病历中的信息处理成便于抽取的句式,而词表查询模块是利用HIS系统中的词表进行搜索引用,所述词性标注模块是将具体的词组进行分类标注。优选的,所述抽取结果转换模块是利用文档转换模块将中文电子病历抽取出的XML文档转换成为EXL文档,并且利用文档导入模块将EXL文档导入到SQL数据库。与现有技术相比,本专利技术的有益效果是:本专利技术结构设置合理,功能性强,具有以下优点:1.通过信息处理模块将电子病历中的信息合理转换成可便于GATE抽取的句式结构,使得电子病历中的信息能够被更迅速的抽取,可以协助医生进行临床诊断;2.通过抽取规则设定模块利用GATE框架中的应用实例组件ANNIE将电子病历中的信息进行进行快速的读取,使电子病历成为可供科研参考的一手数据,提高了电子病历数据的利用率;3.诊状抽取规则模块利用GATE的中文电子病历信息抽取系统完成对诊状的精确抽取,使得电子病历中的参考信息可以被更细致的区分提取,提高了医生确诊的效率。附图说明图1为本专利技术系统图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。请参阅图1,本专利技术提供一种技术方案:一种基于自然语言处理框架的电子病历信息抽取系统,包括服务器、HIS系统、电子病历与信息抽取模块,HIS系统、电子病历、信息抽取模块与服务器之间均为双向电性连接,信息抽取模块由抽取规则设定模块、信息处理模块、抽取结果转换模块构成,抽取规则设定模块由字段抽取规则模块、句子抽取规则模块与诊状抽取规则模块构成,信息处理模块由分词处理模块、词表查询模块与词性标注模块构成,抽取结果转换模块由文档转换模块与文档导入模块构成。进一步的,HIS系统、电子病历、服务器和互联网保持双向传输,互联网保证服务器中数据的实时更新。进一步的,信息抽取模块基于自然语言处理框架GATE作为基础,并且信息抽取模块主要是通过根据GATE框架所提供的应用实例组件ANNIE来实现电子病历信息的抽取。进一步的,抽取规则设定模块是基于规则的信息抽取模块,通过JAPE语言定义出的规则实现准确的命名实体识别。进一步的,字段抽取规则模块与句子抽取规则模块均是利用设置JAPE规则Rule可以精确定义简单的字段与句子的抽取,而诊状抽取规则模块则使利用GATE的中文电子病历信息抽取系统来实现诊状的抽取,使医生可以更效率的确诊。进一步的,信息处理模块中是将电子病历中的信息处理成便于向GATE输入的句式结构,且信息处理模块中的分词处理模块是利用中文分词软件ICTCLAS将电子病历中的信息处理成便于抽取的句式,而词表查询模块是利用HIS系统中的词表进行搜索引用,词性标注模块是将具体的词组进行分类标注。进一步的,抽取结果转换模块是利用文档转换模块将中文电子病历抽取出的XML文档转换成为EXL文档,并且利用文档导入模块将EXL文档导入到SQL数据库,使电子病历的信息可以供互联网内更多的查阅参考。工作原理:自然语言处理框架GATE提供通用框架,并且利用基于GATE框架的应用实例组件ANNIE将电子病历中的信息转化成能够被GATE输入接受的句式结构,通过信息处理模块将电子病历中的信息进行分词处理、分句处理、词表查询处理、词性标准设定,利用抽取规则定义模块将电子信息中的字段、句子与诊状进行检索设定成为可供快速提取的句式结构,然后将利用GATE实现中文电子病历抽取的XML文档转换成为更容易导入到SQL数据库的EXL文档,整个提取过程较为简单,并且提取的电子病历的信息准确率较高,为医生进行快速的确诊提供了一个更快捷的通道,并且这些信息可用于科研参考,提高了电子病历的信息利用率。尽管已经示出和描述了本专利技术的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本专利技术的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本专利技术的范围由所附权利要求及其等同物限定。本文档来自技高网...

【技术保护点】
1.一种基于自然语言处理框架的电子病历信息抽取系统,包括服务器、HIS系统、电子病历与信息抽取模块,其特征在于:所述HIS系统、电子病历、信息抽取模块与服务器之间均为双向电性连接,所述信息抽取模块由抽取规则设定模块、信息处理模块、抽取结果转换模块构成,所述抽取规则设定模块由字段抽取规则模块、句子抽取规则模块与诊状抽取规则模块构成,所述信息处理模块由分词处理模块、词表查询模块与词性标注模块构成,所述抽取结果转换模块由文档转换模块与文档导入模块构成。

【技术特征摘要】
1.一种基于自然语言处理框架的电子病历信息抽取系统,包括服务器、HIS系统、电子病历与信息抽取模块,其特征在于:所述HIS系统、电子病历、信息抽取模块与服务器之间均为双向电性连接,所述信息抽取模块由抽取规则设定模块、信息处理模块、抽取结果转换模块构成,所述抽取规则设定模块由字段抽取规则模块、句子抽取规则模块与诊状抽取规则模块构成,所述信息处理模块由分词处理模块、词表查询模块与词性标注模块构成,所述抽取结果转换模块由文档转换模块与文档导入模块构成。2.根据权利要求1所述的一种基于自然语言处理框架的电子病历信息抽取系统,其特征在于:所述HIS系统、电子病历、服务器和互联网保持双向传输,互联网保证服务器中数据的实时更新。3.根据权利要求1所述的一种基于自然语言处理框架的电子病历信息抽取系统,其特征在于:所述信息抽取模块基于自然语言处理框架GATE作为基础,并且信息抽取模块主要是通过根据GATE框架所提供的应用实例组件ANNIE来实现电子病历信息的抽取。4.根据权利要求1所述的一种基于自然语言处理框架的电子病历信息抽取系统,其特征在于:所...

【专利技术属性】
技术研发人员:莫毓昌
申请(专利权)人:莫毓昌
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1