一个集成机器学习在线分析功能的医疗科研数据库制造技术

技术编号:24353096 阅读:12 留言:0更新日期:2020-06-03 02:00
本发明专利技术整合了近5万例心脏科室(包括心内科及心外科)的真实临床病历数据,其中包括病人的基本信息,病史信息,病程信息,各种生化检验报告,检查报告(心超,颈动脉超声,股动脉超声,肝脾肺超声等)。为了真正切实的解放医生的生产力,在三甲医院主任医师的指导下,本发明专利技术提炼了医生所可能需要用到的各种字段,也就是说,医生不再需要进行枯燥的病历阅读及机械的提炼整理这些字段,本发明专利技术数据库可以提供一站式的医疗病历数据源直接供医生科研工作使用。除了对于医疗病历的结构化整合及有规则地提取外,本发明专利技术还整合了机器学习在线分析功能,如线性回归,逻辑回归,决策树,支持向量机,贝叶斯等。本发明专利技术首创性地整合了结构化医疗数据库及机器学习在线分析功能,为医生的科研工作提供一站式的服务,使医生专心精力于科研工作本身。

A medical research database integrated with machine learning online analysis function

【技术实现步骤摘要】
一个集成机器学习在线分析功能的医疗科研数据库
本专利技术涉及智能化医疗领,具体涉及一种供医疗科研使用的医学数据库的整合,开发,以及机器学习功能的应用。
技术介绍
中国医务工作者在承担临床治疗工作的同时,也要承担科研工作。并且国家将医务工作者的职业发展及晋升考核指标和科研工作的质量和数量联系在一起。从国家层面规定,医生需要发表两篇以上国内期刊论文才能有进一步晋升资格;从医院层面,不同医院有不同的规定,一般来说,需要发表两篇以上SCI论文(有些医院要求影响因子分数达到5分以上)并且获得一项由NSFC承担的奖项才有资格进一步晋升。而在临床医疗的工作量上来说,由于巨大的人口基数,中国的医生是全世界最忙碌的,平均一个医生每天要看100个病人。高强度的临床医疗工作量下,还要兼顾相当的医疗科研工作,这对中国的每一位在岗医生都是一个不小的挑战。根据和多位大学附属大型医院的医生访谈发现,目前医生做科研的数据集普遍来自于自己手工收集,由于非常费时费力,医生不得不使用最小允许的数据量来进行科学推理,比如说几十或者几百。这样导致的结果是,花费了大量的时间精力在数据收集的工作中,且产出的论文由于数据量的局限也不具有足够的科学性。本专利技术整合了近5万例心脏科室(包括心内科及心外科)的真实病历数据,其中包括病人的基本信息,病史信息,病程信息,各种生化检验报告,检查报告(心超,颈动脉超声,股动脉超声,肝脾肺超声等)。在三甲医院主任医师的指导下,我们从中提炼了医生所可能需要用到的各种字段,医生不再需要进行枯燥的病历阅读并机械的提炼整理这些字段,我们的数据库可以提供一站式的医疗病历数据直接供研究分析使用。
技术实现思路
本专利技术从海量真实电子病历中整理出一套结构化数据库,可供医生科研工作使用,为医生免去了手工阅读病历及录入数据的巨大工作量。提供机器学习算法在线分析功能,为便利医生的科研工作提供一站式集成服务。电子病历结构化模块。在Python3.0的开发环境中搭建读取并访问PDF文件的接口。根据资深主任医生指导,列出一张需要提取的病人信息字段明细表,规范所有字段的提取内容。利用正则表达式,自然语言处理的技术手段实现从病历中提取所有需要的字段,并生成一张后台数据表。数据云端呈现及裁剪模块。本专利技术在云端呈现数据库,有很好的访问兼容性供有权限的PC,手机各种浏览终端访问。本专利技术数据库呈现基于B/S架构,数据库采用了SQLServer2012管理系统,Web程序采用ASP.NET技术,能很方便地在运行WindowsServer操作系统服务器的局域网环境下部署。管理员分配给医生相应的账号和密码后,医生可登录系统:查看数据,根据实际需要裁剪数据,下载数据。机器学习在线分析模块。裁剪获得所要研究的数据后,本专利技术提供机器学习在线分析功能,可在线对数据进行分析预测,检验研究假设。提供经典机器学习算法,如:线性回归,逻辑回归,支持向量机,决策树,贝叶斯分析等,并可生成最终分析结果报告,使医生能够在线完成数据挖掘分析预测等科研工作,事半功倍。附图说明为了更清楚的说明本专利技术具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单的介绍。显而易见地,下面描述中的附图是本专利技术的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术的医疗数据库操作界面总览图。图2为本专利技术的系统架构图。具体实施方式电子病历结构化模块。开发语言:Python3.0。开发环境:Pycharm。PDF数据读取接口:PDFminer3K,将PDF电子病历通过该接口读取并转化为文本格式。字段获取技术:正则表达式,自然语言处理技术(词向量)。正则表达式:正则表达式通常被用来检索、替换那些符合某个模式(规则)的文本。对于病历中的规则文本,使用正则表达式技术进行提取:如入院时间:2012-04-2813:33:45,出院时间等。词向量(WordEmbedding)。模型及拟合算法。对于病历中不规则文本,使用词向量算法进行推断。中文分词。词向量化。通过机器学习进行统计推断。计算误差。机器学习,深度学习:运用线性回归,逻辑回归,随机森林,RNN深度学习等算法预测文意。数据云端呈现及剪裁模块。三层架构。对程序的源代码进行适当的分层,可增强程序逻辑的清晰性和可读性,方便程序的问题排查和后期修改。三层架构是一种经典且常用的分层架构,将表示层、业务逻辑层和数据访问层进行逻辑上的分离,且禁止跨层调用,确保各层代码各司其职,增强程序逻辑的清晰度。本专利技术采用面向对象程序设计架构中经典的三层架构,将代码分为数据访问层、业务逻辑层、表示层三层,层与层之间通过实体类和查询条件类贯穿。数据访问层提供了读写数据库的基本方法类,及实体类对应的数据访问类,数据通过该层与SQLServer数据库进行交互;业务逻辑层作为“承上启下”的一层,负责将前台提供的数据加密、转换对应字段后提交给数据访问层,同时负责将数据访问层提供的数据解密、转换为实体类中对应的字段提交给表示层;用户通过访问表示层的ASPX页面操作平台,实现对病理数据的查询。用户校验和数据加解密。病理数据对病理学研究起着基础性作用,与此同时,一旦发生数据泄露,后果不堪设想。因此,通过多种措施,对数据加密,对查询权限进行校验,实为必要。加密技术有MD5、DES等,对不同的数据采用不同的加密方式,以确保数据的保密性、完整性和可用性。为确保数据的安全,本专利技术将数据在数据库中实行加密保存,对数据的读取采用严格的校验措施,主要采取下述措施。本专利技术中,数据库字段的命名不采用实体类中每一项对应的英语单词的方式命名,采用与数据项完全无关的单词命名数据字段。注释只写在实体类和业务逻辑类中,不写在数据库表中,这两层的代码编译混淆后无法反编译,增加读懂数据库表结构的难度,与此同时,打乱字段在数据库中的排序,使数据库中的字段排序和查询的字段排序不一致,提升安全性。本专利技术中,对数据涉及文字说明的信息项,如性别、科室、指标、结果,登录用户的账号、姓名等,实施可逆加密,将这些数据通过DES技术加密写入数据库,读取时用DES技术解密实现读取。对登录用户的密码、住院号等极为敏感、有用但无需查询的数据,用MD5加盐的方式实施不可逆加密。以尽可能提升数据库的安全性。本专利技术中,所有的病理数据,必须在用户登录后,才被允许查询、分析和下载,除管理员或领导角色的用户,每个用户都只能按自己的科室查询自己的信息。登录系统时,增加验证码以防止机器登录。在查询执行前强制校验Session登录状态,正常时方能读取数据。Session保存为一个用户实体类,避免伪造Session方便爬虫抓取的情况发生。数本文档来自技高网
...

【技术保护点】
1.一种医疗电子病历数据采集方法,其特征在于,包括:对医疗电子病历中有价值的信息通过软件编程进行自动化采集;将采集得到的有价值的信息整理为结构化数据。/n

【技术特征摘要】
1.一种医疗电子病历数据采集方法,其特征在于,包括:对医疗电子病历中有价值的信息通过软件编程进行自动化采集;将采集得到的有价值的信息整理为结构化数据。


2.根据权利要求1所述的方法,其特征在于,所述对医疗电子病历中有价值的信息通过软件编程进行自动化采集包括:字符串匹配技术;正则表达式技术;自然语言处理技术。


3.根据权利要求2所述的方法,其特征在于,所述自然语言处理技术包括:词向量转化文意预测技术:线性回归,逻辑回归,随机森林,支持向量机,RNN深度学习。


4.一种医疗病历结构化数据呈现方法,其特征在于,包括:完善的数据库加密保存技术;完善的数据库预留扩充技术;完善的代码混淆技术;完善的云端兼容性技术。


5.根据权利要求4所述的方法,其特征在于,所述完善的数据库加密保存技术包括:数据库字段的命名不采用实体类中每一项对应的英语单词的方式命名,采用与数据项完全无关的单词命名数据字段,与此同时,注释只写在实体类和业务逻辑类中,不写在数据库表中,这两层的代码编译混淆后无法反编译,增加读懂数据库表结构的难度,与此同时,打乱字段在数据库中的排序,使数据库中的字段排序和查询的字段排序不一致,提升安全性,对数据涉及文字说明的信息项,如性别、科室、指标、结果,登录用户的账号、姓名等,实施可逆加密,将这些数据通过DES技术加密写入数据库,读取时用DES技术解密实现读取;对登录用户的密码、住院号等极为敏感、有用但无需查询的数据,用MD5加盐的方式实施不可逆加密,以尽可能提升数据库的安全性;在查询执行前强制校验Session登录状态,正常时方能读取数据;Session保存为一个用户实体类,避免伪造Session方便爬虫抓取的情况发...

【专利技术属性】
技术研发人员:不公告发明人
申请(专利权)人:上海南祎科技服务有限公司
类型:发明
国别省市:上海;31

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1