一种医学数据处理方法及系统技术方案

技术编号:21606798 阅读:64 留言:0更新日期:2019-07-13 18:39
本发明专利技术涉及一种医学数据处理方法及系统,所述方法包括:接口模块获取多个医学知识文档数据;训练模块通过长短期记忆网络模型和随机场算法模型生成识别模型;识别模型用于识别医学知识文档数据中的实体数据和实体关系数据;训练模块获取多个医学知识文档数据,将多个医学知识文档数据输入识别模型,训练识别模型,根据识别模型识别到的实体数据和实体关系数据构建医学知识图谱,并输出;医学知识图谱包括多个实体融合数据;应用模块接收用户输入的医学知识获取指令;医学知识获取指令包括实体数据;应用模块根据医学知识获取指令从医学知识图谱中获取与医学知识获取指令中的实体数据相对应的实体融合数据,并输出。

A Medical Data Processing Method and System

【技术实现步骤摘要】
一种医学数据处理方法及系统
本专利技术涉及数据处理
,尤其涉及一种医学数据处理方法。
技术介绍
随着科学的发展以及社会的进步,人们已经越来越依赖于互联网应用搜索相关信息了。目前,在医疗领域的信息化建设中,搜索医疗知识的相关方法主要还是通过建立各类业务的数据中心,直接获取数据中心中的医疗数据。但采用这种方法所获取的医疗知识数据比较片面,并且由于数据量较少,数据中知识点关联性也比较薄弱,因此用户很难通过这种方法获取与搜索问题针对性高的答案。
技术实现思路
本专利技术的目的是针对现有技术的缺陷,提供一种医学数据处理方法,通过长短期记忆网络模型和随机场算法模型识别将各个医学文档中的实体,将实体与实体的部分关系可量化,建立识别模型,并构建医学知识图谱,从而实现向应用层提供推理后的、相应的应用服务,使得所提供的数据更为全面,数据中知识点关联性更深,针对性更强。为实现上述目的,在第一方面,本专利技术提供了一种医学数据处理方法,所述方法包括:接口模块接收多个医学知识文档数据;训练模块通过长短期记忆网络模型和随机场算法模型生成识别模型;所述识别模型用于识别医学知识文档数据中的实体数据和实体关系数据;所述训练模块获取所述多个医学知识文档数据,将所述多个医学知识文档数据输入所述识别模型,训练所述识别模型,根据所述识别模型识别到的所述实体数据和所述实体关系数据构建医学知识图谱,并输出;所述医学知识图谱包括多个实体融合数据;应用模块接收用户输入的医学知识获取指令;所述医学知识获取指令包括所述实体数据;所述应用模块根据所述医学知识获取指令从所述医学知识图谱中获取与所述医学知识获取指令中的实体数据相对应的实体融合数据,并输出。优选的:所述接口模块包括多个文档接口;所述医学知识文档数据包括文档标识;每个所述文档接口对应一个所述文档标识,用以所述接口模块通过各个文档接口获取各个医学知识文档数据。进一步优选的,所述文档接口包括:开放医疗与健康联盟接口、临床术语标准接口、医学语言接口、药品说明书接口、医疗机构接口、医学文献接口、科普文章接口和自定义接口中的一个或多个。优选的,所述训练模块通过长短期记忆网络模型和随机场算法模型具体用于:确定所述多个医学知识文档数据中的单个词频和多词频共现频率,从而实现弱监督和无监督。优选的,所述实体融合数据包括:所述实体数据、所述实体数据的实体关系数据和实体数据的数据源。进一步优选的,在所述构建医学知识图谱之前,所述方法还包括:所述训练模块根据所述多个医学知识文档数据生成所述实体数据的数据源。进一步优选的,所述根据识别模型识别到的实体数据和实体关系数据构建医学知识图谱具体为:根据所述多个医学知识文档数据训练所述识别模型,得到多个医疗数据库;所述医疗数据库中包括所述实体数据的数据源;根据所述到多个医疗数据库构建医学知识图谱。优选的,在所述构建医学知识图谱之后,所述方法还包括:根据新的医学知识文档数据训练所述识别模型,更新所述医学知识图谱。在第二方面,本专利技术提供的一种医学数据处理系统,包括如上述第一方面所述的接口模块、训练模块和应用模块。本专利技术实施例提供的医学数据处理方法,通过长短期记忆网络模型和随机场算法模型识别将各个医学文档中的实体,将实体与实体的部分关系可量化,建立识别模型,并构建医学知识图谱,从而实现向应用层提供推理后的、相应的应用服务,使得所提供的数据更为全面,数据中知识点关联性更深,针对性更强。附图说明图1为本专利技术实施例提供的医学数据处理方法的流程图;图2为本专利技术实施例提供的医学数据处理系统的示意图。具体实施方式下面通过附图和实施例,对本专利技术的技术方案做进一步的详细描述。本专利技术实施例首先提供了一种医学数据处理方法,实现于医学数据处理系统中,用于将例如疾病、症状、饮食等关于医学领域的知识实体识别出来,并量化实体与实体之间的关系,从而向应用层提供例如疾病自诊、导诊、康养等问题的答案推理。其方法流程图如图1所示,包括如下步骤:步骤110,接口模块获取多个医学知识文档数据;具体的,医学数据处理系统中的接口模块可以理解为用于接收相关医疗知识文档的模块。接口模块包括多个文档接口,每个文档接口对应一个文档标识。文档标识可以理解为文档来源入口标识。每个医学知识文档数据均包括一个文档标识,用以接口模块通过各个文档接口获取相应的各个医学知识文档数据。在一些具体的例子中,文档接口包括;开放医疗与健康联盟(Omaha联盟)接口、临床术语标准(SnomedCT)接口、医学语言(UnifiedMedicalLanguageSystem,UMLS)接口、药品说明书接口、医疗机构接口、医学文献接口、科普文章接口和自定义接口中的一个或多个。通过这些文档接口,训练模块可以获取到Omaha联盟中的医学知识文档数据、SnomedCT中的医学知识文档数据、UMLS中的医学知识文档数据、药品说明书、医疗机构数据库中的医学知识文档数据、医学文献、科普文章和自由文本。在接口模块获取到多个医学知识文档数据后,将医学知识文档数据发送至医学数据处理系统中的训练模块。训练模块可以理解为系统中用于对数据进行识别、训练的模块。步骤120,训练模块通过长短期记忆网络模型和随机场算法模型生成识别模型;具体的,长短期记忆网络(LongShort-TermMemory,LSTM)模型可以理解为一种特殊的循环神经网络(RecurrentNeuralNetwork,RNN)模型,RNN模型可以利用模型内部的记忆来处理任意时序的输入序列,从而对不分段的文字、语音等内容进行识别。而LSTM模型相对于RNN模型在于它在算法中加入了一个判断信息有用与否的处理过程,一个医学知识文档数据进入LSTM模型中,可以根据规则来判断医学知识文档数据中的各个信息是否有用。只有符合算法认证的信息才会留下。随机场算法(ConditionalRandomFieldalgorithm,CRF)模型是一种无向图模型,其联合概率可以写成若干势函数联乘的形式,其中最常用的是线性链条件随机场。CRF模型的学习过程就是描述一些句子中的特征配置,例如,当前词语是“xx”,上个词“xx”,满足这种配置的,特征函数输出就是1,不然是0。一个句子中每个词都有同样多的特征函数判断,预测的过程就是利用每种特征配置给词性标记打分,然后打分结果加权求和,打分最高的词性标记,就是预测结果。训练模块通过长短期记忆网络模型和随机场算法模型生成识别模型,也可以理解为,训练模块中的用于识别医学知识文档数据中的实体数据和实体关系数据的识别模型,是由LSTM模型和CRF模型构成的。通过LSTM模型和CRF模型确定多个医学知识文档数据中的单个词频和多词频共现频率,从而识别医学知识文档数据中的实体数据和实体关系数据,使得识别模型用于可以用于识别医学知识文档数据中的实体数据和实体关系数据。这里,实体数据可以理解为指某个领域范畴内的名词或单元的统称,例如疾病领域中的感冒、高血压、糖尿病等,或是症状领域中的发烧、头痛等。实体关系数据可以理解为量化后的两个实体之间的关系。两个实体间的关系可以如:疾病与症状的包含关系(具体例如疾病-包含-症状中的感冒-包含-流鼻涕/头痛的关系),实体关系数据可以如疾病与症状的几率量化关系(具体例如症状-引起疾病权重本文档来自技高网...

【技术保护点】
1.一种医学数据处理方法,其特征在于,所述方法包括:接口模块接收多个医学知识文档数据;训练模块通过长短期记忆网络模型和随机场算法模型生成识别模型;所述识别模型用于识别医学知识文档数据中的实体数据和实体关系数据;所述训练模块获取所述多个医学知识文档数据,将所述多个医学知识文档数据输入所述识别模型,训练所述识别模型,根据所述识别模型识别到的所述实体数据和所述实体关系数据,构建医学知识图谱,并输出;所述医学知识图谱包括多个实体融合数据;应用模块接收用户输入的医学知识获取指令;所述医学知识获取指令包括所述实体数据;所述应用模块根据所述医学知识获取指令从所述医学知识图谱中获取与所述医学知识获取指令中的实体数据相对应的实体融合数据,并输出。

【技术特征摘要】
1.一种医学数据处理方法,其特征在于,所述方法包括:接口模块接收多个医学知识文档数据;训练模块通过长短期记忆网络模型和随机场算法模型生成识别模型;所述识别模型用于识别医学知识文档数据中的实体数据和实体关系数据;所述训练模块获取所述多个医学知识文档数据,将所述多个医学知识文档数据输入所述识别模型,训练所述识别模型,根据所述识别模型识别到的所述实体数据和所述实体关系数据,构建医学知识图谱,并输出;所述医学知识图谱包括多个实体融合数据;应用模块接收用户输入的医学知识获取指令;所述医学知识获取指令包括所述实体数据;所述应用模块根据所述医学知识获取指令从所述医学知识图谱中获取与所述医学知识获取指令中的实体数据相对应的实体融合数据,并输出。2.根据权利要求1所述的医学数据处理方法,其特征在于:所述接口模块包括多个文档接口;所述医学知识文档数据包括文档标识;每个所述文档接口对应一个所述文档标识,用以所述接口模块通过各个文档接口获取各个医学知识文档数据。3.根据权利要求2所述的医学数据处理方法,其特征在于,所述文档接口包括:开放医疗与健康联盟接口、临床术语标准接口、医学语言接口、药品说明书接口、医疗机构接口、医学文献接口、科普文章接口和自定义接口中的一个...

【专利技术属性】
技术研发人员:邵飞虎郝玲风高源
申请(专利权)人:北京博瑞彤芸文化传播股份有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1