当前位置: 首页 > 专利查询>山东大学专利>正文

一种疾病数据结构化方法及甲状腺癌风险预测系统技术方案

技术编号:26037068 阅读:52 留言:0更新日期:2020-10-23 21:15
本发明专利技术公开了一种疾病数据结构化方法和甲状腺癌风险预测系统,所述方法包括:根据医学词典,从分布式医疗信息数据库获取疾病大数据队列;所述疾病大数据队列包括身份信息、疾病信息和数据来源;基于疾病大数据队列抽取样本数据集,根据疾病分类标准对样本数据集进行结构化;基于结构化后的样本数据集,对疾病大数据队列中的剩余数据进行结构化。此外,基于结构化后的疾病大数据队列,还抽取了甲状腺癌数据队列,进行了发病风险预测模型,本发明专利技术实现了海量医疗大数据的结构化,且能够实现甲状腺癌发病概率的预测。

【技术实现步骤摘要】
一种疾病数据结构化方法及甲状腺癌风险预测系统
本专利技术属于医疗大数据处理
,尤其涉及一种疾病数据结构化方法及甲状腺癌风险预测系统。
技术介绍
本部分的陈述仅仅是提供了与本公开相关的
技术介绍
信息,不必然构成在先技术。过去几十年来,全球甲状腺癌的发病率显著上升,照此趋势,到2030年甲状腺癌将成为美国第四大常见癌症。我国甲状腺癌的发病率也呈快速增长趋势,已成为严重影响人群健康,特别是女性健康的恶性肿瘤。虽然甲状腺癌的发病率稳步上升,但是死亡率逐渐趋于稳定,甚至很多国家甲状腺癌的死亡率略有下降,而且分化较好的甲状腺癌预后较好,存活率较高,故甲状腺癌的早期诊断有极大的公共卫生学意义。构建甲状腺癌风险预测模型可用于甲状腺癌的早期筛查,为甲状腺癌的个性化干预提供合理的依据。国内外学术界都在积极探索利用医疗大数据开发疾病诊断及疾病分析预测系统,近年来,数据挖掘和机器学习领域中的众多方法也广泛应用于分析电子病历记录。结合医疗数据的自身特性及相关研究情况,目前工作还存在一些问题有待研究,体现在两个方面:1)利用同质信息网络图构建医疗数据描述模型,忽略了数据异质性特点,造成很大程度的语义丢失;2)已有的推理模型主要为定量推理,缺乏对于基于因果关系的定性推理的研究及应用。医疗数据描述模型的不足:在众多特性中,医疗数据的异质性最为突出,数据的覆盖范围前所未有,数据的格式五花八门,数据的来源也纷繁复杂。理顺多源头、多格式、多类型的医疗大数据,对呈爆炸式增长的医疗大数据进行整合和分析,首先需要建立恰当的描述模型,即要求描述模型具有刻画数据之间差异的能力。例如通过一组关联多种类型节点的路径,描述不同类型对象之间连接的不同语义,从而捕捉到更为丰富的语义信息,这样的处理也体现了现实世界中的真实规律。而传统的基于同质图的描述方法,将众多不同类型的数据模型化为无区别的节点,节点之间的连接也不做区别,这样的处理往往忽略了数据类型间差异性,甚至导致很大程度的语义丢失。缺乏对于基于因果关系的综合评判,传统预测模型仅仅给出最终的风险概率,缺少影响指标影响程度的分析,使得用户无法知晓自身的哪些指标导致了这个结果。
技术实现思路
为克服上述现有技术的不足,本专利技术提供了一种疾病数据结构化方法及甲状腺癌风险预测系统,基于多个层级的文本匹配方式,实现了海量数据的结构化。为实现上述目的,本专利技术的一个或多个实施例提供了如下技术方案:一种疾病数据结构化方法,包括以下步骤:根据医学词典,从分布式医疗信息数据库获取疾病大数据队列;所述疾病大数据队列包括身份信息、疾病信息和数据来源;基于疾病大数据队列抽取样本数据集,根据疾病分类标准对样本数据集进行结构化;基于结构化后的样本数据集,对疾病大数据队列中的剩余数据进行结构化。一个或多个实施例提供了一种甲状腺癌风险预测系统,包括:疾病队列获取模块,基于建立的结构化疾病大数据队列,建立甲状腺癌疾病队列;危险指标筛选模块,在甲状腺癌病例中获取甲状腺癌相关疾病变量,与患甲状腺癌事件进行相关性分析,筛选得到危险指标;所述甲状腺癌相关疾病变量包括甲状腺功能亢进、甲状腺炎、甲状腺结节和甲状腺肿;风险预测模型构建模块,基于筛选的危险指标构建甲状腺癌风险预测模型;甲状腺癌概率预测模块,接收发病风险预测请求,调取相关历史疾病数据队列,基于甲状腺癌预测模型获取甲状腺癌发病概率预测结果。以上一个或多个技术方案存在以下有益效果:本专利技术针对来源复杂的医疗大数据,基于多个层级的文本匹配方式,获取样本数据的结构化数据,然后基于样本的结构化数据,完成海量的数据结构化,相较于全部医疗大数据之间与标准数据直接匹配的方式,能够得到更高的结构化率和准确率,且兼顾了结构化的效率。本专利技术在构建了甲状腺癌疾病数据队列的基础上,还建立了甲状腺癌风险预测模型,由于模型的建立基于用户医疗大数据,数据是易于获取的,且仅需要历史数据即可实现预测,无需获取当前的生理参数,适用性强;普通用户也可在不就诊的情况下进行提前预判,能够为用户提供健康建议和就医指导。本专利技术在甲状腺癌风险预测模型的基础上,构建甲状腺癌风险预测系统,可支持保险行业的疾病风险筛查、两核风控。在保险理赔案件中,甲状腺癌是最为高发的重大疾病,客户的逆选择风险影响保险公司经营。基于本专利技术,结合客户简单的历史疾病数据,即可进行个体风险预测,能够实现在保险核保端快速、准确识别具有风险的用户保单,辅助进行保费定价。解决目前保险公司在评估投保人的健康状况以确定保费时,无法排除造假、投保人没有如实表明健康状况或者投保人也不清楚自己是否患病,对健康情况表述不准确,影响保费定价的问题。附图说明构成本专利技术的一部分的说明书附图用来提供对本专利技术的进一步理解,本专利技术的示意性实施例及其说明用于解释本专利技术,并不构成对本专利技术的不当限定。图1为本专利技术实施例中一种疾病数据结构化方法流程图;图2为本专利技术实施例中数据结构化方法流程图。具体实施方式应该指出,以下详细说明都是示例性的,旨在对本专利技术提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本专利技术所属
的普通技术人员通常理解的相同含义。需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本专利技术的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。在不冲突的情况下,本专利技术中的实施例及实施例中的特征可以相互组合。实施例一本实施例提供了一种疾病数据结构化方法,包括以下步骤:步骤1:根据医学词典,从分布式医疗信息数据库获取疾病大数据队列;所述疾病大数据队列包括身份信息、疾病信息和数据来源;所述分布式数据库系统包括布设在各地市的医疗信息数据库。本实施例中,医疗信息数据库包括分布于山东省各地市的全员人口信息数据库、公共卫生数据库、电子病历数据库、医保数据库、健康体检数据库、死因数据库等。其中,所述全员人口信息数据库,包括:居民个人基本信息、社保信息、住房信息和居民诚信失信信息。所述公共卫生数据库,包括:个人健康基本信息、残疾人表、健康体检表、学生体检表、出生医学证明、新生儿家庭访视信息、儿童健康检查信息、产前随访服务信息、分娩记录表、产后访视服务信息、孕检记录表、预防接种卡信息、传染病报告卡、职业病报告卡、食源性疾病卡、死亡医学证明、高血压患者随访表、2型糖尿病患者随访表、重性精神疾病患者管理表、重性精神病患者发病信息、重性精神病患者出院信息、冠心病患者信息、脑卒中患者信息、肿瘤患者信息、肺结核患者随访表、育龄夫妇信息、婚姻信息、生育登记和生育审批信息、妊娠信息、妇女生育史信息、避孕信息、计划生育手术信息、流出人口信息、流入人口信息、门诊摘要信息、住院摘要信息。<本文档来自技高网
...

【技术保护点】
1.一种疾病数据结构化方法,其特征在于,包括以下步骤:/n根据医学词典,从分布式医疗信息数据库获取疾病大数据队列;所述疾病大数据队列包括身份信息、疾病信息和数据来源;/n基于疾病大数据队列抽取样本数据集,根据疾病分类标准对样本数据集进行结构化;/n基于结构化后的样本数据集,对疾病大数据队列中的剩余数据进行结构化。/n

【技术特征摘要】
1.一种疾病数据结构化方法,其特征在于,包括以下步骤:
根据医学词典,从分布式医疗信息数据库获取疾病大数据队列;所述疾病大数据队列包括身份信息、疾病信息和数据来源;
基于疾病大数据队列抽取样本数据集,根据疾病分类标准对样本数据集进行结构化;
基于结构化后的样本数据集,对疾病大数据队列中的剩余数据进行结构化。


2.如权利要求1所述的一种疾病数据结构化方法,其特征在于,所述分布式医疗信息数据库包括:人口信息数据库、公共卫生数据库、电子病历数据库、医保数据库、健康体检数据库、死因数据库。


3.如权利要求1所述的一种疾病数据结构化方法,其特征在于,所述根据疾病分类标准对样本数据集进行结构化包括:
将样本数据中的疾病名称与疾病分类标准中的疾病名称进行对照,将样本数据中的疾病名称进行标准化。


4.如权利要求3所述的一种疾病数据结构化方法,其特征在于,将样本数据中的疾病名称与疾病分类标准中的疾病名称进行对照包括:
(1)名称相同对照:获取疾病名称与疾病分类标准中的疾病名称完全一致的样本数据,将原疾病名称写入标准化名称字段;
(2)名称相似对照:获取疾病名称与疾病分类标准中的疾病名称相似度超过设定阈值的样本数据,将原疾病名称写入标准化名称字段;
(3)包含对照:获取疾病名称与疾病分类标准中的疾病名称存在包含关系的样本数据。


5.如权利要求3所述的一种疾病数据结构化方法,其特征在于,对疾病大数据队列中的剩余数据进行结构化包括:
将疾病名称与样本数据中的原疾病名称进行对照,对于对照成功的数据,将样本数据中相应的标准化疾病名称完成部分写入标准化字段;
对于疾病大数据队列中剩余未标准化的数据,将疾病编码与疾病分类标准中的编码进行对照,对于编码对照成功的数据,将疾病分类标准中的编码相应的疾病名称写入标准化字段。


6.一种甲状腺癌风险预测系统,其特征在于,包括:
疾病队列获取模块,基于权利要求1-5任一项所述方法建立的结构化疾病大数据队列,建立甲状腺癌疾...

【专利技术属性】
技术研发人员:薛付忠季晓康丁荔洁王永超杨帆王燕君杨伟浩王睿朱俊奉刘真周海涛韩君铭王述良
申请(专利权)人:山东大学阳光保险集团股份有限公司康评医疗健康有限公司
类型:发明
国别省市:山东;37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1