医疗风险因子人群分类的方法、终端及计算机存储介质技术

技术编号:31615588 阅读:21 留言:0更新日期:2021-12-29 18:48
本发明专利技术涉及风险评估技术领域,提供一种医疗风险因子人群分类的方法、终端及计算机存储介质,所述方法包括:步骤100,从公开医院电子病历系统,获取医疗数据信息;步骤200,对获取的医疗数据信息,进行命名实体识别和语义关系抽取,构建医学知识图谱;步骤300,将知识图谱转换为对偶关系图,采用标签传播算法推理出所有节点的标签情况,得到医疗风险分类模型;步骤400,在分类后的社区内,使用改进的GCN网络并基于图谱和注意力算法,进行关联关系推理,用来修正整个网络的风险标签。本发明专利技术能够提高保险行业的医疗风险因子人群分类效果。保险行业的医疗风险因子人群分类效果。保险行业的医疗风险因子人群分类效果。

【技术实现步骤摘要】
医疗风险因子人群分类的方法、终端及计算机存储介质


[0001]本专利技术涉及风险评估
,尤其涉及一种医疗风险因子人群分类的方法、终端及计算机存储介质。

技术介绍

[0002]保险行业不同于常规的统计学意义的根据疾病的人群分类,根据疾病名称或者根据疾病症形分类,目前通行的做法是根据ICD编码分类以及DRG分类,这些分类方法都是基于诊疗阶段医生主动分类,但是保险行业需要精准计算所在的某个人群未来疾病的发展走向,需要结合判断既往症信息,估算所在的人群的整体特征并且对未来可能的风险进行量化预估,目前没有一种同时兼顾群体分析和个人分析的成熟方法,用来解决保险行业的医疗风险量化的问题。因此适用于保险行业的医疗风险因子人群分类,成为一个急需解决的问题。
[0003]目前保险行业中主要使用传统统计学方法进行人群分类,根据既往统计学方法根据疾病大中小类所产生的疾病费用,结合所在的地区年龄性别信息,粗略划分人群,这种方法优点是有完备的数据支持,缺点是人工查阅资料整理数据投入非常大,人群的颗粒度非常粗,一般只能有4

5个风险因子(性别、年龄、行政区、疾病类别),分类效果不好。

技术实现思路

[0004]本专利技术主要解决目前保险行业中主要使用传统统计学方法进行人群分类,数据投入非常大,分类效果不好等技术问题,提出一种医疗风险因子人群分类的方法、终端及计算机存储介质,以达到提高保险行业的医疗风险因子人群分类效果。
[0005]本专利技术提供一种医疗风险因子人群分类的方法,包括以下过程
[0006]步骤100,从公开医院电子病历系统,获取医疗数据信息;
[0007]步骤200,对获取的医疗数据信息,进行命名实体识别和语义关系抽取,构建医学知识图谱;
[0008]步骤300,将知识图谱转换为对偶关系图,采用标签传播算法推理出所有节点的标签情况,得到医疗风险分类模型;
[0009]步骤400,在分类后的社区内,使用改进的GCN网络并基于图谱和注意力算法,进行关联关系推理,用来修正整个网络的风险标签。
[0010]进一步的,所述步骤200,包括:
[0011]步骤201,对获取的医疗数据信息,采用BiLSTM

CRF模型对中文进行名称实体识别,获得待选实体;
[0012]步骤202,使用BiGRU

Attention模型进行语义关系抽取,得到待选实体关系;
[0013]步骤203,对所述待选实体实体和待选实体关系进行融合,形成知识图谱;
[0014]步骤204,对计算得到的知识图谱,储存到存储介质中。
[0015]进一步的,所述步骤300,包括:
[0016]步骤301,按照以下公式将知识图谱转换为GCN网络,GCN网络可以用以下公式表示:
[0017][0018]其中,σ表示激活函数,表示加了自环的度矩阵,表示加了自环的邻接矩阵,H
l
表示原始特征矩阵,W
l
表示变换矩阵。结构化数据为一组时间序列数据;
[0019]步骤302,根据得到的GCN网络,应用基于模块度优化的标签传播社区算法进行社区分类,得到医疗风险分类模型。
[0020]进一步的,所述步骤302,包括:
[0021]步骤3021,将GCN网络中所有节点初始化为唯一且不同的社区标签;
[0022]步骤3022,依次更新每个节点的社区标签,直到更新指定的K次或者模块度不再增加为止,将结果作为后续标签传播的初始划分;
[0023]步骤3023,将所有节点进行随机排列,依次更新所有节点的社区标签,更新为邻居节点中出现频率最高的社区标签,若多个社区标签频率同时最高,则随机选择;
[0024]步骤3024,重复步骤3023,直到所有的节点社区标签都与其邻居节点中出现频率最高的社区标签相同,得到分类模型。
[0025]进一步的,所述步骤400,包括:
[0026]步骤401,使用关系感知双图卷积网络,将步骤300中得到的分类模型,根据医疗疾病发展路径图谱进行实体对齐;
[0027]步骤402,基于注意力机制的图卷积网络模型的知识图谱推理算法,推理实体的关联关系,利用注意力机制学习知识图谱中实体节点的邻域实体信息,为邻域中的不同实体指定不同权重,采用GCN的参数共享技术学习实体的相邻关系特征。
[0028]对应的,本专利技术还提供一种终端,包括采集终端和计算模型终端;
[0029]所述采集终端定时读取医疗EMR系统内数据;
[0030]所述计算机终端,包括:处理器和存储器;
[0031]所述存储器用于存储计算机程序,所述处理器运行所述计算机;所述处理器运行计算机程序,所述计算机程序执行本专利技术任意实施例提供的医疗风险因子人群分类的方法。
[0032]对应的,本专利技术还提供一种计算机存储介质,所述计算机存储介质存储所述计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时使所述处理器执行本专利技术任意实施例提供的医疗风险因子人群分类的方法。
[0033]本专利技术提供的一种医疗风险因子人群分类的方法、终端及计算机存储介质,在分布不均衡的数据集中预测依旧能保持模型预测的高稳定性,另一方面能有效解决人群分类颗粒度问题,能将粗粒度数据更精细化,将每个社区大小控制在有效范围内,过去人群分布一般按年龄段区分、地区按就医省市区分,本专利技术不再局限于粗粒度的统计维度,可以更进一步的细化,可以到社区、年龄段、疾病的具体分型分症等更为细致的颗粒度,能够提高医疗风险因子人群分类效果。本专利技术可以适用于保险行业,一方面能解决样本分布的问题,对正负样本不在要求一定要平衡,甚至可以负样本只有个例,只有极小概率发生理赔,降低发生骗保的可能性。
附图说明
[0034]图1是本专利技术提供的医疗风险因子人群分类的方法的实现流程图;
[0035]图2是BiLSTM

CRF模型示意图;
[0036]图3是BiGRU

Attention模型示意图;
[0037]图4是RDGCN模型的示意图;
[0038]图5是Attention

GCN模型的流程示意图。
具体实施方式
[0039]为使本专利技术解决的技术问题、采用的技术方案和达到的技术效果更加清楚,下面结合附图和实施例对本专利技术作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本专利技术,而非对本专利技术的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本专利技术相关的部分而非全部内容。
[0040]如图1所示,本专利技术实施例提供的医疗风险因子人群分类的方法,包括以下过程:
[0041]步骤100,从公开医院电子病历系统,获取医疗数据信息。
[0042]从公开医院电子病历(Electronic Medical Record,EMR)系统采集医疗本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种医疗风险因子人群分类的方法,其特征在于,包括以下过程:步骤100,从公开医院电子病历系统,获取医疗数据信息;步骤200,对获取的医疗数据信息,进行命名实体识别和语义关系抽取,构建医学知识图谱;步骤300,将知识图谱转换为对偶关系图,采用标签传播算法推理出所有节点的标签情况,得到医疗风险分类模型;步骤400,在分类后的社区内,使用改进的GCN网络并基于图谱和注意力算法,进行关联关系推理,用来修正整个网络的风险标签。2.根据权利要求1所述的医疗风险因子人群分类的方法,其特征在于,所述步骤200,包括:步骤201,对获取的医疗数据信息,采用BiLSTM

CRF模型对中文进行名称实体识别,获得待选实体;步骤202,使用BiGRU

Attention模型进行语义关系抽取,得到待选实体关系;步骤203,对所述待选实体实体和待选实体关系进行融合,形成知识图谱;步骤204,对计算得到的知识图谱,储存到存储介质中。3.根据权利要求1所述的医疗风险因子人群分类的方法,其特征在于,所述步骤300,包括:步骤301,按照以下公式将知识图谱转换为GCN网络,GCN网络可以用以下公式表示:其中,σ表示激活函数,表示加了自环的度矩阵,表示加了自环的邻接矩阵,H
l
表示原始特征矩阵,W
l
表示变换矩阵。结构化数据为一组时间序列数据;步骤302,根据得到的GCN网络,应用基于模块度优化的标签传播社区算法进行社区分类,得到医疗风险分类模型。4.根据权利要求3所述的医疗风险因子人群分类的方法,其...

【专利技术属性】
技术研发人员:邢静黄可望王竞袁洁豆正磊
申请(专利权)人:上海商涌科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1