一种基于知识图谱的肝癌术后复发风险的预测方法及装置制造方法及图纸

技术编号:34344246 阅读:60 留言:0更新日期:2022-07-31 04:29
本申请提出一种基于知识图谱的肝癌术后复发风险的预测方法及装置,属于医疗数据预测领域,其中方法包括:针对患者数据进行预处理,得到预处理后数据;针对所述预处理后数据,构建包含肝癌复发相关影响因素、肝癌指标和患者数据的知识图谱;采用XLNet训练模型对所述知识图谱中实体、关系进行训练,得到患者实体和关系的表征向量;根据所述患者实体和关系的表征向量,采用XGB算法进行预测,并用MSE作为损失函数,将损失函数最小的对应预测值,作为肝癌术后复发风险的预测值。系统包括:数据预处理模块、知识图谱构建模块、知识表征训练模块以及手术后复发风险预测模块。本申请提高了风险预测的可靠程度。险预测的可靠程度。险预测的可靠程度。

【技术实现步骤摘要】
一种基于知识图谱的肝癌术后复发风险的预测方法及装置


[0001]本申请属于医疗数据预测领域,具体涉及一种基于知识图谱的肝癌术后复发风险的预测方法及装置。

技术介绍

[0002]肝细胞癌(肝癌)是全球范围内最常见恶性肿瘤之一,位居各种恶性肿瘤发病率第7位,每年约有84.1万新发病例和78.2万人死亡。在我国,肝癌发病率和死亡率分居第4位和第2位。目前肝切除术是其最常用的治疗方法之一,但手术后5年内复发率高达40%~70%,严重威胁患者的长期生存。因此,预测肝癌患者切除术后的复发风险,及早鉴定复发风险高的肝癌患者,并对其尽早实施干预和治疗是非常重要的环节,这会减少肝癌复发的概率,并极大改善肝癌患者的术后预后。
[0003]现有技术方案中,通过试剂盒来预测各基因表达水平,再利用随机森林训练得到各基因的重要度,进而确定风险评分中基因的权重,随机森林算法是用随机的方式建立一个森林,森林由很多决策树组成,随机森林的每一棵决策树之间是没有关联的。在得到森林之后,输入一个新样本,森林中的每一棵决策树分别对其进行判断并分类,被选择最多的一类即预测样本的类型。
[0004]综上所述,现有技术方案在权重的确定和各个基因的选择中,并没有将数据元素链接起来,各个元素是独立的,所得到的预测模型并不能涵盖较为全面的可能复发因素。
[0005]事实证明,图是一种有用的数据结构,主要研究形状和图形数据元素之间的关系。如果将编程问题通过顶点和边表示出来,进而问题可以用图画出来,再利用图算法(如广度优先搜索或深度优先搜索)找到解决方案。
[0006]根据对现有技术的研究,肝癌术后预后模型大多通过机器学习或深度学习建模,但这些方法无法链接数据元素间的关系,如果加入医学知识和数据先验信息,通过节点分类或链接预测来建立深度学习模型,得到的风险预测模型将会更加全面和可靠。

技术实现思路

[0007]针对以上技术不足,本申请提出一种基于知识图谱的肝癌术后复发风险的预测方法及装置,通过构建知识图谱,并进行节点分类或链接预测,从而得到肝癌患者术后复发的风险预测模型。
[0008]第一方面,本申请提出一种基于知识图谱的肝癌术后复发风险的预测方法,包括如下步骤:
[0009]针对患者数据进行预处理,得到预处理后数据;
[0010]针对所述预处理后数据,构建包含肝癌复发相关影响因素、肝癌指标和患者数据的知识图谱;
[0011]采用XLNet训练模型对所述知识图谱中实体、关系进行训练,得到患者实体和关系的表征向量;
[0012]根据所述患者实体和关系的表征向量,采用XGB算法进行预测,并用MSE作为损失函数,将损失函数最小的对应预测值,作为肝癌术后复发风险的预测值。
[0013]所述针对患者数据进行预处理,得到预处理后数据,包括:对肝癌患者电子病历中含有相关参数的数据进行筛选,过滤,去掉特殊符号。
[0014]所述患者数据指电子病历数据,包含肝癌复发相关影响因素、肝癌指标对应的病理信息。
[0015]所述肝癌复发相关影响因素、肝癌指标包括:患者年龄、性别(、中性粒细胞淋巴细胞比率、谷丙转氨酶、谷草转氨酶、甲胎蛋白、乙肝病毒的脱氧核糖核酸定量、白蛋白、乙肝病毒表面抗原、手术时间、术中出血量、术中输血、术后抗病毒治疗、解剖性肝切除、肝硬化、肿瘤直径、肿瘤数目、肿瘤包膜、肝炎状态、门静脉癌栓、肿瘤切缘、肿瘤分化程度、局灶坏死、巴塞罗那临床肝癌分期、TNM分期、影像学相关检查以及术后复发时间。
[0016]所述知识图谱利用属性图表示,即图数据库Neo4J实现的图结构表示模型。
[0017]所述图结构表示模型包括:肝癌通过关系与N个参数相连接;N个参数分别通过不同的映射与M个特征相连接;M个特征通过关系分别与P个病理相连接。
[0018]所述构建包含肝癌复发相关影响因素、肝癌指标和患者数据的知识图谱,包括如下步骤:
[0019]对预处理后的数据进行SpERT模型训练,获得肝癌及对应肝癌指标之间关系的表征向量,并采用已经训练完成的SpERT模型对肝癌及对应肝癌指标进行实体、关系和属性抽取,得到抽取结果;
[0020]对抽取出结果进行数据离散化、相同字段单位归一化、实体的标准化,得到标准化后结果;
[0021]将标准化后结果与肝癌复发相关影响因素进行映射,将映射后的结果也作为实体,得到最终的三元组,所述最终的三元组作为包含肝癌复发相关影响因素、肝癌指标和患者数据的知识图谱。
[0022]采用已经训练完成的SpERT模型对肝癌及对应肝癌指标进行实体、关系和属性抽取,得到抽取结果,取包括如下步骤:
[0023]针对实体进行分类;
[0024]对分类后的实体进行过滤;
[0025]对过滤后的实体与实体之间的关系进行分类。
[0026]所述针对实体进行分类包括:定义一个融合函数来融合嵌入后的向量,使用softmax分类器进行分类。
[0027]所述对分类后的实体进行过滤指过滤实体类型为None和长度超过阈值的实体。
[0028]所述对过滤后的实体与实体之间的关系进行分类,包括:在两个相邻实体之间,通过预训练的语言表征模型和最大池化获得一个语义嵌入c(S1,S2);通过两个单位向量对S1和S2的顺序进行处理;将处理后的结果经过一个单层分类器;通过交叉熵与二元交叉熵的和为关系分类和实体分类的损失函数,得到实体、关系和属性的抽取结果。
[0029]所述数据离散化含义为:按照离散化标准,将对应数值化数据离散为离散化标准的数据。
[0030]所述相同字段单位归一化含义为:将相同字段不同单位的数据统一到同一单位。
[0031]所述实体的标准化含义为:将名称不同但代表同一含义的实体统一为一个标准名称。
[0032]所述采用XLNet训练模型对所述知识图谱中实体、关系进行训练,得到患者实体和关系的表征向量,包括:基于自回归语言模型,建立似然函数;当模型只有一层时,使用查询流公式,当模型有多层时,使用内容流公式。
[0033]所述损失函数定义为:
[0034][0035]其中,i为每一个样本号,n为每一个batch总样本数,y
i
为术后复发时间真实值,为术后复发时间预测值。
[0036]第二方面,本申请提出一种基于知识图谱的肝癌术后复发风险的预测装置,包括:数据预处理模块、知识图谱构建模块、知识表征训练模块以及手术后复发风险预测模块;
[0037]所述数据预处理模块、知识图谱构建模块、知识表征训练模块以及手术后复发风险预测模块依次顺序相连接;
[0038]所述数据预处理模块用于针对患者数据进行预处理,得到预处理后数据;
[0039]所述知识图谱构建模块用于针对所述预处理后数据,构建包含肝癌复发相关影响因素、肝癌指标和患者数据的知识图谱;
[0040]所述知识表征训练模块用于采用XLNet训练模型对所述知识图谱中实体、关系进行训练,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于知识图谱的肝癌术后复发风险的预测方法,其特征在于,包括如下步骤:针对患者数据进行预处理,得到预处理后数据;针对所述预处理后数据,构建包含肝癌复发相关影响因素、肝癌指标和患者数据的知识图谱;采用XLNet训练模型对所述知识图谱中实体、关系进行训练,得到患者实体和关系的表征向量;根据所述患者实体和关系的表征向量,采用XGB算法进行预测,并用MSE作为损失函数,将损失函数最小的对应预测值,作为肝癌术后复发风险的预测值。2.如权利要求1所述的基于知识图谱的肝癌术后复发风险的预测方法,其特征在于,所述知识图谱利用属性图表示,即图数据库Neo4J实现的图结构表示模型。3.如权利要求2所述的基于知识图谱的肝癌术后复发风险的预测方法,其特征在于,所述图结构表示模型包括:肝癌通过关系与N个参数相连接;N个参数分别通过不同的映射与M个特征相连接;M个特征通过关系分别与P个病理相连接。4.如权利要求1所述的基于知识图谱的肝癌术后复发风险的预测方法,其特征在于,所述构建包含肝癌复发相关影响因素、肝癌指标和患者数据的知识图谱,包括如下步骤:对预处理后的数据进行SpERT模型训练,获得肝癌及对应肝癌指标之间关系的表征向量,并采用已经训练完成的SpERT模型对肝癌及对应肝癌指标进行实体、关系和属性抽取,得到抽取结果;对抽取出结果进行数据离散化、相同字段单位归一化、实体的标准化,得到标准化后结果;将标准化后结果与肝癌复发相关影响因素进行映射,将映射后的结果也作为实体,得到最终的三元组,所述最终的三元组作为包含肝癌复发相关影响因素、肝癌指标和患者数据的知识图谱。5.如权利要求4所述的基于知识图谱的肝癌术后复发风险的预测方法,其特征在于,所述采用已经训练完成的SpERT模型对肝癌及对应肝癌指标进行实体、关系和属性抽取,得到抽取结果,包括如下步骤:针对实体进行分类;对分类后的实体进行过滤;对过滤后的实体与实体之间的关系进行分类。6.一种基于知识图谱的肝癌术后复发风险的预测装置,包括:数据预处理模块、知识图谱构建模块、知识表征训练模块以及手术后复发风险预测模块;所述数据预处理模块、知识图谱构建模块、知识表征训练模块以及手术后复发...

【专利技术属性】
技术研发人员:谈佳凌王瑞国汤晨晓张林许娟
申请(专利权)人:神州医疗科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1