基于neighbor2vec的肝癌术后复发风险预测系统技术方案

技术编号:25227457 阅读:32 留言:0更新日期:2020-08-11 23:15
本发明专利技术属于医学数据信息处理技术领域,公开了一种基于neighbor2vec的肝癌术后复发风险预测系统,对原发性医学病例数据异常值以及不相关数据进行剔除,对剩余部分缺失值进行填充,并采用相关系数对病例数据集进行特征选择,得到提取后的病例数据特征;采用得到的特征数据以及原始病例数据中的原发性术后复发与否的数据组成样本数据,用原始数据集中每个病例的最近邻居构成的向量表示该病例,形成向量表数据集;按一定比例划分训练集和测试集及训练。本发明专利技术提出neighbor2vec的思想,通过利用多个近邻的向量集合来表示单一病例,可以作为预测肝癌术后复发的敏感而稳定的方法,估计肝癌的复发率有助于治疗的分配,最终达到安全的预后。

【技术实现步骤摘要】
基于neighbor2vec的肝癌术后复发风险预测系统
本专利技术属于医学数据信息处理
,尤其涉及一种基于neighbor2vec的肝癌术后复发风险预测系统。
技术介绍
目前,肝癌被认为是继肺癌和胃癌之后的第三大癌症死亡原因,肝细胞癌是肝癌中最常见的恶性肿瘤之一。目前的指南建议对孤立性肝癌患者首选手术切除。但肝癌术后复发率仍然很高,没有可靠的临床资料为术后患者提供更好的建议。肝癌患者的资料具有以下特点:1)资料非线性,缺失值多;2)特征维数过高;3)各种影响因素对肝癌术后复发预测的相关性较低。通过上述分析,现有技术存在的问题及缺陷为:(1)传统的线性预测方法不能对非线性数据进行分析,因而对肝癌术后复发风险问题的评估准确度不高。(2)现有技术大多依赖已有经验,但影响肝癌复发的因素过多,凭靠经验很难对其进行准确的判断。(3)由于影响肝癌复发的因素过多,且各影响因素对肝癌术后复发预测的相关性较低,现有技术很难从中发现影响因素的组合规律。(4)存在一些因为复杂的心理变化及病理切缘残留的肝癌复发病例,导致容易出现对单个病例的错误分析。解决以上问题及缺陷的难度为:如何寻找一种可以处理非线性数据,并且可以从数据中寻找规律,建立关系,对数据的依赖较大,对经验的依赖较小的方法。同时如何避免一些因为复杂的心理变化及病理切缘残留的特殊的肝癌复发病例对正确预测的干扰。解决以上问题及缺陷的意义为:本专利技术的方法可以根据患者体检的病理特征,快速准确地帮助医护人员判断肝癌的术后复发风险,有助于治疗的分布,最终达到安全的预后。
技术实现思路
为了解决现有技术存在的问题,本专利技术提供了一种基于neighbor2vec的肝癌术后复发风险预测系统。本专利技术是这样实现的,一种基于neighbor2vec的肝癌术后复发风险预测系统,包括:病例数据特征提取模块,对原发性医学病例数据异常值以及不相关数据进行剔除,对剩余部分缺失值进行填充,并采用Pearson相关系数对病例数据集进行特征选择,得到提取后的病例数据特征;向量表数据集获取模块,采用得到的特征数据以及原始病例数据中的原发性术后复发与否的数据组成样本数据,利用neighbor2vec思想,用原始数据集中每个病例的最近邻居构成的向量表示该病例,形成向量表数据集;数据训练模块,按一定比例划分训练集和测试集,并采用NaiveBayes预测方法对训练数据进行训练;数据测试模块,利用测试数据对训练后的NaiveBayes预测方法进行测试。本专利技术的另一目的在于提供一种基于neighbor2vec的肝癌术后复发风险预测方法包括以下步骤:S1对原发性肝癌患者的医学病例数据异常值以及不相关数据进行剔除,对其它部分缺失值进行填充,并采用Pearson相关系数对病例数据集进行特征选择,得到提取后的病例数据特征;S2采用上一步骤得到的特征数据以及原始病例数据中的原发性肝癌术后复发与否的数据组成样本数据,利用neighbor2vec的思想,用原始数据集中每个病例的前9个最近邻居构成的向量表示该病例,形成向量表数据集;S3按一定比例划分训练集和测试集,并采用NaiveBayes预测方法对训练数据进行训练;S4利用测试数据对训练后的NaiveBayes预测方法进行测试。进一步,所述病人的原始病理特征个数有37个(包含年龄,手术方式,肿瘤个数,AFP,脂肪肝等)。所述步骤S1的具体方法为,对缺失值使用该属性的平均值作为填充数据进行填充,以此来获得更多的实验数据,计算每一属性与原始病例数据中的肝癌术后复发与否情况数据的Pearson系数,并取相关性系数靠前的9个特征作为主要特征。进一步,所述步骤S2的具体方法为,利用KNN方法,分别计算每一个病例样本与数据集中所有样本(除自身外)的欧式距离(Euclideandistance),根据按距离排序所得到的该样本的邻近样本,选取前9个近邻,用这9个样本的标签值的向量集合来表示该样本。进一步,随机将向量集合中的五分之四分为训练数据集,五分之一的分为测试数据集,通过使用该训练集和NavisBayes最优参数组合,构建neighbor2vec-naiveBayes预测方法;进一步,所述步骤S4的具体方法为,利用训练后的neighbor2vec-naiveBayes预测方法在测试数据上进行测试,并计算其准确率(ACC)、TPR、TNR、精确度(precision)和标准差(σ)作为其评价指标,基于所述评价指标函数得到对该预测方法的评价结果。本专利技术的另一目的在于提供一种接收用户输入程序存储介质,所存储的计算机程序使电子设备执行所述基于neighbor2vec的肝癌术后复发风险预测方法,包括:步骤1,对原发性医学病例数据异常值以及不相关数据进行剔除,对剩余部分缺失值进行填充,并采用Pearson相关系数对病例数据集进行特征选择,得到提取后的病例数据特征;步骤2,采用得到的特征数据以及原始病例数据中的原发性术后复发与否的数据组成样本数据,利用neighbor2vec的思想,用原始数据集中每个病例的最近的九个邻居构成的向量表示该病例,形成向量表数据集;步骤3,按一定比例划分训练集和测试集,并采用NaiveBayes预测方法对训练数据进行训练;步骤4,利用测试数据对训练后的NaiveBayes预测方法进行测试。本专利技术的另一目的在于提供一种存储在计算机可读介质上的计算机程序产品,包括计算机可读程序,供于电子装置上执行时,提供用户输入接口以实施所述基于neighbor2vec的肝癌术后复发风险预测方法。本专利技术的另一目的在于提供一种执行所述基于neighbor2vec的肝癌术后复发风险预测方法的计算机。结合上述的所有技术方案,本专利技术所具备的优点及积极效果为:本专利技术对原发性肝癌患者的医学病例数据异常值以及不相关数据进行剔除,对其它部分缺失值进行填充,并采用Pearson相关系数对病例数据集进行特征选择,得到提取后的病例数据特征,采用上一步骤得到的特征数据以及原始病例数据中的原发性肝癌术后复发与否的数据组成样本数据,利用neighbor2vec的思想,用原始数据集中每个病例的前9个最近邻居构成的向量表示该病例,形成向量表数据集,按一定比例划分训练集和测试集,并采用NaiveBayes预测方法对训练数据建立进行训练,利用测试数据对训练后的NaiveBayes预测方法进行测试。通过上述方案,本专利技术提出的neighbor2vec-naiveBayes方法通过利用多个近邻的向量集合来表示单一病例,可以作为预测肝癌术后复发的敏感而稳定的方法,估计肝癌的复发率有助于治疗的分配,最终达到安全的预后。结合实验或试验数据和现有技术对比得到的效果和优点:结果表明,提出的neighbor2vec-naiveBayes方法在准确度、精确度、召回率和标准差方面的性能明显优于其它方法。因此,提出的neigh本文档来自技高网
...

【技术保护点】
1.一种基于neighbor2vec的肝癌术后复发风险预测系统,其特征在于,所述基于neighbor2vec的肝癌术后复发风险预测系统包括:/n病例数据特征提取模块,对原发性医学病例数据异常值以及不相关数据进行剔除,对剩余部分缺失值进行填充,并采用Pearson相关系数对病例数据集进行特征选择,得到提取后的病例数据特征;/n向量表数据集获取模块,采用得到的特征数据以及原始病例数据中的原发性术后复发与否的数据组成样本数据,利用neighbor2vec的思想,用原始数据集中每个病例的最近邻居构成的向量表示该病例,形成向量表数据集;/n数据训练模块,按一定比例划分训练集和测试集,并采用Naive Bayes预测方法对训练数据进行训练;/n数据测试模块,利用测试数据对训练后的Naive Bayes预测方法进行测试。/n

【技术特征摘要】
1.一种基于neighbor2vec的肝癌术后复发风险预测系统,其特征在于,所述基于neighbor2vec的肝癌术后复发风险预测系统包括:
病例数据特征提取模块,对原发性医学病例数据异常值以及不相关数据进行剔除,对剩余部分缺失值进行填充,并采用Pearson相关系数对病例数据集进行特征选择,得到提取后的病例数据特征;
向量表数据集获取模块,采用得到的特征数据以及原始病例数据中的原发性术后复发与否的数据组成样本数据,利用neighbor2vec的思想,用原始数据集中每个病例的最近邻居构成的向量表示该病例,形成向量表数据集;
数据训练模块,按一定比例划分训练集和测试集,并采用NaiveBayes预测方法对训练数据进行训练;
数据测试模块,利用测试数据对训练后的NaiveBayes预测方法进行测试。


2.一种基于neighbor2vec的肝癌术后复发风险预测方法,其特征在于,所述基于neighbor2vec的肝癌术后复发风险预测方法包括:
步骤一,对原发性医学病例数据异常值以及不相关数据进行剔除,对剩余部分缺失值进行填充,并采用Pearson相关系数对病例数据集进行特征选择,得到提取后的病例数据特征;
步骤二,采用得到的特征数据以及原始病例数据中的原发性术后复发与否的数据组成样本数据,利用neighbor2vec的思想,用原始数据集中每个病例的最近邻居构成的向量表示该病例数据,形成向量表数据集;
步骤三,按一定比例划分训练集和测试集,并采用NaiveBayes预测方法对训练数据进行训练;
步骤四,利用测试数据对训练后的NaiveBayes预测方法进行测试。


3.如权利要求1所述的基于neighbor2vec的肝癌术后复发风险预测方法,其特征在于,所述步骤一中,所述原发性医学病例数据包含年龄,手术方式,肿瘤个数,AFP,脂肪肝数据信息;
得到提取后的病例数据特征的方法包括:对缺失值使用该属性的平均值作为填充数据进行填充,以此来获得更多的实验数据,计算每一属性与原始病例数据中的术后复发与否情况数据的Pearson系数,并获得取相关性系数靠前的9个特征数据。


4.如权利要求1所述的基于neighbor2vec的肝癌术后复发风险预测方法,其特征在于,所述步骤二中,利用KNN方法,分别计算每一个病例样本与数据集中所有样本的欧式距离,根据按距离排序所得到的该样本的邻近样本,选取前9个近邻,用这9个样本的标签值的向量集合来表示该样本。


5.如权利要求1所述的基于neighbor2vec的肝癌术后复发风险预测方法,其特征在于,所述KNN方法获取9个最近邻居的方法包括:
(1)对于数据集
D1=(x1,y1),(x2,y2),…,(xn,yn)
其中,xi∈X为实例的特征向量,yi∈Y为实例的类别,i=1,2,...

【专利技术属性】
技术研发人员:陈云亮曹元奎李婕樊俊青刘传礼杨红丽芮法娟张思敏李建新
申请(专利权)人:中国地质大学武汉
类型:发明
国别省市:湖北;42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1