基于neighbor2vec的肝癌术后复发风险预测系统技术方案

技术编号：25227457 阅读：32 留言：0更新日期：2020-08-11 23:15

本发明专利技术属于医学数据信息处理技术领域，公开了一种基于neighbor2vec的肝癌术后复发风险预测系统，对原发性医学病例数据异常值以及不相关数据进行剔除，对剩余部分缺失值进行填充，并采用相关系数对病例数据集进行特征选择，得到提取后的病例数据特征；采用得到的特征数据以及原始病例数据中的原发性术后复发与否的数据组成样本数据，用原始数据集中每个病例的最近邻居构成的向量表示该病例，形成向量表数据集；按一定比例划分训练集和测试集及训练。本发明专利技术提出neighbor2vec的思想，通过利用多个近邻的向量集合来表示单一病例，可以作为预测肝癌术后复发的敏感而稳定的方法，估计肝癌的复发率有助于治疗的分配，最终达到安全的预后。

全部详细技术资料下载

【技术实现步骤摘要】
基于neighbor2vec的肝癌术后复发风险预测系统
本专利技术属于医学数据信息处理
，尤其涉及一种基于neighbor2vec的肝癌术后复发风险预测系统。
技术介绍
目前，肝癌被认为是继肺癌和胃癌之后的第三大癌症死亡原因，肝细胞癌是肝癌中最常见的恶性肿瘤之一。目前的指南建议对孤立性肝癌患者首选手术切除。但肝癌术后复发率仍然很高，没有可靠的临床资料为术后患者提供更好的建议。肝癌患者的资料具有以下特点：1)资料非线性，缺失值多；2)特征维数过高；3)各种影响因素对肝癌术后复发预测的相关性较低。通过上述分析，现有技术存在的问题及缺陷为：(1)传统的线性预测方法不能对非线性数据进行分析，因而对肝癌术后复发风险问题的评估准确度不高。(2)现有技术大多依赖已有经验，但影响肝癌复发的因素过多，凭靠经验很难对其进行准确的判断。(3)由于影响肝癌复发的因素过多，且各影响因素对肝癌术后复发预测的相关性较低，现有技术很难从中发现影响因素的组合规律。(4)存在一些因为复杂的心理变化及病理切缘残留的肝癌复发病例，导致容易出现对单个病例的错误分析。解决以上问题及缺陷的难度为：如何寻找一种可以处理非线性数据，并且可以从数据中寻找规律，建立关系，对数据的依赖较大，对经验的依赖较小的方法。同时如何避免一些因为复杂的心理变化及病理切缘残留的特殊的肝癌复发病例对正确预测的干扰。解决以上问题及缺陷的意义为：本专利技术的方法可以根据患者体检的病理特征，快速准确地帮助医护人员判断肝癌的术后复发风...

【技术保护点】
1.一种基于neighbor2vec的肝癌术后复发风险预测系统，其特征在于，所述基于neighbor2vec的肝癌术后复发风险预测系统包括：/n病例数据特征提取模块，对原发性医学病例数据异常值以及不相关数据进行剔除，对剩余部分缺失值进行填充，并采用Pearson相关系数对病例数据集进行特征选择，得到提取后的病例数据特征；/n向量表数据集获取模块，采用得到的特征数据以及原始病例数据中的原发性术后复发与否的数据组成样本数据，利用neighbor2vec的思想，用原始数据集中每个病例的最近邻居构成的向量表示该病例，形成向量表数据集；/n数据训练模块，按一定比例划分训练集和测试集，并采用Naive Bayes预测方法对训练数据进行训练；/n数据测试模块，利用测试数据对训练后的Naive Bayes预测方法进行测试。/n

【技术特征摘要】
1.一种基于neighbor2vec的肝癌术后复发风险预测系统，其特征在于，所述基于neighbor2vec的肝癌术后复发风险预测系统包括：
病例数据特征提取模块，对原发性医学病例数据异常值以及不相关数据进行剔除，对剩余部分缺失值进行填充，并采用Pearson相关系数对病例数据集进行特征选择，得到提取后的病例数据特征；
向量表数据集获取模块，采用得到的特征数据以及原始病例数据中的原发性术后复发与否的数据组成样本数据，利用neighbor2vec的思想，用原始数据集中每个病例的最近邻居构成的向量表示该病例，形成向量表数据集；
数据训练模块，按一定比例划分训练集和测试集，并采用NaiveBayes预测方法对训练数据进行训练；
数据测试模块，利用测试数据对训练后的NaiveBayes预测方法进行测试。

2.一种基于neighbor2vec的肝癌术后复发风险预测方法，其特征在于，所述基于neighbor2vec的肝癌术后复发风险预测方法包括：
步骤一，对原发性医学病例数据异常值以及不相关数据进行剔除，对剩余部分缺失值进行填充，并采用Pearson相关系数对病例数据集进行特征选择，得到提取后的病例数据特征；
步骤二，采用得到的特征数据以及原始病例数据中的原发性术后复发与否的数据组成样本数据，利用neighbor2vec的思想，用原始数据集中每个病例的最近邻居构成的向量表示该病例数据，形成向量表数据集；
步骤三，按一定比例划分训练集和测试集，并采用NaiveBayes预测方法对训练数据进行训练；
步骤四，利用测试数据对训练后的NaiveBayes预测方法进行测试。

3.如权利要求1所述的基于neighbor2vec的肝癌术后复发风险预测方法，其特征在于，所述步骤一中，所述原发性医学病例数据包含年龄，手术方式，肿瘤个数，AFP，脂肪肝数据信息；
得到提取后的病例数据特征的方法包括：对缺失值使用该属性的平均值作为填充数据进行填充，以此来获得更多的实验数据，计算每一属性与原始病例数据中的术后复发与否情况数据的Pearson系数，并获得取相关性系数靠前的9个特征数据。

4.如权利要求1所述的基于neighbor2vec的肝癌术后复发风险预测方法，其特征在于，所述步骤二中，利用KNN方法，分别计算每一个病例样本与数据集中所有样本的欧式距离，根据按距离排序所得到的该样本的邻近样本，选取前9个近邻，用这9个样本的标签值的向量集合来表示该样本。

5.如权利要求1所述的基于neighbor2vec的肝癌术后复发风险预测方法，其特征在于，所述KNN方法获取9个最近邻居的方法包括：
(1)对于数据集
D1＝(x1,y1),(x2,y2),…,(xn,yn)
其中，xi∈X为实例的特征向量，yi∈Y为实例的类别，i＝1,2,...

【专利技术属性】
技术研发人员：陈云亮，曹元奎，李婕，樊俊青，刘传礼，杨红丽，芮法娟，张思敏，李建新，
申请(专利权)人：中国地质大学武汉，
类型：发明
国别省市：湖北;42

全部详细技术资料下载我是这个专利的主人