病理数据分析方法、装置、设备及存储介质制造方法及图纸

技术编号:24358257 阅读:80 留言:0更新日期:2020-06-03 03:02
本发明专利技术涉及机器学习领域,公开了一种病理数据分析方法、装置、设备及存储介质,其方法包括:获取病理数据样本集的聚类结果;根据聚类结果计算调整轮廓系数;根据聚类结果的调整轮廓系数确定聚类结果的优劣;在聚类结果为优时,获取待处理的病理数据样本;根据聚类结果对待处理的病理数据样本进行分类,并生成与待处理的病理数据样本对应的病理分析数据。本发明专利技术解决了聚类结果评估计算过程中时间复杂度过高的问题,大大减少了评估计算过程中的数据计算量,大大提高聚类结果评估的效率,可以加速对病理数据聚类结果的判定,以快速确定最佳的病理数据聚类结果。

Pathological data analysis methods, devices, equipment and storage media

【技术实现步骤摘要】
病理数据分析方法、装置、设备及存储介质
本专利技术涉及机器学习领域,尤其涉及一种病理数据分析方法、装置、设备及存储介质。
技术介绍
在医学领域,随着技术的发展,医院的管理系统收集了大量病人的病理数据。这些病理数据可以结合聚类算法,将病理数据划分为多个集合,每个集合对应一种病情。这样可帮助医生实现对属于疑难杂症的病人进行确诊。而聚类算法是一种涉及对数据进行无监督分组的一种算法。聚类算法又称聚类分析,是研究数据分类问题的一种统计分析方法,同时也是数据挖掘的一种重要的手段。在给定的数据集中,通过聚类算法将数据集划分成不同的组后,需要对聚类结果进行评价,以评估聚类结果的好坏。轮廓系数(SilhouetteCoefficient)是一种聚类结果评价方法,用于评估无监督聚类算法的效果,以便在聚类过程中用于簇(即分组)的个数的确定。轮廓系数结合聚类的凝聚度(Cohesion)和分离度(Separation)对聚类效果进行评价。轮廓系数的取值范围为[-1,1],值越大,说明聚类效果越好。然而,轮廓系数的时间复杂度非常高,其时间复杂度为n的平方,即O(n2),其中n为样本数。在大规模数据集的处理过程中,聚类结果的轮廓系数计算量非常大,很难在短时间内计算出结果。特别是利用轮廓系数来确定簇的个数时,需要计算多个聚类结果的轮廓系数,整个过程消耗时间更长。在病理数据进行聚类计算后,通常会计算出多个不同的聚类结果。由于病理数据的数量十分庞大,检测指标也有很多,导致用现有的轮廓系数评估病理数据聚类结果常常出现不可预见的错误,或者计算耗时过长,无法及时得到需要的评估结果。
技术实现思路
基于此,有必要针对上述技术问题,提供一种病理数据分析方法,以解决聚类结果评估计算过程中时间复杂度过高的问题,提高聚类结果评估的计算速度,可以快速确定聚类结果的优劣,进而根据聚类结果对病理数据样本进行分类,获得所需要得到的病理分析数据。一种病理数据分析方法,包括:获取病理数据样本集的聚类结果,所述聚类结果将所述病理数据样本集划分为若干个簇,所述簇由多个病理样本点i组成,所述病理数据样本集的病理样本点i的数量大于预设数量阈值;根据所述聚类结果计算各个所述簇的中心点;计算病理样本点i与各个所述簇的中心点的距离;根据所述病理样本点i与各个所述簇的中心点的距离计算所述病理样本点i的调整轮廓系数,计算公式如下:上式中,sc(i)表示病理样本点i的调整轮廓系数;ac(i)表示病理样本点i与其所在簇的中心点的距离;bc(i)表示与病理样本点i最近的簇的中心点与病理样本点i的距离;计算所有所述病理样本点i的调整轮廓系数的平均数,获得所述聚类结果的调整轮廓系数;根据所述聚类结果的调整轮廓系数确定所述聚类结果的优劣;在所述聚类结果为优时,获取待处理的病理数据样本;根据所述聚类结果对所述待处理的病理数据样本进行分类,并生成与所述待处理的病理数据样本对应的病理分析数据。一种病理数据分析装置,包括:获取结果模块,用于获取病理数据样本集的聚类结果,所述聚类结果将所述病理数据样本集划分为若干个簇,所述簇由多个病理样本点i组成,所述病理数据样本集的病理样本点i的数量大于预设数量阈值;中心点计算模块,用于根据所述聚类结果计算各个所述簇的中心点;距离计算模块,用于计算病理样本点i与各个所述簇的中心点的距离;样本点系数计算模块,用于根据所述病理样本点i与各个所述簇的中心点的距离计算所述病理样本点i的调整轮廓系数,计算公式如下:上式中,sc(i)表示病理样本点i的调整轮廓系数;ac(i)表示病理样本点i与其所在簇的中心点的距离;bc(i)表示与病理样本点i最近的簇的中心点与病理样本点i的距离;结果系数计算模块,用于计算所有所述病理样本点i的调整轮廓系数的平均数,获得所述聚类结果的调整轮廓系数;结果评价模块,用于根据所述聚类结果的调整轮廓系数确定所述聚类结果的优劣;获取样本模块,用于在所述聚类结果为优时,获取待处理的病理数据样本;样本分析模块,用于根据所述聚类结果对所述待处理的病理数据样本进行分类,并生成与所述待处理的病理数据样本对应的病理分析数据。一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述病理数据分析方法。一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述病理数据分析方法。上述病理数据分析方法、装置、计算机设备及存储介质,通过获取病理数据样本集的聚类结果,所述聚类结果将所述病理数据样本集划分为若干个簇,所述簇由多个病理样本点i组成,所述病理数据样本集的病理样本点i的数量大于预设数量阈值,以获得聚类分析获得的结果;根据所述聚类结果计算各个所述簇的中心点,以确定每个簇的中心点位置。计算病理样本点i与各个所述簇的中心点的距离,由于只计算病理样本点i与簇中心点的距离,而不是病理样本点i与其他所有病理样本点i的距离,大大减少了计算量。根据所述病理样本点i与各个所述簇的中心点的距离计算所述病理样本点i的调整轮廓系数,以获得单个病理样本点i的调整轮廓系数,计算量比改进前的方法少。计算所有所述病理样本点i的调整轮廓系数的平均数,获得所述聚类结果的调整轮廓系数,由于是求均值运算,计算速度比较快。根据所述聚类结果的调整轮廓系数确定所述聚类结果的优劣,由于可以快速计算出聚类结果的调整轮廓系数,因而可以快速判定聚类结果的优劣,聚类结果的调整轮廓系数越高,则该聚类结果越准确。在所述聚类结果为优时,获取待处理的病理数据样本,以使用聚类结果对病理数据样本进行分类。根据所述聚类结果对所述待处理的病理数据样本进行分类,并生成与所述待处理的病理数据样本对应的病理分析数据,以生成有价值的数据,提示患者存在的病理风险。本专利技术解决了聚类结果评估计算过程中时间复杂度过高的问题,大大减少了评估计算过程中的数据计算量,大大提高聚类结果评估的效率,可以加速对病理数据聚类结果的判定,以快速确定最佳的病理数据聚类结果。附图说明为了更清楚地说明本专利技术实施例的技术方案,下面将对本专利技术实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1是本专利技术一实施例中病理数据分析方法的一应用环境示意图;图2是本专利技术一实施例中病理数据分析方法的一流程示意图;图3是用于比较改进前与改进后的计算路径示意图;图4是本专利技术一实施例中病理数据分析方法的一流程示意图;图5是本专利技术一实施例中病理数据分析方法的一流程示意图;图6是本专利技术一实施例中病理数据分析方法的一流程示意图;图7是本专利技术一实施例中病理数据分析方法的一流程示意图;<本文档来自技高网
...

【技术保护点】
1.一种病理数据分析方法,其特征在于,包括:/n获取病理数据样本集的聚类结果,所述聚类结果将所述病理数据样本集划分为若干个簇,所述簇由多个病理样本点i组成,所述病理数据样本集的病理样本点i的数量大于预设数量阈值;/n根据所述聚类结果计算各个所述簇的中心点;/n计算病理样本点i与各个所述簇的中心点的距离;/n根据所述病理样本点i与各个所述簇的中心点的距离计算所述病理样本点i的调整轮廓系数,计算公式如下:/n

【技术特征摘要】
1.一种病理数据分析方法,其特征在于,包括:
获取病理数据样本集的聚类结果,所述聚类结果将所述病理数据样本集划分为若干个簇,所述簇由多个病理样本点i组成,所述病理数据样本集的病理样本点i的数量大于预设数量阈值;
根据所述聚类结果计算各个所述簇的中心点;
计算病理样本点i与各个所述簇的中心点的距离;
根据所述病理样本点i与各个所述簇的中心点的距离计算所述病理样本点i的调整轮廓系数,计算公式如下:



上式中,sc(i)表示病理样本点i的调整轮廓系数;ac(i)表示病理样本点i与其所在簇的中心点的距离;bc(i)表示与病理样本点i最近的簇的中心点与病理样本点i的距离;
计算所有所述病理样本点i的调整轮廓系数的平均数,获得所述聚类结果的调整轮廓系数;
根据所述聚类结果的调整轮廓系数确定所述聚类结果的优劣;
在所述聚类结果为优时,获取待处理的病理数据样本;
根据所述聚类结果对所述待处理的病理数据样本进行分类,并生成与所述待处理的病理数据样本对应的病理分析数据。


2.如权利要求1所述的病理数据分析方法,其特征在于,所述计算所有所述病理样本点i的调整轮廓系数的平均数,获得所述聚类结果的调整轮廓系数之后,还包括:
计算多个聚类结果的调整轮廓系数;
将调整轮廓系数最高的聚类结果确定为所述病理数据样本集的最优聚类结果。


3.如权利要求1所述的病理数据分析方法,其特征在于,所述计算所有所述病理样本点i的调整轮廓系数的平均数,获得所述聚类结果的调整轮廓系数之后,还包括:
判断所述聚类结果的调整轮廓系数是否大于预设系数阈值;
若所述聚类结果的调整轮廓系数大于预设系数阈值,则将所述聚类结果确定为所述病理数据样本集的优选聚类结果。


4.如权利要求1所述的病理数据分析方法,其特征在于,所述获取聚类结果,所述聚类结果将病理数据样本集划分为若干个簇之前,包括:
获取所述病理数据样本集;
基于K-Means聚类算法计算所述病理数据样本集的所述聚类结果。


5.如权利要求1所述的病理数据分析方法,其特征在于,所述获取聚类结果,所述聚类结果将病理数据样本集划分为若干个簇之前,包括:
获取所述病理数据样本集;
基于凝聚层次聚类算法计算所述病理数据样本集的所述聚...

【专利技术属性】
技术研发人员:蔡金成
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1