一种基于聚类的中药鉴别方法及系统技术方案

技术编号:32021891 阅读:27 留言:0更新日期:2022-01-22 18:42
本发明专利技术公开了一种基于聚类的中药鉴别方法及系统,包括:获取所有待鉴别中药的光谱特征;基于光谱特征,计算距离矩阵和权重有效半径;基于权重有效半径和距离矩阵,计算每个待鉴别中药的权重值;基于权重值在所有待鉴别中药中抽出疑似问题中药,得到剩余待鉴别中药;将剩余待鉴别中药划分到多个簇;确定疑似问题中药的簇归属,并鉴别出问题中药。实现了中药光谱的模式识别,并在大量待鉴别中药中快速发现成分、结构有别的问题中药。结构有别的问题中药。结构有别的问题中药。

【技术实现步骤摘要】
一种基于聚类的中药鉴别方法及系统


[0001]本专利技术涉及中药质量控制
,特别是涉及一种基于聚类的中药鉴别方法及系统。

技术介绍

[0002]本部分的陈述仅仅是提到了与本专利技术相关的
技术介绍
,并不必然构成现有技术。
[0003]现阶段,利用太赫兹光谱研究中药道地性时普遍需要采用聚类算法,原因是中药含有多种化学组分,它们在太赫兹波段的频谱特征叠加到一起失去了标志性的吸收峰,而药物道地性和组分本身又存在复杂的关联,因此直接检测到的中药太赫兹光谱信息既无法直观反映出产地、批次的异同,也不便直接说明任意两个样本之间的亲缘关系。由于聚类算法实现了太赫兹光谱的深度数据挖掘,将样本根据降维后的光谱信息聚成若干个“簇”,研究者得以发现成分、结构有别的特殊样本,由于太赫兹光谱是无损测量,研究者可以针对性地补充色谱、质谱实验分析这些奇异样本的详尽化学组分,从而减小了整体研究成本提升研究效率。
[0004]二维数据的聚类在各类光谱分析中有广泛应用,由于光谱本身是高维数据,样本间的差异与化学组分有非常复杂的关联,光谱分析需要一种数据分析方法能够将高维样本投影到低维空间可视化。二维数据可以在x

y平面描绘,数据的集中度、可划分性、干扰程度易于直观判断,因此成为相关算法研究的首选数据形式。
[0005]但是,现有的聚类方法在用于中药鉴别时均存在一定缺陷。基于划分的聚类(如Kmeans、K

modes和Kmedians)简单高效,但需要设定K值,对初始点、离群点敏感;基于层次的聚类算法可解释性好,但时间复杂度高,贪心算法容易一步错步步错;基于密度的聚类(如DBSCAN)对噪声不敏感,但聚类结果于参数选择关联较高;基于网格的聚类速度快,但参数敏感,无法处理不规则分布的数据,聚类效率与精度有一定的矛盾;基于模型的聚类(如高斯混合型GMM和自组织神经网络SOM)对“类”的划分以概率的形式表现,但执行效率不高;模糊聚类算法对于满足正态分布的数据聚类效果会很好,算法对孤立点是敏感的,但由于不能确保收敛于一个最优解,算法的性能依赖于初始聚类中心,常需要通过其他快速方法获得。

技术实现思路

[0006]为了解决现有技术的不足,本专利技术提供了一种基于聚类的中药鉴别方法及系统,实现了中药光谱的模式识别,并在大量待鉴别中药中快速发现成分、结构有别的问题中药。
[0007]第一方面,本专利技术提供了一种基于聚类的中药鉴别方法;
[0008]一种基于聚类的中药鉴别方法,包括:
[0009]获取所有待鉴别中药的光谱特征;
[0010]基于光谱特征,计算距离矩阵和权重有效半径;
[0011]基于权重有效半径和距离矩阵,计算每个待鉴别中药的权重值;
[0012]基于权重值在所有待鉴别中药中抽出疑似问题中药,得到剩余待鉴别中药;
[0013]将剩余待鉴别中药划分到多个簇;
[0014]确定疑似问题中药的簇归属,并鉴别出问题中药。
[0015]进一步的,所述权重有效半径的计算方法为:
[0016]选择出所述距离矩阵的各列中大于0的最小值;
[0017]将所有最小值中的最大值作为权重有效半径。
[0018]进一步的,所述权重值的具体计算步骤为:
[0019]将需要计算权重值的待鉴别中药的权重有效半径范围内的所有待鉴别中药均作为中心点;
[0020]随机选择一个中心点,选择出该中心点的权重有效半径范围内的所有待鉴别中药;
[0021]按照与该中心点的距离,对所有选择出的待鉴别中药进行降序排序,需要计算权重值的待鉴别中药在该中心点下的权重贡献即为排序序号;
[0022]直到所有的中心被选择,得到需要计算权重值的待鉴别中药在所有中心点下的权重贡献,并对权重贡献进行加和,得到权重值。
[0023]进一步的,所述疑似问题中药为权重值小于设定阈值的待鉴别中药。
[0024]进一步的,所述将剩余待鉴别中药划分到多个簇的具体步骤为:
[0025]步骤601:将剩余待鉴别中药作为待扫描样本集;
[0026]步骤602:从待扫描样本集任选一个点放入第k个簇的队列;
[0027]步骤603:搜索第k个簇的队列中第i个样本的权重有效半径范围内的所有点,得到多个搜索点,然后将第i个样本点从待扫描样本点集合中抽出,并将每一个搜索点与第k个簇的队列已有的样本点进行比较:若已存在于第k个簇的队列中,不处理;若不存在于第k个簇的队列中,将搜索点放入第k个簇的队列的末尾;
[0028]步骤604:检查第k个簇的队列的长度是否等于搜索索引值i,若不等于,则i的值加1,重复步骤603;若等于,则第k个簇的样本划分完毕,并检查待扫描样本集的元素数目是否为0,若不为0,则k的值加1,回到步骤602执行;若为0,则算法停止,最终得到多个簇的初步聚类结果,任意两个簇之间没有交集元素。
[0029]进一步的,所述确定疑似问题中药的簇归属的具体步骤为:
[0030]计算每个疑似问题中药到每个簇的最小距离;
[0031]将每个疑似问题中药判定给与其最小距离最小的簇。
[0032]进一步的,所述鉴别出问题中药的具体步骤为:
[0033]基于所述最小距离,对全部疑似问题中药进行升序排列;
[0034]根据排列次序倒序检查各疑似问题中药,若某个疑似问题中药到其它各簇中疑似问题中药的最小距离,小于该疑似问题中药到本簇中其余疑似问题中药的最小距离,则该疑似问题中药为问题中药。
[0035]第二方面,本专利技术提供了一种基于聚类的中药鉴别系统;
[0036]一种基于聚类的中药鉴别系统,包括:
[0037]数据获取模块,其被配置为:获取所有待鉴别中药的光谱特征;
[0038]权重有效半径计算模块,其被配置为:基于光谱特征,计算距离矩阵和权重有效半
径;
[0039]权重值计算模块,其被配置为:基于权重有效半径和距离矩阵,计算每个待鉴别中药的权重值;
[0040]疑似问题中药抽取模块,其被配置为:基于权重值在所有待鉴别中药中抽出疑似问题中药,得到剩余待鉴别中药;
[0041]簇划分模块,其被配置为:将剩余待鉴别中药划分到多个簇;
[0042]问题中药鉴别模块,其被配置为:确定疑似问题中药的簇归属,并鉴别出问题中药。
[0043]第三方面,本专利技术还提供了一种电子设备,包括:
[0044]存储器,用于非暂时性存储计算机可读指令;以及
[0045]处理器,用于运行所述计算机可读指令,
[0046]其中,所述计算机可读指令被所述处理器运行时,执行上述第一方面所述的方法。
[0047]第四方面,本专利技术还提供了一种存储介质,非暂时性地存储计算机可读指令,其中,当所述非暂时性计算机可读指令由计算机执行时,执行第一方面所述方法的指令。
[0048]与现有技术相比,本专利技术的有益效果是:...

【技术保护点】

【技术特征摘要】
1.一种基于聚类的中药鉴别方法,其特征是,包括:获取所有待鉴别中药的光谱特征;基于光谱特征,计算距离矩阵和权重有效半径;基于权重有效半径和距离矩阵,计算每个待鉴别中药的权重值;基于权重值在所有待鉴别中药中抽出疑似问题中药,得到剩余待鉴别中药;将剩余待鉴别中药划分到多个簇;确定疑似问题中药的簇归属,并鉴别出问题中药。2.如权利要求1所述的一种基于聚类的中药鉴别方法,其特征是,所述权重有效半径的计算方法为:选择出所述距离矩阵的各列中大于0的最小值;将所有最小值中的最大值作为权重有效半径。3.如权利要求1所述的一种基于聚类的中药鉴别方法,其特征是,所述权重值的具体计算步骤为:将需要计算权重值的待鉴别中药的权重有效半径范围内的所有待鉴别中药均作为中心点;随机选择一个中心点,选择出该中心点的权重有效半径范围内的所有待鉴别中药;按照与该中心点的距离,对所有选择出的待鉴别中药进行降序排序,需要计算权重值的待鉴别中药在该中心点下的权重贡献即为排序序号;直到所有的中心被选择,得到需要计算权重值的待鉴别中药在所有中心点下的权重贡献,并对权重贡献进行加和,得到权重值。4.如权利要求1所述的一种基于聚类的中药鉴别方法,其特征是,所述疑似问题中药为权重值小于设定阈值的待鉴别中药。5.如权利要求1所述的一种基于聚类的中药鉴别方法,其特征是,所述将剩余待鉴别中药划分到多个簇的具体步骤为:步骤601:将剩余待鉴别中药作为待扫描样本集;步骤602:从待扫描样本集任选一个点放入第k个簇的队列;步骤603:搜索第k个簇的队列中第i个样本的权重有效半径范围内的所有点,得到多个搜索点,然后将第i个样本点从待扫描样本点集合中抽出,并将每一个搜索点与第k个簇的队列已有的样本点进行比较;若已存在于第k个簇的队列中,不处理;若不存在于第k个簇的队列中,将搜索点放入第k个簇的队列的末尾;步骤604:检查第k个簇的队列的长度是否等于搜索索引值i,若不等于,则i的值加...

【专利技术属性】
技术研发人员:李羿璋刘陵玉王忠民常天英李珂徐文青
申请(专利权)人:山东省科学院自动化研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1