当前位置: 首页 > 专利查询>厦门大学专利>正文

一种基于谱聚类的单分子电输运数据的聚类方法技术

技术编号:24123668 阅读:63 留言:0更新日期:2020-05-13 03:52
一种基于谱聚类的单分子电输运数据的聚类方法,涉及单分子电输运数据。收集所有的单分子电导‑距离曲线数据,对每一条曲线数据都做一维电导柱状统计图;根据感兴趣的电导区间,选取对应区间的电导柱状统计图,作为谱聚类的数据集;根据谱聚类的算法流程,构造相似矩阵A;利用谱聚类的标准流程,选定聚类数K从2~M,对一维电导柱状统计图做聚类,聚成K类;根据CH指标的最大值,获得最优的聚类数K

【技术实现步骤摘要】
一种基于谱聚类的单分子电输运数据的聚类方法
本专利技术涉及单分子电输运数据,尤其是涉及一种基于谱聚类的单分子电输运数据的聚类方法。
技术介绍
目前,扫描隧道裂结(ScanningTunnelingMicroscopeBreakJunction,STM-BJ)技术和机械可控裂结(MechanicallyControllableBreakJunction,MCBJ)技术作为测量单分子电导的常用技术,通过不断的拉伸和靠近两电极对,可以在单次实验中重复获取大量电导-距离曲线数据,即单分子电输运数据。针对这样大量的电导数据,实现高效、可信的数据处理与表征,有助于充分挖掘出数据中与单分子电导有关的信息,为制备分子器件提供数据依据。传统的一维电导柱状统计图(histogram),二维电导——距离柱状统计图仍然发挥着重要作用,但是这种基于所有数据的统计方法,不可避免的有它固有问题:1、细小的事件容易被大的趋势所覆盖,导致无法被注意到;2、当多事件以相同的概率出现时,此方法容易产生错误的信息;3、由于分子结电导的可变性,此方法无法给出裂结实验中具体可能发生多少种事件。针对这些问题,近年来国际上出现了对单分子电输运数据进行聚类分析的方法。2016年,MarioLemmer等人(Lemmer,M.;Inkpen,M.S.;Kornysheva,K.;Long,N.J.;Albrecht,T.NatureCommunications2016,7)提出了基于向量的多参数分类方法(Multi-ParametersVector-basedClassificationprocess,MPVC)对单分子电输运数据中不同电学信号进行分组,但是针对具有多套电导台阶的数据筛选结果较差。2018年,Hamill等人(Hamill,J.M.;Zhao,X.T.;Meszaros,G.;Bryce,M.R.;Arenz,M.PhysRevLett2018,120,016601)提出一种主成分分析方法(PrincipalComponentAnalysis,PCA)来实现两类电导台阶数据的筛选,这仅限于两类,有一定局限性。2019年,Cabosart等人使用聚类算法K-means++作用于单条电导曲线的二维柱状统计图,对OPE3分子的电导曲线做聚类分析;紧接着,Abbassi等人(Cabosart,D.;ElAbbassi,M.;Stefani,D.;Frisenda,R.;Calame,M.;vanderZant,H.S.J.;Perrin,M.L.Appl.Phys.Lett.2019,114)就用此方法研究了卟啉分子的三种电输运轨道。但是,这些方法都没有具体有效的评价指标,都是根据经验获得数据集中的可能的聚类数目。
技术实现思路
本专利技术的目的是提供能够对单分子电输运数据实现自动化的准确的分组并确定具体的分组数目,从而提高单分子电导测量的表征能力,挖掘出更多有效、可信的单分子电导信息,为分子电子学的研究以及制备分子器件提供可靠的数据基础的一种基于谱聚类算法的单分子电输运数据的聚类分析方法。本专利技术包括以下步骤:1)收集所有的单分子电导-距离曲线数据,对每一条曲线数据都做一维电导柱状统计图(histogram);2)根据感兴趣的电导区间,选取对应区间的电导柱状统计图,作为谱聚类的数据集;3)根据谱聚类的算法流程,构造相似矩阵A;在步骤3)中,所述构造相似矩阵A的方法可为:使用一维柱状图两两之间的相关系数Cij都加上1所生成的矩阵,作为谱聚类中的相似矩阵A;即:Aij=Cij+1,i≠j且Aii=0,或Aij=Cij*0.5+0.5,i≠j保证Aij非负即可。4)利用谱聚类的标准流程,选定聚类数K从2~M(M的值根据需要,由人工设定),对一维电导柱状统计图做聚类,聚成K类;5)通过计算聚类的评价指标:Calinski–Harabasz(CH)指标,根据该指标的最大值,获得最优的聚类数Kopt;6)保留步骤4)中聚类数为Kopt的聚类结果,即得到最终的最优的单分子电导-距离曲线数据的聚类结果。本专利技术使用电导-距离曲线的一维电导直方图做谱聚类,并使用聚类的评价指标:Calinski–Harabasz(CH)指标,明确指出电导-距离曲线中含有几类,能够获得更为准确的分子结电导实验测量值。本专利技术应用在测量某个单分子电导的实验数据中,可以准确而有效的获知该单分子最有可能的几套电导值,为研究单分子电输运性质提供可靠的数据资料。附图说明图1为本专利技术实施例的电导-距离曲线示意图。图2为本专利技术实施例的单条电导-距离曲线的一维电导柱状示意图。图3为本专利技术实施例的聚类的评价指标示意图。图4为本专利技术实施例的最优聚类结果的一维电导柱状示意图。图5为本专利技术实施例的碳硼烷分子的示意图。具体实施方式以下实施例将结合附图对本专利技术的技术方案做进一步说明,但是本专利技术的保护范围并不限于这些实施例。凡是不背离本专利技术构思的改变或等同替代均包括在本专利技术的保护范围之内。实施例11.对实验获得的所有单条电导-距离曲线作一维柱状图:如实施例图1,是单条电导-距离曲线的示意图,每条曲线以距离1nm为间隔以示区分。可以看出电导取以10为底的对数后,分布于0.3log(G/G0)到-8log(G/G0)的范围内,将这个范围平均分为300个区间,当曲线中的电导数据落于这些均分的区间中,则计数为1,如此累积统计,则得到单条电导-距离曲线的一维电导柱状图,如实施例图2所示,各个一维电导柱状图,以统计数300为间隔以示区分。本实施例共有N=5353条电导曲线,记为yi(i=1,2,…,5353),于是有5353条一维电导柱状统计图,每个一维电导柱状统计图有300个点。本实施例感兴趣的电导区间设为-7log(G/G0)到-1log(G/G0),因此只筛选此区间的一维电导柱状图,即hi(i=1,2,…,5353),做后续计算。2.根据谱聚类算法,构造相似矩阵A:本实施例中相似矩阵A中的对角元素都为零,即Aii=0,而Aij=0.5Cij+0.5如果i≠j;其中,Cij表示步骤1中感兴趣电导区间的一维电导柱状图hi与hj的相关系数,即:其中<hi>代表柱状图hi的平均值。3.根据谱聚类算法标准流程,本实施例构造的谱聚类的拉普拉斯矩阵为:L=D-1/2AD-1/2-I,其中矩阵D对角阵,对角元素为矩阵A的每一行的求和值,I为单位矩阵,都是N行N列的矩阵。4.计算拉普拉斯矩阵L的特征值与特征向量,并将特征值的从大到小排列,特征向量也对应特征值排列,设为x1,x2,...xN,得到特征向量组成的矩阵X=[x1,x2,...xN]N*N。本实施例采用奇异值分解来完成这一步。5.可以根据需要,选取聚类数K。本实施例选择聚类数K从2~17,对每一个K,取矩阵X的前K列组成本文档来自技高网
...

【技术保护点】
1.一种基于谱聚类的单分子电输运数据的聚类方法,其特征在于包括以下步骤:/n1)收集所有的单分子电导-距离曲线数据,对每一条曲线数据都做一维电导柱状统计图;/n2)根据感兴趣的电导区间,选取对应区间的电导柱状统计图,作为谱聚类的数据集;/n3)根据谱聚类的算法流程,构造相似矩阵A;/n4)利用谱聚类的标准流程,选定聚类数K从2~M,对一维电导柱状统计图做聚类,聚成K类;M的值根据需要,由人工设定;/n5)通过计算聚类的评价指标:Calinski-Harabasz指标,根据该指标的最大值,获得最优的聚类数K

【技术特征摘要】
1.一种基于谱聚类的单分子电输运数据的聚类方法,其特征在于包括以下步骤:
1)收集所有的单分子电导-距离曲线数据,对每一条曲线数据都做一维电导柱状统计图;
2)根据感兴趣的电导区间,选取对应区间的电导柱状统计图,作为谱聚类的数据集;
3)根据谱聚类的算法流程,构造相似矩阵A;
4)利用谱聚类的标准流程,选定聚类数K从2~M,对一维电导柱状统计图做聚类,聚成K类;M的值根据需要,由人工设定;
5)通过计算聚类的评价指标:Calinski-Harabasz指标,根据该指标的最大...

【专利技术属性】
技术研发人员:林禄春洪文晶唐淳潘志超师佳
申请(专利权)人:厦门大学
类型:发明
国别省市:福建;35

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1