当前位置: 首页 > 专利查询>湖南大学专利>正文

一种结合信息粒融合和证据推理的蛋白质聚类方法技术

技术编号:36083858 阅读:25 留言:0更新日期:2022-12-24 10:58
本发明专利技术提供一种结合信息粒融合和证据推理的蛋白质聚类方法,通过将细胞中的蛋白质序列数据的信息粒化,基于相交关系进行蛋白质序列数据的信息粒融合,基于密度传播进行蛋白质序列数据的粒簇融合,基于距离进行蛋白质序列数据的粒群融合,计算稳定样本的证据值,计算不稳定样本的证据值,根据证据值分配蛋白质序列样本所属类别,提高蛋白质亚细胞定位预测的准确度,从而便于生物信息学家对各亚细胞结构中的特定蛋白质进行判断或设计、或对蛋白质的功能进行预测。功能进行预测。功能进行预测。

【技术实现步骤摘要】
一种结合信息粒融合和证据推理的蛋白质聚类方法


[0001]本专利技术涉及生物信息学中的蛋白质组学领域,具体涉及一种结合信息粒融合和证据推理的聚类分析方法。

技术介绍

[0002]蛋白质亚细胞定位是蛋白质组学中的重要方向之一。亚细胞是比细胞更细化的结构,一般需要通过电子显微镜观察其结构,其特点是位于细胞内,彼此功能各异、空间相互隔离,但共同协调并维持细胞的完整功能。以真核细胞为例,其亚细胞结构可分为11类,细胞骨架、细胞质基质、内质网、内体、细胞外间隙、高尔基体、线粒体、细胞核、过氧化物酶体、细胞膜和液泡。每种亚细胞为其结构内存在的特定蛋白质提供相对独立的生命活动场所,以便于蛋白质行使各项功能。蛋白质亚细胞定位是指蛋白质在细胞内的具体存在部位,即蛋白质在哪种亚细胞结构中。由于各种蛋白质只有在各自特定的亚细胞结构中才能行使功能和进行代谢,若蛋白质定位出现偏差,则细胞功能会受到消极影响,因此,对蛋白质亚细胞定位进行研究是具有显著重要意义的。因为,位于同一种亚细胞中的蛋白质的结构和功能往往相似,所以,可以通过分析蛋白质的结构,将功能相似的蛋白质聚为一类本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种结合信息粒融合和证据推理的蛋白质聚类方法,其特征在于,包括:步骤1:将细胞中的蛋白质序列数据的信息粒化,根据预设参数k,基于各蛋白质序列样本的稀疏度sd(x
i
),对蛋白质序列数据集U进行信息粒化,生成一组g个信息粒{G1,G2,...,G
g
};其中,蛋白质序列数据集U={x1,x2,...,x
n
}由n个蛋白质序列样本组成,每个蛋白质序列样本x
i
包含w个属性信息{x
i1
,x
i2
,...,x
iw
};k取值为k取值为表示非整数的向上取整,c为给定的簇数,一个簇表示一个亚细胞结构种类,簇数表示亚细胞结构种类数量;各蛋白质序列样本的稀疏度是同时度量蛋白质序列样本的全局密度和局部密度的信息粒度,其中,为使蛋白质序列样本的相对密度最大的邻域半径,度量蛋白质序列样本全局密度,为各蛋白质序列样本在不同邻域半径下的相对密度,|
·
|表示集合的基数,各蛋白质序列样本在不同邻域半径下的邻域δ(x
i
,d
ij
)={x
z
|x
z
∈U,d(x
i
,x
z
)≤d
ij
},蛋白质序列样本x
i
和x
j
之间的欧氏距离d(x
i
,x
j
)=d
ij
=||x
i

x
j
||2,i,j=1,2,...,n且i≠j,为蛋白质序列样本的k近邻半径,度量蛋白质序列样本局部密度,表示蛋白质序列样本x
i
的第k个近邻;对于每个信息粒G,存在蛋白质序列样本x
i
,使得,使得且|G|=k,并且,即信息粒G是一个以x
i
为中心、为半径的超球,内含有k个蛋白质序列样本,且中心x
i
的稀疏度是最小的;步骤2:基于相交关系进行蛋白质序列数据的信息粒融合,若任意两个信息粒相交|G
i
∩G
j
|≥1,即两个信息粒存在共同的蛋白质序列样本,则融合这两个信息粒,每一对信息粒融合完毕后,一组信息粒{G1,G2,...,G
g
}转化成一组g
*
个粒簇步骤3:基于密度传播进行蛋白质序列数据的粒簇融合,针对任一个粒簇GC
a
以及与其距离最近的粒簇GC
b
,若sd
*
(GC
a
)≥sd
*
(GC
b
),即GC
b
的密度大于GC
a
的密度,则融合这两个粒簇,每个粒簇均融合完毕后,一组粒簇转化成一组g

个粒群{GF1,GF2,...,GF
g

};其中,任意两个粒簇之间的距离d
*
(GC
a
,GC
b
)=min{d
ij
|x
i
∈GC
a...

【专利技术属性】
技术研发人员:蔡明杰吴芷珊许峰高路蔡婉亭
申请(专利权)人:湖南大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1