一种蛋白质谱图数据库快速增量构建方法技术

技术编号:27659154 阅读:35 留言:0更新日期:2021-03-12 14:25
本发明专利技术涉及蛋白质组学中的机器学习技术领域,具体涉及一种蛋白质谱图数据库快速增量构建方法,包括:新增数据基于gleams模型聚类;合并数据库和新增数据的聚类索引,通过faiss进行局部索引搜索;使用单点和批量插入的增量算法对数据进行动态的插入;去除重复并根据阈值进行簇数据合并;完成数据库的增量聚类。本发明专利技术主要解决了大型数据库的动态数据新增问题,同时缩短了谱图数据库聚类的时间,提高了数据库新增的性能。

【技术实现步骤摘要】
一种蛋白质谱图数据库快速增量构建方法
本专利技术涉及蛋白质组学中的机器学习
,具体涉及一种蛋白质谱图数据库快速增量构建方法。
技术介绍
蛋白质是人类生命的物质基础,是组成人体一切细胞、组织的重要成分,是生命活动的主要承担者。蛋白质组学是一门大规模、高通量、系统化的研究某一类型细胞、组织或体液中的所有蛋白质组成及其功能的新兴学科,1994年由MarcWikins提出。蛋白质组学以蛋白质组为研究对象,旨在大规模水平上研究蛋白质的特征,包括蛋白质种类、表达水平、翻译修饰、相互作用等,由此获得蛋白质水平上关于疾病发生、细胞代谢等过程的整体而全面的认识。蛋白质组是蛋白质和基因组两词的组合,代表着“一种基因组所表达的全部蛋白质”。通过对蛋白质组的研究,不仅能为生命活动规律提供物质基础,也为众多疾病机理的阐明及攻克提供了理论依据和解决途径。随着人类基因组计划的完成,蛋白质组学的重要性也在不断地提高。目前,以鸟枪法蛋白质组学为核心的自下而上的策略被广泛的使用。随着技术的进步,液相色谱-串联质谱(LC-MS/MS)在蛋白质组学中也有了长足的发展。在鸟枪蛋白组学实验中,通过酶切及LC来分离蛋白混合物,之后使用MS/MS处理生成相应的谱图数据,通过谱图搜库的方法完成肽和蛋白质的定性分析,最后,通过生物信息学分析,得出对生物学有价值的结论或信息。蛋白质谱图数据库是专门用来存储蛋白质实验数据的谱图库,便于研究者使用,同时在鸟枪法蛋白组学实验中,通常使用搜库方法完成蛋白质的定性操作。但鸟枪法实验通常会产生大量包含相同肽段的高度冗余谱图数据,在搜库时会重复比对,浪费了大量的搜库时间且占用了较多的存储空间,影响肽鉴定的效率。目前,已出现多种蛋白质谱图聚类工具或方法,如Pep-Miner、MS-Cluster、PRIDE-Cluster、MaRaCluster、msCRUSH、GLEAMS等,通过对同一肽段产生的谱图进行聚类,从聚类簇中选取一致性谱图取代聚类簇,完成谱图的搜库鉴定。算法在一定程度上减少了谱图数据的冗余,提高了肽鉴定的效率。随着蛋白质组学实验数据的增加,现有的聚类算法弊端也逐渐显露了出来,现有的聚类算法大多采用静态聚类方法进行设计,当新的一批数据需要聚类时,不能利用现有数据库的聚类结果进行聚类,使算法的时效性受到限制;随着新增数据的逐渐增多,算法每次聚类所需开销也在递进增长,增加了数据库存储聚类的成本。
技术实现思路
为了解决上述问题,本专利技术提供一种蛋白质谱图数据库快速增量构建方法。一种蛋白质谱图数据库快速增量构建方法,包括以下步骤:S1、采用gleams深度嵌入模型中的Embedder嵌入器对增量谱图数据进行降维处理,得到降维后的增量数据;通过faiss框架中的IndexIVFFLat索引方法对降维后的增量数据进行索引创建,得到增量数据的索引id文件IC.index;S2、将蛋白质谱图库的索引id文件DB.index与增量数据的索引id文件IC.index索引进行合并,得到合并索引;S3、采用KNN算法,通过增量数据对合并索引进行局部搜索,采用增量聚类方法对新增数据进行初步聚类,得到初步聚类后的增量数据,将初步聚类的数据和聚类库中的数据进行合并:通过单点和批量插入数据的方式实现聚类后的增量数据到蛋白质谱图库的插入操作;S4、对数据库中的数据进行去除重复操作,同时合并满足阈值的簇中的数据,完成谱图数据库的增量聚类;S5、存储谱图库的索引,为下次新数据添加时合并使用。进一步的,gleams深度嵌入模型包括:Embedder嵌入器、索引模块、增量聚类模块;所述Embedder嵌入器用于降维;所述索引模块用于索引合并,所述索引模块选取IndexIVFFLat作为gleams深度嵌入模型索引,实现了索引合并和便利了索引的自定义;所述增量聚类模块用于聚类。进一步的,Embedder嵌入器中包括共享权重的两个相同的基于深度学习的谱图嵌入模型,两个谱图嵌入模型使用孪生神经网络连接。进一步的,所述索引模块选用IndexIVFFLat索引。进一步的,步骤S1在索引创建完成的基础上还包括进行数据搜索,具体包括:S11、获取高质量的实验谱图数据作为增量数据,将增量数据输入gleams深度嵌入模型,在gleams深度嵌入模型中通过Embedder嵌入器对成对输入的增量数据进行降维处理,得到降维后的增量数据;S12、通过faiss框架中的IndexIVFFLat索引方法对降维后的增量数据进行索引创建,得到增量数据的索引id文件IC.index;索引创建完成的基础上进行数据搜索,通过KNN算法对每条索引索索其最近的1000个邻居,得到KNN搜索的索引结果;S13、对KNN搜索的索引结果进行筛选:根据KNN搜索的每条索引的value值,对索引key进行降序排列,根据筛选条件对降序排列的索引进行筛选,进而实现对增量谱图的过滤,从增量数据中自动选取簇心进行聚类;S14、计算邻居索引与簇心索引的距离,合并簇心距离在阈值范围内的簇集合,输出聚类结果,完成增量数据的聚类。进一步的,在gleams深度嵌入模型中通过Embedder嵌入器对成对输入的增量数据进行降维处理,得到降维后的增量数据,具体包括:S01、将谱图数据中的前体特征、特征强度和参考光谱分别输入两个嵌入模型,在嵌入模型中进行一系列卷积、池化操作,将谱图数据嵌入到新的n维空间中,得到两个嵌入模型分别嵌入到n维空间中的嵌入谱图对;S02、计算嵌入谱图对之间的欧式距离,根据欧氏距离及label值计算损失函数;S03、根据损失函数,对谱图对进行惩罚,更新Embedder嵌入器的权值,具体操作是:将输入的由相同肽段产生的相似谱图对拉到一起,将由不同肽段产生的负谱图对推开,最终将谱图对映射到新的低维空间中,形成降维后的增量数据。进一步的,损失函数的计算公式如下:其中,L表示损失函数,W表示Embedder嵌入器中的权重;label表示惩罚项,取值为0或1,label=1表示两个谱图由相同肽段产生,label=0表示两个谱图由不同肽段产生;Ea和Eb分别表示Increment.mzML(增量原始谱图)、DataBase.mzML(数据库原始谱图)通过Embedder嵌入器转换之后的特征向量。进一步的,合并索引前已获得蛋白质谱图库的索引id文件DB.index,合并索引时,通过调用faiss库中index函数实现索引数据的添加,之后使用merge_from函数实现索引文件的合并,索引在合并的过程中,根据上层索引的长度,自动递增的添加索引,使得索引连续,便于局部数据搜索;在数据进行搜索时,将增量数据通过合并的索引值进行局部搜索,加快KNN搜索速度,提升模型性能。相对于现有技术,本专利技术的有益效果如下:本专利技术使用动态增量聚类算法,在gleams深度嵌入模型的基础上,使用faiss库高效相似度搜索和聚类框架,利用索引合并本文档来自技高网
...

【技术保护点】
1.一种蛋白质谱图数据库快速增量构建方法,其特征在于,包括以下步骤:/nS1、采用gleams深度嵌入模型中的Embedder嵌入器对增量谱图数据进行降维处理,得到降维后的增量数据;通过faiss框架中的IndexIVFFLat索引方法对降维后的增量数据进行索引创建,得到增量数据的索引id文件IC.index;/nS2、将蛋白质谱图库的索引id文件DB.index与增量数据的索引id文件IC.index索引进行合并,得到合并索引;/nS3、采用KNN算法,通过增量数据对合并索引进行局部搜索,采用增量聚类方法对新增数据进行初步聚类,得到初步聚类后的增量数据,将初步聚类的数据和聚类库中的数据进行合并:通过单点和批量插入数据的方式实现聚类后的增量数据到蛋白质谱图库的插入操作;/nS4、对数据库中的数据进行去除重复操作,同时合并满足阈值的簇中的数据,完成谱图数据库的增量聚类;/nS5、存储谱图库的索引,为下次新数据添加时合并使用。/n

【技术特征摘要】
1.一种蛋白质谱图数据库快速增量构建方法,其特征在于,包括以下步骤:
S1、采用gleams深度嵌入模型中的Embedder嵌入器对增量谱图数据进行降维处理,得到降维后的增量数据;通过faiss框架中的IndexIVFFLat索引方法对降维后的增量数据进行索引创建,得到增量数据的索引id文件IC.index;
S2、将蛋白质谱图库的索引id文件DB.index与增量数据的索引id文件IC.index索引进行合并,得到合并索引;
S3、采用KNN算法,通过增量数据对合并索引进行局部搜索,采用增量聚类方法对新增数据进行初步聚类,得到初步聚类后的增量数据,将初步聚类的数据和聚类库中的数据进行合并:通过单点和批量插入数据的方式实现聚类后的增量数据到蛋白质谱图库的插入操作;
S4、对数据库中的数据进行去除重复操作,同时合并满足阈值的簇中的数据,完成谱图数据库的增量聚类;
S5、存储谱图库的索引,为下次新数据添加时合并使用。


2.根据权利要求1所述的一种蛋白质谱图数据库快速增量构建方法,其特征在于,gleams深度嵌入模型包括:Embedder嵌入器、索引模块、增量聚类模块;所述Embedder嵌入器用于降维;所述索引模块用于索引合并,所述索引模块选取IndexIVFFLat作为gleams深度嵌入模型索引,实现了索引合并和便利了索引的自定义;所述增量聚类模块用于聚类。


3.根据权利要求2所述的一种蛋白质谱图数据库快速增量构建方法,其特征在于,Embedder嵌入器中包括共享权重的两个相同的基于深度学习的谱图嵌入模型,两个谱图嵌入模型使用孪生神经网络连接。


4.根据权利要求2所述的一种蛋白质谱图数据库快速增量构建方法,其特征在于,所述索引模块选用IndexIVFFLat索引。


5.根据权利要求1所述的一种蛋白质谱图数据库快速增量构建方法,其特征在于,步骤S1具体包括:
S11、获取高质量的实验谱图数据作为增量数据,将增量数据输入gleams深度嵌入模型,在gleams深度嵌入模型中通过Embedder嵌入器对成对输入的增量数据进行降维处理,得到降维后的增量数据;
S12、通过faiss框架中的IndexIVFFLat索引方法对降维后的增量数据进行索引创建,得到增量数据的索引id文件IC.index;

【专利技术属性】
技术研发人员:白明泽张保国舒坤贤
申请(专利权)人:重庆邮电大学
类型:发明
国别省市:重庆;50

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1