一种蛋白质谱图数据库快速增量构建方法技术

技术编号：27659154 阅读：35 留言：0更新日期：2021-03-12 14:25

本发明专利技术涉及蛋白质组学中的机器学习技术领域，具体涉及一种蛋白质谱图数据库快速增量构建方法，包括：新增数据基于gleams模型聚类；合并数据库和新增数据的聚类索引，通过faiss进行局部索引搜索；使用单点和批量插入的增量算法对数据进行动态的插入；去除重复并根据阈值进行簇数据合并；完成数据库的增量聚类。本发明专利技术主要解决了大型数据库的动态数据新增问题，同时缩短了谱图数据库聚类的时间，提高了数据库新增的性能。

全部详细技术资料下载

【技术实现步骤摘要】
一种蛋白质谱图数据库快速增量构建方法
本专利技术涉及蛋白质组学中的机器学习
，具体涉及一种蛋白质谱图数据库快速增量构建方法。
技术介绍
蛋白质是人类生命的物质基础，是组成人体一切细胞、组织的重要成分，是生命活动的主要承担者。蛋白质组学是一门大规模、高通量、系统化的研究某一类型细胞、组织或体液中的所有蛋白质组成及其功能的新兴学科，1994年由MarcWikins提出。蛋白质组学以蛋白质组为研究对象，旨在大规模水平上研究蛋白质的特征，包括蛋白质种类、表达水平、翻译修饰、相互作用等，由此获得蛋白质水平上关于疾病发生、细胞代谢等过程的整体而全面的认识。蛋白质组是蛋白质和基因组两词的组合，代表着“一种基因组所表达的全部蛋白质”。通过对蛋白质组的研究，不仅能为生命活动规律提供物质基础，也为众多疾病机理的阐明及攻克提供了理论依据和解决途径。随着人类基因组计划的完成，蛋白质组学的重要性也在不断地提高。目前，以鸟枪法蛋白质组学为核心的自下而上的策略被广泛的使用。随着技术的进步，液相色谱-串联质谱(LC-MS/MS)在蛋白质组学中也有了长足的发展。在鸟枪蛋白组学实验中，通过酶切及LC来分离蛋白混合物，之后使用MS/MS处理生成相应的谱图数据，通过谱图搜库的方法完成肽和蛋白质的定性分析，最后，通过生物信息学分析，得出对生物学有价值的结论或信息。蛋白质谱图数据库是专门用来存储蛋白质实验数据的谱图库，便于研究者使用，同时在鸟枪法蛋白组学实验中，通常使用搜库方法完成蛋白质的定性操作。但鸟枪法实验通常会产生大量包含相同肽段的...

【技术保护点】
1.一种蛋白质谱图数据库快速增量构建方法，其特征在于，包括以下步骤：/nS1、采用gleams深度嵌入模型中的Embedder嵌入器对增量谱图数据进行降维处理，得到降维后的增量数据；通过faiss框架中的IndexIVFFLat索引方法对降维后的增量数据进行索引创建，得到增量数据的索引id文件IC.index；/nS2、将蛋白质谱图库的索引id文件DB.index与增量数据的索引id文件IC.index索引进行合并，得到合并索引；/nS3、采用KNN算法，通过增量数据对合并索引进行局部搜索，采用增量聚类方法对新增数据进行初步聚类，得到初步聚类后的增量数据，将初步聚类的数据和聚类库中的数据进行合并：通过单点和批量插入数据的方式实现聚类后的增量数据到蛋白质谱图库的插入操作；/nS4、对数据库中的数据进行去除重复操作，同时合并满足阈值的簇中的数据，完成谱图数据库的增量聚类；/nS5、存储谱图库的索引，为下次新数据添加时合并使用。/n

【技术特征摘要】
1.一种蛋白质谱图数据库快速增量构建方法，其特征在于，包括以下步骤：
S1、采用gleams深度嵌入模型中的Embedder嵌入器对增量谱图数据进行降维处理，得到降维后的增量数据；通过faiss框架中的IndexIVFFLat索引方法对降维后的增量数据进行索引创建，得到增量数据的索引id文件IC.index；
S2、将蛋白质谱图库的索引id文件DB.index与增量数据的索引id文件IC.index索引进行合并，得到合并索引；
S3、采用KNN算法，通过增量数据对合并索引进行局部搜索，采用增量聚类方法对新增数据进行初步聚类，得到初步聚类后的增量数据，将初步聚类的数据和聚类库中的数据进行合并：通过单点和批量插入数据的方式实现聚类后的增量数据到蛋白质谱图库的插入操作；
S4、对数据库中的数据进行去除重复操作，同时合并满足阈值的簇中的数据，完成谱图数据库的增量聚类；
S5、存储谱图库的索引，为下次新数据添加时合并使用。

2.根据权利要求1所述的一种蛋白质谱图数据库快速增量构建方法，其特征在于，gleams深度嵌入模型包括：Embedder嵌入器、索引模块、增量聚类模块；所述Embedder嵌入器用于降维；所述索引模块用于索引合并，所述索引模块选取IndexIVFFLat作为gleams深度嵌入模型索引，实现了索引合并和便利了索引的自定义；所述增量聚类模块用于聚类。

3.根据权利要求2所述的一种蛋白质谱图数据库快速增量构建方法，其特征在于，Embedder嵌入器中包括共享权重的两个相同的基于深度学习的谱图嵌入模型，两个谱图嵌入模型使用孪生神经网络连接。

4.根据权利要求2所述的一种蛋白质谱图数据库快速增量构建方法，其特征在于，所述索引模块选用IndexIVFFLat索引。

5.根据权利要求1所述的一种蛋白质谱图数据库快速增量构建方法，其特征在于，步骤S1具体包括：
S11、获取高质量的实验谱图数据作为增量数据，将增量数据输入gleams深度嵌入模型，在gleams深度嵌入模型中通过Embedder嵌入器对成对输入的增量数据进行降维处理，得到降维后的增量数据；
S12、通过faiss框架中的IndexIVFFLat索引方法对降维后的增量数据进行索引创建，得到增量数据的索引id文件IC.index；

【专利技术属性】
技术研发人员：白明泽，张保国，舒坤贤，
申请(专利权)人：重庆邮电大学，
类型：发明
国别省市：重庆;50

全部详细技术资料下载我是这个专利的主人