当前位置: 首页 > 专利查询>GSI科技公司专利>正文

用于大流行研究的功能性蛋白质分类制造技术

技术编号:37997802 阅读:51 留言:0更新日期:2023-06-30 10:11
一种蛋白质搜索器包括经预训练的CNN、特征提取器、数据库以及KNN搜索器。在先前分类的氨基酸数据库上被训练的经预训练的CNN接收未被识别的氨基酸序列。特征提取器提取未被识别的氨基酸序列的特征向量作为查询特征向量。数据库存储经训练的氨基酸序列的特征向量和至少一个未经训练的氨基酸序列的特征向量,并存储经训练的氨基酸序列的相关联的类和至少一个未经训练的氨基酸序列的相关联的标记。KNN搜索器查找数据库中与查询特征向量接近的K个特征向量,并输出K个特征向量中每个特征向量的相关联的类或相关联的标记。的相关联的类或相关联的标记。的相关联的类或相关联的标记。

【技术实现步骤摘要】
【国外来华专利技术】用于大流行研究的功能性蛋白质分类
[0001]相关申请的交叉引用
[0002]本申请要求享受于2020年10月1日递交的美国临时专利申请63/086,086的优先权的权益,该申请以引用方式并入本文。


[0003]概括地说,本专利技术涉及蛋白质分类。

技术介绍

[0004]蛋白质由一系列氨基酸组成,氨基酸是蛋白质的组成部分。总共有大约20种不同的可能氨基酸。
[0005]在遗传学中,根据构建蛋白质的氨基酸序列来预测蛋白质的功能至关重要。为了促进生物技术的进步,重要的是要识别催化新反应、将特定微生物靶标结合在一起或共同构建新分子的蛋白质。
[0006]蛋白质功能的示例有酶、配体结合蛋白、膜受体和膜转运体。标注蛋白质的功能以便理解它们在其中运作的细胞的机制、识别由基因或蛋白质功能变化引起的疾病以及查找用于疾病预防、诊断和治疗的新工具至关重要。在大流行研究中,重要的是研究导致大流行的病毒(例如Covid

19)的基因组,以便更好地了解该疾病的机制并改进对病毒感染的治疗。
[0007]病毒的DN本文档来自技高网...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种蛋白质搜索器,包括:经预训练的卷积神经网络(CNN),其在先前分类的氨基酸数据库上被训练以接收未被识别的氨基酸序列;特征提取器,其用于提取所述未被识别的氨基酸序列的特征向量作为查询特征向量;数据库,其用于存储经训练的氨基酸序列的特征向量和至少一个未经训练的氨基酸序列的特征向量,并且用于存储所述经训练的氨基酸序列的相关联的类和所述至少一个未经训练的氨基酸序列的相关联的标记;以及K最近邻(KNN)搜索器,其用于查找所述数据库中与所述查询特征向量接近的K个特征向量,并且用于输出所述K个特征向量中每个特征向量的所述相关联的类或所述相关联的标记。2.根据权利要求1所述的蛋白质搜索器,其中,所述经预训练的CNN是部分训练的。3.根据权利要求1所述的蛋白质搜索器,其中,所述至少一个未经训练的氨基酸序列中的一个未经训练的氨基酸序列来自SARS

COV

2病毒,并且其中,所述未被识别的氨基酸序列来自所述SARS

COV

2病毒的变体。4.根据权利要求1所述的蛋白质搜索器,其中,被执行的操作是零样本搜索。5.根据权利要求1所述的蛋白质搜索器,其中,所述数据库和所述KNN搜索器在关联处理单元(APU)中实现,所述关联处理单元APU包括用于存储数据并且用于对所述数据执行搜索的存储器阵列。6.根据权利要求5所述的蛋白质搜索器,其中,所述存储器阵列包括:向量部分,其用于存储经训练的氨基酸序列的特征向量和所述至少一个未经训练的氨基酸序列的特征向量;类部分,其用于存储所述相关联的类和所述相关联的标记;以及KNN搜索器部分,其用于搜索所述向量部分以查找所述K个特征向量,并且用于输出所述K个特征向量的所述相关联的类或所述相关联的标记。7.根据权利要求6所述的蛋白质搜索器,其中,所述存储器阵列包括列,并且...

【专利技术属性】
技术研发人员:E
申请(专利权)人:GSI科技公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1