【技术实现步骤摘要】
【国外来华专利技术】用于大流行研究的功能性蛋白质分类
[0001]相关申请的交叉引用
[0002]本申请要求享受于2020年10月1日递交的美国临时专利申请63/086,086的优先权的权益,该申请以引用方式并入本文。
[0003]概括地说,本专利技术涉及蛋白质分类。
技术介绍
[0004]蛋白质由一系列氨基酸组成,氨基酸是蛋白质的组成部分。总共有大约20种不同的可能氨基酸。
[0005]在遗传学中,根据构建蛋白质的氨基酸序列来预测蛋白质的功能至关重要。为了促进生物技术的进步,重要的是要识别催化新反应、将特定微生物靶标结合在一起或共同构建新分子的蛋白质。
[0006]蛋白质功能的示例有酶、配体结合蛋白、膜受体和膜转运体。标注蛋白质的功能以便理解它们在其中运作的细胞的机制、识别由基因或蛋白质功能变化引起的疾病以及查找用于疾病预防、诊断和治疗的新工具至关重要。在大流行研究中,重要的是研究导致大流行的病毒(例如Covid
‑
19)的基因组,以便更好地了解该疾病的机制并改进对病毒感染的治疗。
[ ...
【技术保护点】
【技术特征摘要】
【国外来华专利技术】1.一种蛋白质搜索器,包括:经预训练的卷积神经网络(CNN),其在先前分类的氨基酸数据库上被训练以接收未被识别的氨基酸序列;特征提取器,其用于提取所述未被识别的氨基酸序列的特征向量作为查询特征向量;数据库,其用于存储经训练的氨基酸序列的特征向量和至少一个未经训练的氨基酸序列的特征向量,并且用于存储所述经训练的氨基酸序列的相关联的类和所述至少一个未经训练的氨基酸序列的相关联的标记;以及K最近邻(KNN)搜索器,其用于查找所述数据库中与所述查询特征向量接近的K个特征向量,并且用于输出所述K个特征向量中每个特征向量的所述相关联的类或所述相关联的标记。2.根据权利要求1所述的蛋白质搜索器,其中,所述经预训练的CNN是部分训练的。3.根据权利要求1所述的蛋白质搜索器,其中,所述至少一个未经训练的氨基酸序列中的一个未经训练的氨基酸序列来自SARS
‑
COV
‑
2病毒,并且其中,所述未被识别的氨基酸序列来自所述SARS
‑
COV
‑
2病毒的变体。4.根据权利要求1所述的蛋白质搜索器,其中,被执行的操作是零样本搜索。5.根据权利要求1所述的蛋白质搜索器,其中,所述数据库和所述KNN搜索器在关联处理单元(APU)中实现,所述关联处理单元APU包括用于存储数据并且用于对所述数据执行搜索的存储器阵列。6.根据权利要求5所述的蛋白质搜索器,其中,所述存储器阵列包括:向量部分,其用于存储经训练的氨基酸序列的特征向量和所述至少一个未经训练的氨基酸序列的特征向量;类部分,其用于存储所述相关联的类和所述相关联的标记;以及KNN搜索器部分,其用于搜索所述向量部分以查找所述K个特征向量,并且用于输出所述K个特征向量的所述相关联的类或所述相关联的标记。7.根据权利要求6所述的蛋白质搜索器,其中,所述存储器阵列包括列,并且...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。