识别模型的预训练方法、识别方法、装置、介质和设备制造方法及图纸

技术编号：35523143 阅读：13 留言：0更新日期：2022-11-09 14:43

本公开涉及一种识别模型的预训练方法、识别方法、装置、介质和设备，涉及电子信息技术领域，该方法包括：获取预训练样本集和蛋白质知识图谱，针对每个预训练蛋白质序列，对该预训练蛋白质序列进行掩蔽操作，得到该预训练蛋白质序列对应的掩蔽序列，利用预设的识别模型对每个预训练蛋白质序列对应的掩蔽序列进行特征提取，得到序列特征，并对包含该预训练蛋白质序列的三元组进行特征提取，得到知识特征，利用识别模型对序列特征和知识特征进行融合，并根据融合结果进行解码，以得到解码结果，根据解码结果、该预训练蛋白质序列和蛋白质知识图谱，对识别模型进行预训练，预训练后的识别模型，经过微调能够对蛋白质进行识别。经过微调能够对蛋白质进行识别。经过微调能够对蛋白质进行识别。

全部详细技术资料下载

【技术实现步骤摘要】
识别模型的预训练方法、识别方法、装置、介质和设备

[0001]本公开涉及电子信息
，具体地，涉及一种识别模型的预训练方法、识别方法、装置、介质和设备。

技术介绍

[0002]蛋白质是机体细胞最基本的组成部分，对蛋白质的研究有助于理解生物的本质，从而推动生物技术、医疗技术的发展，例如蛋白质的结构能够用于判断蛋白质的功能，有助于药物、疫苗的研发。传统的方式，是在实验室中通过X射线结晶学和核磁共振等方式计算出蛋白质的结构，耗时耗力。由于蛋白质序列与文本具有一定的相似度，受NLP(英文：Natural Language Processing，中文：自然语言处理)技术的启发，可以利用已知的蛋白质序列预训练识别模型，使得识别模型能够被微调(英文：Fine
‑
tune)来完成对蛋白质的识别。然而，蛋白质序列通常比文本要长很多，预训练过程需要大量的计算资源，很难进行实际应用。

技术实现思路

[0003]提供该
技术实现思路
部分以便以简要的形式介绍构思，这些构思将在后面的具体实施方式部分被详细描述。该
技术实现思路
部分并不旨在标识要求保护的技术方案的关键特征或必要特征，也不旨在用于限制所要求的保护的技术方案的范围。
[0004]第一方面，本公开提供一种识别模型的预训练方法，所述方法包括：
[0005]获取预训练样本集和蛋白质知识图谱，所述预训练样本集中包括多个预训练蛋白质序列，所述蛋白质知识图谱包括多个三元组，每个所述三元组由蛋白质、基因本体，以及蛋白质与基因本体之间的关系组成；r/>[0006]针对每个所述预训练蛋白质序列，对该预训练蛋白质序列进行掩蔽操作，得到该预训练蛋白质序列对应的掩蔽序列；
[0007]利用预设的识别模型对每个预训练蛋白质序列对应的掩蔽序列进行特征提取，得到序列特征，并对包含该预训练蛋白质序列的三元组进行特征提取，得到知识特征；
[0008]利用所述识别模型对所述序列特征和所述知识特征进行融合，并根据融合结果进行解码，以得到解码结果；
[0009]根据所述解码结果、该预训练蛋白质序列和所述蛋白质知识图谱，对所述识别模型进行预训练，预训练后的所述识别模型，经过微调能够对蛋白质进行识别。
[0010]第二方面，本公开提供一种蛋白质识别方法，所述方法包括：
[0011]获取待识别的目标蛋白质对应的目标序列；
[0012]将所述目标序列输入蛋白质识别模型，以确定所述目标蛋白质的识别信息，所述识别信息包括以下至少一种：所述目标蛋白质的二级结构、残基接触、远程同源性、稳定性，以及荧光性；
[0013]所述蛋白质识别模型为根据训练样本集对本公开第一方面所述的识别模型进行
微调得到的，所述训练样本集包括多个训练蛋白质序列。
[0014]第三方面，本公开提供一种蛋识别模型的预训练装置，所述装置包括：
[0015]获取模块，用于获取预训练样本集和蛋白质知识图谱，所述预训练样本集中包括多个预训练蛋白质序列，所述蛋白质知识图谱包括多个三元组，每个所述三元组由蛋白质、基因本体，以及蛋白质与基因本体之间的关系组成；
[0016]掩蔽模块，用于针对每个所述预训练蛋白质序列，对该预训练蛋白质序列进行掩蔽操作，得到该预训练蛋白质序列对应的掩蔽序列；
[0017]预训练模块，用于利用预设的识别模型对每个预训练蛋白质序列对应的掩蔽序列进行特征提取，得到序列特征，并对包含该预训练蛋白质序列的三元组进行特征提取，得到知识特征；利用所述识别模型对所述序列特征和所述知识特征进行融合，并根据融合结果进行解码，以得到解码结果；根据所述解码结果、该预训练蛋白质序列和所述蛋白质知识图谱，对所述识别模型进行预训练，预训练后的所述识别模型，经过微调能够对蛋白质进行识别。
[0018]第四方面，本公开提供一种蛋白质识别装置，所述装置包括：
[0019]获取模块，用于获取待识别的目标蛋白质对应的目标序列；
[0020]识别模块，用于将所述目标序列输入蛋白质识别模型，以确定所述目标蛋白质的识别信息，所述识别信息包括以下至少一种：所述目标蛋白质的二级结构、残基接触、远程同源性、稳定性，以及荧光性；
[0021]所述蛋白质识别模型为根据训练样本集对本公开第一方面所述的识别模型进行微调得到的，所述训练样本集包括多个训练蛋白质序列。
[0022]第五方面，本公开提供一种计算机可读介质，其上存储有计算机程序，该程序被处理装置执行时实现本公开第一方面所述方法的步骤。
[0023]第六方面，本公开提供一种计算机可读介质，其上存储有计算机程序，该程序被处理装置执行时实现本公开第二方面所述方法的步骤。
[0024]第七方面，本公开提供一种电子设备，包括：
[0025]存储装置，其上存储有计算机程序；
[0026]处理装置，用于执行所述存储装置中的所述计算机程序，以实现本公开第一方面所述方法的步骤。
[0027]第八方面，本公开提供一种电子设备，包括：
[0028]存储装置，其上存储有计算机程序；
[0029]处理装置，用于执行所述存储装置中的所述计算机程序，以实现本公开第二方面所述方法的步骤。
[0030]通过上述技术方案，本公开首先获取蛋白质知识图谱和多个预训练蛋白质序列，蛋白质知识图谱包括多个由蛋白质、基因本体、关系组成的三元组。之后对每个预训练蛋白质序列进行掩蔽操作，得到对应的掩蔽序列。然后利用识别模型分别对每个预训练蛋白质序列对应的掩蔽序列和包含该预训练蛋白质序列的三元组进行特征提取，得到序列特征和知识特征，再利用识别模型对序列特征和知识特征进行融合并进行解码，最后根据解码结果、该预训练蛋白质序列和蛋白质知识图谱对预设的识别模型进行预训练。预训练后的识别模型，经过微调能够对蛋白质进行识别。本公开将序列特征和知识特征进行融合再解码，
使得蛋白质知识图谱能够直接影响到识别模型的输出结果，这样在预训练的过程中，识别模型能够充分学习蛋白质知识图谱所包含的信息，提升了识别模型的能力，从而提高识别模型用于下游任务的准确度。
[0031]本公开的其他特征和优点将在随后的具体实施方式部分予以详细说明。
附图说明
[0032]结合附图并参考以下具体实施方式，本公开各实施例的上述和其他特征、优点及方面将变得更加明显。贯穿附图中，相同或相似的附图标记表示相同或相似的元素。应当理解附图是示意性的，原件和元素不一定按照比例绘制。在附图中：
[0033]图1是根据一示例性实施例示出的一种识别模型的预训练方法的流程图；
[0034]图2是根据一示例性实施例示出的一种识别模型的结构示意图；
[0035]图3是根据一示例性实施例示出的另一种识别模型的预训练方法的流程图；
[0036]图4是根据一示例性实施例示出的另一种识别模型的预训练方法的流程图；
[0037]图5是根据一示例性实施例示出的另一种识别模型的预训练方法的流程图；
...

【技术保护点】

【技术特征摘要】
1.一种识别模型的预训练方法，其特征在于，所述方法包括：获取预训练样本集和蛋白质知识图谱，所述预训练样本集中包括多个预训练蛋白质序列，所述蛋白质知识图谱包括多个三元组，每个所述三元组由蛋白质、基因本体，以及蛋白质与基因本体之间的关系组成；针对每个所述预训练蛋白质序列，对该预训练蛋白质序列进行掩蔽操作，得到该预训练蛋白质序列对应的掩蔽序列；利用预设的识别模型对每个预训练蛋白质序列对应的掩蔽序列进行特征提取，得到序列特征，并对包含该预训练蛋白质序列的三元组进行特征提取，得到知识特征；利用所述识别模型对所述序列特征和所述知识特征进行融合，并根据融合结果进行解码，以得到解码结果；根据所述解码结果、该预训练蛋白质序列和所述蛋白质知识图谱，对所述识别模型进行预训练，预训练后的所述识别模型，经过微调能够对蛋白质进行识别。2.根据权利要求1所述的方法，其特征在于，所述识别模型包括：序列编码器和知识编码器；所述利用预设的识别模型对对每个预训练蛋白质序列对应的掩蔽序列进行特征提取，得到序列特征，并对包含该预训练蛋白质序列的三元组进行特征提取，得到知识特征，包括：利用所述序列编码器对该预训练蛋白质序列对应的掩蔽序列进行特征提取，得到序列特征；利用所述知识编码器分别对包含该预训练蛋白质序列的三元组中的基因本体和关系进行特征提取，得到基因本体特征和关系特征；根据所述基因本体特征和所述关系特征，确定所述知识特征，所述知识特征用于表征包含该预训练蛋白质序列的三元组。3.根据权利要求2所述的方法，其特征在于，所述根据所述基因本体特征和所述关系特征，确定所述知识特征，包括：利用注意力机制对所述基因本体特征和所述关系特征进行融合，得到所述知识特征。4.根据权利要求1所述的方法，其特征在于，所述获取预训练样本集和蛋白质知识图谱，包括：获取所述预训练样本集；将所述预训练样本集与基因本体知识图谱对齐，得到初始知识图谱，所述初始知识图谱包括多个正三元组，所述正三元组中包括的蛋白质与基因本体之间的关系为真；对所述初始知识图谱进行负采样，得到多个负三元组，所述负三元组包括的蛋白质与基因本体之间的关系为假；根据多个所述负三元组和所述初始知识图谱，得到所述蛋白质知识图谱，所述蛋白质知识图谱包括多个所述三元组，和每个所述三元组的标识，所述标识用于指示该三元组属于所述正三元组或所述负三元组。5.根据权利要求4所述的方法，其特征在于，所述根据所述解码结果、该预训练蛋白质序列和所述蛋白质知识图谱，对所述识别模型进行预训练，包括：根据所述解码结果确定预测序列，并根据所述预测序列与该预训练蛋白质序列确定预测损失；
根据所述解码结果确定预测识别结果，并根据所述预测识别结果与包含该预训练蛋白质序列的三元组的标识，确定识别损失；根据所述预测损失和所述识别损失确定总损失；以降低所述总损失为目标，利用反向传播算法对所述识别模型进行预训练。6.根据权利要求1所述的方法，其特征在于，所述利用所述...

【专利技术属性】
技术研发人员：边成，张志诚，李永会，
申请(专利权)人：抖音视界有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人