一种确定蛋白质脂质功能的方法、装置和设备制造方法及图纸

技术编号:21202697 阅读:29 留言:0更新日期:2019-05-25 02:03
本发明专利技术公开了一种确定蛋白质脂质功能的方法、装置和设备,通过获取目标蛋白质的氨基酸序列特征,并将该目标蛋白质的氨基酸序列特征输入到机器学习模型中,即可根据该机器学习模型的输出结果确定该目标蛋白质的脂质功能;其中,该机器学习模型已基于历史蛋白质的氨基酸序列特征与该历史蛋白质的已知脂质功能之间的对应关系进行了训练。这样,借助已训练的机器学习模型确定蛋白质脂质功能,替代了生物上传统的人工试验方法,节约了人工试验要耗费的耗材、时间及人力等方面成本。

A Method, Device and Equipment for Determining the Function of Protein Lipids

The invention discloses a method, apparatus and equipment for determining the lipid function of a protein. By acquiring the amino acid sequence characteristics of the target protein and inputting the amino acid sequence characteristics of the target protein into the machine learning model, the lipid function of the target protein can be determined according to the output results of the machine learning model, in which the machine learning model has been based on the calendar. The corresponding relationship between the amino acid sequence characteristics of historic proteins and the known lipid functions of historic proteins was trained. In this way, the function of protein and lipid is determined by the trained machine learning model, which replaces the traditional manual test method in biology and saves the cost of material, time and manpower.

【技术实现步骤摘要】
一种确定蛋白质脂质功能的方法、装置和设备
本专利技术涉及信息处理
,特别是涉及一种确定蛋白质脂质功能的方法、装置和设备。
技术介绍
脂质结合蛋白(Lipidbindingproteins,LBP)不仅能够用于实现细胞脂质摄取、脂质转运和脂质代谢等生理机能,而且在基因表达调控、细胞信号传导、治疗靶点等方面也起到关键作用。因此,对于各种蛋白质来说,有必要确定其在脂质结合方面所具备的脂质功能。目前,蛋白质的脂质功能主要通过人工试验验证的方式确定。但是,人工试验要耗费较多的耗材、时间及人力,因此成本较高。
技术实现思路
本专利技术所要解决的技术问题是,提供一种确定蛋白质脂质功能的方法、装置和设备,以使得蛋白质脂质功能在无需人工试验的情况下就能够确定,从而节省耗材、时间及人力等方面的成本。第一方面,本专利技术实施例提供了一种确定蛋白质脂质功能的方法,包括:获取目标蛋白质的氨基酸序列特征;将所述目标蛋白质的氨基酸序列特征输入到机器学习模型中并根据所述机器学习模型的输出结果确定所述目标蛋白质的脂质功能;其中,所述机器学习模型已基于历史蛋白质的氨基酸序列特征与所述历史蛋白质的已知脂质功能之间的对应关系进行了训练。可选地,所述氨基酸序列特征为:所述氨基酸序列的位置特异性特征;所述获取目标蛋白质的氨基酸序列特征,包括:获取所述目标蛋白质的氨基酸序列的位置特异性得分矩阵;根据所述位置特异性得分矩阵,确定所述目标蛋白质的氨基酸序列的位置特异性特征。可选地,所述获取所述目标蛋白质的氨基酸序列的位置特异性得分矩阵,包括:在蛋白质序列数据库中查找所述目标蛋白质的同源蛋白质的氨基酸序列;将所述目标蛋白质的氨基酸序列与所述同源蛋白质的氨基酸序列进行多序列比对,得到所述目标蛋白质的氨基酸序列的位置特异性得分矩阵。可选地,所述根据所述位置特异性得分矩阵,确定所述目标蛋白质的氨基酸序列的位置特异性特征,包括:在所述位置特异性得分矩阵中查找每种氨基酸的最大位置特异性得分所在的行;根据所述每种氨基酸的最大位置特异性得分所在的行形成矩阵,作为所述目标蛋白质的氨基酸序列的位置特异性特征。可选地,该方法还包括:获取蛋白质序列标注数据库中标注了已知脂质功能的初始样本蛋白质;从所述初始样本蛋白质中选取出所述历史蛋白质;通过所述历史蛋白质的氨基酸序列特征和已知脂质功能,对所述机器学习模型进行训练。可选的,所述历史蛋白质具体为满足以下任意一个或多个条件的初始样本蛋白质:所述历史蛋白质的氨基酸序列长度位于长度阈值范围之内;在所述历史蛋白质中,不同蛋白质的相似度不超过相似度阈值;在所述历史蛋白质中,不具有脂质功能的蛋白质的氨基酸序列中不存在具有脂质功能的蛋白质的氨基酸序列中的功能域。可选地,所述机器学习模型的输出结果对应于脂质结合功能、脂质降解功能、脂质代谢功能、脂质合成功能、脂质运输功能、脂蛋白功能、脂多糖生物合成功能、脂多糖功能或不具备脂质功能。第二方面,本专利技术实施例还提供了一种确定蛋白质脂质功能的装置,包括:第一获取模块,用于获取目标蛋白质的氨基酸序列特征;确定模块,用于将所述目标蛋白质的氨基酸序列特征输入到机器学习模型中并根据所述机器学习模型的输出结果确定所述目标蛋白质的脂质功能;其中,所述机器学习模型已基于历史蛋白质的氨基酸序列特征与所述历史蛋白质的已知脂质功能之间的对应关系进行了训练。可选地,所述氨基酸序列特征为:所述氨基酸序列的位置特异性特征;所述第一获取模块,包括:获取单元,用于获取所述目标蛋白质的氨基酸序列的位置特异性得分矩阵;确定单元,用于根据所述位置特异性得分矩阵,确定所述目标蛋白质的氨基酸序列的位置特异性特征。可选地,所述获取单元,包括:第一查找子单元,用于在蛋白质序列数据库中查找所述目标蛋白质的同源蛋白质的氨基酸序列;比对子单元,用于将所述目标蛋白质的氨基酸序列与所述同源蛋白质的氨基酸序列进行多序列比对,得到所述目标蛋白质的氨基酸序列的位置特异性得分矩阵。可选地,所述确定单元,包括:第二查找子单元,用于在所述位置特异性得分矩阵中查找每种氨基酸的最大位置特异性得分所在的行;形成子单元,用于根据所述每种氨基酸的最大位置特异性得分所在的行形成矩阵,作为所述目标蛋白质的氨基酸序列的位置特异性特征。可选地,该装置还包括:第二获取模块,用于获取蛋白质序列标注数据库中标注了已知脂质功能的初始样本蛋白质;选取模块,用于从所述初始样本蛋白质中选取出所述历史蛋白质;训练模块,用于通过所述历史蛋白质的氨基酸序列特征和已知脂质功能,对所述机器学习模型进行训练。可选的,所述历史蛋白质具体为满足以下任意一个或多个条件的初始样本蛋白质:所述历史蛋白质的氨基酸序列长度位于长度阈值范围之内;在所述历史蛋白质中,不同蛋白质的相似度不超过相似度阈值;在所述历史蛋白质中,不具有脂质功能的蛋白质的氨基酸序列中不存在具有脂质功能的蛋白质的氨基酸序列中的功能域。可选地,所述机器学习模型的输出结果对应于脂质结合功能、脂质降解功能、脂质代谢功能、脂质合成功能、脂质运输功能、脂蛋白功能、脂多糖生物合成功能、脂多糖功能或不具备脂质功能。第三方面,本专利技术实施例还提供了一种确定蛋白质脂质功能的设备,所述设备包括处理器以及存储器:所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;所述处理器用于根据所述程序代码中的指令执行上述第一方面提供的方法。第四方面,本专利技术实施例也提供了一种存储介质,所述存储介质用于存储程序代码,所述程序代码用于执行上述第一方面提供的方法。与现有技术相比,本专利技术实施例具有以下优点:在本专利技术实施例中,通过获取目标蛋白质的氨基酸序列特征,并将该目标蛋白质的氨基酸序列特征输入到机器学习模型中,即可根据该机器学习模型的输出结果确定该目标蛋白质的脂质功能;其中,该机器学习模型已基于历史蛋白质的氨基酸序列特征与该历史蛋白质的已知脂质功能之间的对应关系进行了训练。这样,借助已训练的机器学习模型确定蛋白质脂质功能,替代了生物上传统的人工试验方法,节约了人工试验要耗费的耗材、时间及人力等方面成本。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术实施例提供的一种确定蛋白质脂质功能的方法的流程示意图;图2为本专利技术实施例提供的实现步骤101的一示例的流程示意图;图3为本专利技术实施例提供的一种机器学习模型的训练方法的流程示意图;图4为本专利技术实施例提供的机器学习模型一示例的结构示意图;图5为本专利技术实施例提供的一种训练机器学习模型的方法的流程示意图;图6为本专利技术实施例提供的一种确定蛋白质脂质功能的装置的结构示意图;图7为本专利技术实施例提供的一种确定蛋白质脂质功能的设备的结构示意图。具体实施方式为了使本
的人员更好地理解本专利技术方案,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例本文档来自技高网
...

【技术保护点】
1.一种确定蛋白质脂质功能的方法,其特征在于,包括:获取目标蛋白质的氨基酸序列特征;将所述目标蛋白质的氨基酸序列特征输入到机器学习模型中并根据所述机器学习模型的输出结果确定所述目标蛋白质的脂质功能;其中,所述机器学习模型已基于历史蛋白质的氨基酸序列特征与所述历史蛋白质的已知脂质功能之间的对应关系进行了训练。

【技术特征摘要】
1.一种确定蛋白质脂质功能的方法,其特征在于,包括:获取目标蛋白质的氨基酸序列特征;将所述目标蛋白质的氨基酸序列特征输入到机器学习模型中并根据所述机器学习模型的输出结果确定所述目标蛋白质的脂质功能;其中,所述机器学习模型已基于历史蛋白质的氨基酸序列特征与所述历史蛋白质的已知脂质功能之间的对应关系进行了训练。2.根据权利要求1所述的方法,其特征在于,所述氨基酸序列特征为:所述氨基酸序列的位置特异性特征;所述获取目标蛋白质的氨基酸序列特征,包括:获取所述目标蛋白质的氨基酸序列的位置特异性得分矩阵;根据所述位置特异性得分矩阵,确定所述目标蛋白质的氨基酸序列的位置特异性特征。3.根据权利要求2所述的方法,其特征在于,所述获取所述目标蛋白质的氨基酸序列的位置特异性得分矩阵,包括:在蛋白质序列数据库中查找所述目标蛋白质的同源蛋白质的氨基酸序列;将所述目标蛋白质的氨基酸序列与所述同源蛋白质的氨基酸序列进行多序列比对,得到所述目标蛋白质的氨基酸序列的位置特异性得分矩阵。4.根据权利要求2所述的方法,其特征在于,所述根据所述位置特异性得分矩阵,确定所述目标蛋白质的氨基酸序列的位置特异性特征,包括:在所述位置特异性得分矩阵中查找每种氨基酸的最大位置特异性得分所在的行;根据所述每种氨基酸的最大位置特异性得分所在的行形成矩阵,作为所述目标蛋白质的氨基酸序列的位置特异性特征。5.根据权利要求1所述的方法,其特征在于,还包括:获取蛋白质序列标注数据库中标注了已知脂质功能的初始样本蛋白质;从所述初始样本蛋...

【专利技术属性】
技术研发人员:汤一凡崔朝辉赵立军张霞
申请(专利权)人:东软集团股份有限公司
类型:发明
国别省市:辽宁,21

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1