The invention is applicable to the field of bioinformatics technology, and provides a method, device, equipment and storage medium for protein function prediction. The method includes: obtaining the protein sequence to be predicted, dividing the protein sequence, obtaining the corresponding amino acid fragments, querying the word vectors corresponding to the amino acid fragments in the trained dictionary, and generating the protein sequence according to these word vectors. According to the eigenvalues of protein sequence and the trained machine learning model, the function of protein sequence is predicted, and the function of protein sequence is generated and output. Thus, the accuracy and efficiency of protein function prediction are effectively improved by obtaining the eigenvalues of protein sequence with contextual characteristics and machine learning these eigenvalues. The effect of protein function prediction.
【技术实现步骤摘要】
蛋白质功能预测方法、装置、设备及存储介质
本专利技术属于生物信息
,尤其涉及一种蛋白质功能预测方法、装置、设备及存储介质。
技术介绍
生物信息目前主要的研究对象为基因和蛋白质,由于基因序列和蛋白质序列的杂乱无序,导致利用传统试验方法时,若未收录个体则难以判断其具体功能及其各项生化属性。在生物信息的各个研究领域中,蛋白质功能预测一直很难达到较高的准确度,主要的预测方法是利用基因本体联合会(GeneOnotologyConsortium)建立的基因本体对蛋白质数据库中各项蛋白质进行注释后,再根据蛋白质本身特征化之后的属性建立预测模型,最终通过该预测模型对未收录个体进行功能预测。目前,建立用于蛋白质功能预测的预测模型的最有效方法为机器学习的各种方法,然而现有的这些方法都有一个显著缺点:基于蛋白质序列的相关算法,均把蛋白质的序列视作自然语言,将其直接放入机器学习算法,例如卷积神经网络,任由神经网络对序列进行处理,而蛋白质并非是简单的序列-结构-功能体系,由此不能完全领会蛋白质序列中上文,影响机器学习算法的预测准确度。
技术实现思路
本专利技术的目的在于提供一种蛋白质功能 ...
【技术保护点】
1.一种蛋白质功能预测方法,其特征在于,所述方法包括下述步骤:当接收到蛋白质功能预测请求时,获取用户输入的、待预测的蛋白质序列;对所述蛋白质序列进行划分,获得相应的氨基酸片段;通过预先训练好的词典查询所述氨基酸片段对应的词向量,根据所述词向量生成所述蛋白质序列的特征值;根据所述蛋白质序列的特征值和预先训练好的机器学习模型,对所述蛋白质序列进行功能预测,生成并输出所述蛋白质序列的功能。
【技术特征摘要】
1.一种蛋白质功能预测方法,其特征在于,所述方法包括下述步骤:当接收到蛋白质功能预测请求时,获取用户输入的、待预测的蛋白质序列;对所述蛋白质序列进行划分,获得相应的氨基酸片段;通过预先训练好的词典查询所述氨基酸片段对应的词向量,根据所述词向量生成所述蛋白质序列的特征值;根据所述蛋白质序列的特征值和预先训练好的机器学习模型,对所述蛋白质序列进行功能预测,生成并输出所述蛋白质序列的功能。2.如权利要求1所述的方法,其特征在于,获取用户输入的、待预测的蛋白质序列的步骤之前,所述方法还包括:获取蛋白质序列集,所述蛋白质序列集中包括蛋白质训练序列和所述蛋白质训练序列的功能注释;对所述蛋白质训练序列进行划分,获得相应的氨基酸训练片段;根据每个氨基酸训练片段在所述蛋白质训练序列中的出现概率,构建相应的Huffman树;根据所述Huffman树和预设的词典训练模型,训练得到所述词典和所述氨基酸训练片段的词向量,根据所述氨基酸训练片段的词向量生成所述蛋白质训练序列的特征值;根据所述蛋白质训练序列的特征值和所述蛋白质训练序列的功能注释,对所述机器学习模型进行有监督训练,获得训练好的所述机器学习模型。3.如权利要求2所述的方法,其特征在于,根据所述Huffman树和预设的词典训练模型,训练得到所述词典和所述氨基酸训练片段的词向量的步骤,包括:根据所述Huffman树和CBOW模型,训练得到所述词典和所述氨基酸训练片段的词向量;或者根据所述Huffman树和Skip-gram模型,训练得到所述词典和所述氨基酸训练片段的词向量。4.如权利要求1所述的方法,其特征在于,对所述蛋白质序列进行划分,获得相应的氨基酸片段的步骤,包括:通过预设的窗口滑动方式将所述蛋白质序列划分为所述氨基酸片段。5.一种蛋白质功能预测装置,其特征在于,所述装置包括:序列获取单元,用于当接收到蛋白质功能预测请求时,获取用户输入的、待预测的蛋白质序列;片段划分单元,用于对所述蛋白质序列进行划分,获得相应的氨基酸片段;...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。