System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 空间比对记录可信度确定模型的训练方法和装置制造方法及图纸_技高网

空间比对记录可信度确定模型的训练方法和装置制造方法及图纸

技术编号:40983721 阅读:2 留言:0更新日期:2024-04-18 21:28
本发明专利技术提供了一种空间比对记录可信度确定模型的训练方法、装置、电子设备和存储介质,该方法包括:获取样本数据集合以及每个样本数据对应的标注可信度,提取每个样本数据对应的表位匹配特征,基于样本数据对应表位匹配特征和标注可信度,对初始空间比对记录可信度确定模型进行监督训练,得到训练后的空间比对记录可信度确定模型。该方法可用于解决相关领域中技术的缺乏、提高确定效率和准确度。

【技术实现步骤摘要】

本专利技术涉及计算机,尤其涉及多肽空间比对记录可信度确定模型的训练方法、装置、电子设备和存储介质。


技术介绍

1、随着互联网技术的发展,对于多肽空间结构的研究也逐渐发展,利用空间比对软件挖掘潜在的抗体结合位点或有成药潜力的多肽成为了生物学领域中的一种关键手段。而在空间比对软件的应用过程中,会产生较多的空间比对记录,这些空间比对记录由于其背后的算法等各不相同,难以评价其质量和可信度。

2、目前对于多肽空间比对记录可信度还没有较为成熟的利用计算机进行的确定的方法,往往是依赖人工评价,效率和稳定程度都会受到限制,因此,开发空间比对记录可信度确定模型的训练方法迫在眉睫。


技术实现思路

1、本专利技术提供了一种空间比对记录可信度确定模型的训练方法、装置、电子设备和存储介质,可用于解决相关领域中该技术的缺乏、提高筛选效率和准确度。

2、第一方面,本专利技术提供了一种空间比对记录可信度确定模型的训练方法,所述方法包括:获取样本数据集合以及每个所述样本数据对应的标注可信度,样本数据包括预设参考抗体对应的预设参考蛋白与样本信号肽段之间的空间比对记录,标注可信度用于指示相应样本数据中空间比对记录相对于所述参考抗体的已知表位信息的可信度;提取每个所述样本数据对应的表位匹配特征,其中,所述表位匹配特征包括第一特征参数,所述第一特征参数包括第一氨基酸序列和第二氨基酸序列,所述第一氨基酸序列为样本信号肽段的部分或完整氨基酸序列,所述第二氨基酸序列为所述第一氨基酸序列对应的空间比对记录中包含大于第一预设数目个所述参考抗体的已知表位位点的肽段的氨基酸序列;基于所述样本数据对应表位匹配特征和标注可信度,对初始空间比对记录可信度确定模型进行监督训练,得到训练后的空间比对记录可信度确定模型,所述空间比对记录可信度确定模型用于表征表位匹配特征和空间比对记录可信度之间的对应关系。

3、在一些可选的实施方式中,所述样本数据对应的标注可信度是通过如下方式确定的,包括:基于该样本数据对应的空间比对记录中包含的所述预设参考抗体的已知表位位点的数量,确定该样本数据对应的标注可信度。

4、在一些可选的实施方式中,所述表位匹配特征包括以下至少一个指标:精确匹配最大长度、2aa最大平均信号强度值、3aa最大平均信号强度值、4aa最大平均信号强度值、zscore最大值、结合强度预测比值和结合强度预测差值,其中,精确匹配最大长度为第一氨基酸序列与第二氨基酸序列的精确匹配氨基酸序列所包含的氨基酸标识子序列的最大长度,2aa最大平均信号强度值为第一氨基酸序列与第二氨基酸序列的精确匹配氨基酸序列所包含的长度为两个氨基酸的氨基酸子序列中的最大平均信号强度值,3aa最大平均信号强度值为第一氨基酸序列与第二氨基酸序列的精确匹配氨基酸序列所包含的长度为三个氨基酸的氨基酸子序列中的最大平均信号强度值,4aa最大平均信号强度值为第一氨基酸序列与第二氨基酸序列的精确匹配氨基酸序列所包含的长度为四个氨基酸的氨基酸子序列中的最大平均信号强度值,所述平均信号强度值为将氨基酸子序列的信号强度值从大到小排序,信号强度值排序位于预设排序范围内的信号强度的平均值,zscore最大值为第一氨基酸序列与第二氨基酸序列的精确匹配氨基酸序列所包含的氨基酸子序列的最大zscore值,结合强度预测比值为第一氨基酸序列与第二氨基酸序列的预测信号强度值的比值,结合强度预测差值为第一氨基酸序列与第二氨基酸序列的预测信号强度值的差值。

5、在一些可选的实施方式中,所述氨基酸子序列包括2-4个氨基酸。

6、在一些可选的实施方式中,所述表位匹配特征进一步包括通过使用预设空间比对软件对所述参考抗体对应的信号肽段与参考蛋白进行比对后生成的用于表征所述比对的质量的一个或多个的参数。

7、第二方面,本专利技术提供了一种空间比对记录可信度的确定方法,包括:获取目标空间比对记录,所述目标空间比对记录为目标信号肽段与对应的参考蛋白之间的空间比对记录;基于所述目标空间比对记录进行特征提取,得到目标表位匹配特征,其中,所述表位匹配特征包括第一特征参数,所述第一特征参数包括第一氨基酸序列和第二氨基酸序列,所述第一氨基酸序列为样本信号肽段的部分或完整氨基酸序列,所述第二氨基酸序列为所述第一氨基酸序列对应的空间比对记录中包含大于第一预设数目个所述参考抗体的已知表位位点的肽段的氨基酸序列;将所述目标表位匹配特征输入所述空间比对记录可信度确定模型,得到所述目标空间比对记录的可信度。

8、在一些可选的实施方式中,上述方法进一步包括:根据所述目标空间比对记录的可信度,确定所述目标空间比对记录对应的信号肽段是否包含目标抗体对应的表位。

9、第三方面,本专利技术提供了一种空间比对记录可信度确定模型的训练装置,包括:获取模块,被配置成用于获取样本数据集合以及每个所述样本数据对应的标注可信度,样本数据包括预设参考抗体对应的预设参考蛋白与样本信号肽段之间的空间比对记录,标注可信度用于指示相应样本数据中空间比对记录相对于所述参考抗体的已知表位信息的可信度;提取模块,被配置成用于提取每个所述样本数据对应的表位匹配特征,其中,所述表位匹配特征包括第一特征参数,所述第一特征参数包括第一氨基酸序列和第二氨基酸序列,所述第一氨基酸序列为样本信号肽段的部分或完整氨基酸序列,所述第二氨基酸序列为所述第一氨基酸序列对应的空间比对记录中包含大于第一预设数目个所述参考抗体的已知表位位点的肽段的氨基酸序列;训练模块,被配置成用于基于所述样本数据对应表位匹配特征和标注可信度,对初始空间比对记录可信度确定模型进行监督训练,得到训练后的空间比对记录可信度确定模型,所述空间比对记录可信度确定模型用于表征表位匹配特征和空间比对记录可信度之间的对应关系。

10、第四方面,本专利技术提供了一种空间比对可信度的确定装置,包括:获取模块,被配置成用于获取目标空间比对记录,所述目标空间比对记录为目标信号肽段与对应的参考蛋白之间的空间比对记录;提取模块,被配置成基于所述目标空间比对记录进行特征提取,得到目标表位匹配特征,其中,所述表位匹配特征包括第一特征参数,所述第一特征参数包括第一氨基酸序列和第二氨基酸序列,所述第一氨基酸序列为样本信号肽段的部分或完整氨基酸序列,所述第二氨基酸序列为所述第一氨基酸序列对应的空间比对记录中包含大于第一预设数目个所述参考抗体的已知表位位点的肽段的氨基酸序列;确定模块,被配置成将所述目标表位匹配特征输入所述空间比对记录可信度确定模型,得到所述目标空间比对记录的可信度。

11、第五方面,本专利技术提供了一种电子设备,包括:一个或多个处理器;存储装置,其上存储有一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如上述任一方面的方法。

12、第六方面,本专利技术提供了一种计算机可读存储介质,其上存储有计算机程序,其中,所述计算机程序被一个或多个处理器执行时实现如上述任一方面的方法。

13、随着人工智能技术尤其是alphafo本文档来自技高网...

【技术保护点】

1.一种空间比对记录可信度确定模型的训练方法,所述方法包括:

2.根据权利要求1所述的方法,其中,所述样本数据对应的标注可信度是通过如下方式确定的,包括:

3.根据权利要求1或2所述的方法,其中,所述表位匹配特征包括以下至少一个指标:精确匹配最大长度、2aa最大平均信号强度值、3aa最大平均信号强度值、4aa最大平均信号强度值、Zscore最大值、结合强度预测比值和结合强度预测差值,其中,精确匹配最大长度为第一氨基酸序列与第二氨基酸序列的精确匹配氨基酸序列所包含的氨基酸标识子序列的最大长度,2aa最大平均信号强度值为第一氨基酸序列与第二氨基酸序列的精确匹配氨基酸序列所包含的长度为两个氨基酸的氨基酸子序列中的最大平均信号强度值,3aa最大平均信号强度值为第一氨基酸序列与第二氨基酸序列的精确匹配氨基酸序列所包含的长度为三个氨基酸的氨基酸子序列中的最大平均信号强度值,4aa最大平均信号强度值为第一氨基酸序列与第二氨基酸序列的精确匹配氨基酸序列所包含的长度为四个氨基酸的氨基酸子序列中的最大平均信号强度值,所述平均信号强度值为将氨基酸子序列的信号强度值从大到小排序,信号强度值排序位于预设排序范围内的信号强度的平均值,Zscore最大值为第一氨基酸序列与第二氨基酸序列的精确匹配氨基酸序列所包含的氨基酸子序列的最大Zscore值,结合强度预测比值为第一氨基酸序列与第二氨基酸序列的预测信号强度值的比值,结合强度预测差值为第一氨基酸序列与第二氨基酸序列的预测信号强度值的差值。

4.根据权利要求3所述的方法,其中,所述氨基酸子序列包括2-4个氨基酸。

5.根据权利要求1所述的方法,其中,所述表位匹配特征进一步包括通过使用预设空间比对软件对所述参考抗体对应的信号肽段与参考蛋白进行比对后生成的用于表征所述比对的质量的一个或多个的参数。

6.一种空间比对记录可信度的确定方法,包括:

7.根据权利要求6所述的方法,其中,进一步包括:

8.一种空间比对记录可信度确定模型的训练装置,包括:

9.一种空间比对可信度的确定装置,包括:

10.一种电子设备,包括:

11.一种计算机可读存储介质,其上存储有计算机程序,其中,所述计算机程序被一个或多个处理器执行时实现如权利要求1-5和/或权利要求6、7中任一项所述的方法。

...

【技术特征摘要】

1.一种空间比对记录可信度确定模型的训练方法,所述方法包括:

2.根据权利要求1所述的方法,其中,所述样本数据对应的标注可信度是通过如下方式确定的,包括:

3.根据权利要求1或2所述的方法,其中,所述表位匹配特征包括以下至少一个指标:精确匹配最大长度、2aa最大平均信号强度值、3aa最大平均信号强度值、4aa最大平均信号强度值、zscore最大值、结合强度预测比值和结合强度预测差值,其中,精确匹配最大长度为第一氨基酸序列与第二氨基酸序列的精确匹配氨基酸序列所包含的氨基酸标识子序列的最大长度,2aa最大平均信号强度值为第一氨基酸序列与第二氨基酸序列的精确匹配氨基酸序列所包含的长度为两个氨基酸的氨基酸子序列中的最大平均信号强度值,3aa最大平均信号强度值为第一氨基酸序列与第二氨基酸序列的精确匹配氨基酸序列所包含的长度为三个氨基酸的氨基酸子序列中的最大平均信号强度值,4aa最大平均信号强度值为第一氨基酸序列与第二氨基酸序列的精确匹配氨基酸序列所包含的长度为四个氨基酸的氨基酸子序列中的最大平均信号强度值,所述平均信号强度值为将氨基酸子序列的信号强度值从大到小排序,信号强度值排序位于预设排...

【专利技术属性】
技术研发人员:黄恩恩刘兵行张薛李英睿
申请(专利权)人:珠海碳云智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1