【技术实现步骤摘要】
基于定向进化的方法、装置和系统本申请是申请日为2014年9月26日,申请号为201480065176.3,专利技术名称为“基于定向进化的方法、装置和系统(此为修改后的专利技术名称,原专利技术名称为“基于结构的预测性建模”)”的申请的分案申请。相关申请的交叉引用本申请基于35U.S.C.§119(e)要求于2013年9月27日提交,标题为:基于结构的预测性建模的美国临时专利申请号61/883,919的权益,为了所有的目的通过引用将其以其全部并入本文。
本申请涉及但不限于基于结构的预测性建模。
技术介绍
蛋白设计长久以来被认为是艰巨的任务,只因为一个原因,构成可搜索的序列空间的可能分子的组合式激增。蛋白的序列空间是极大的,并且使用本领域目前已知的方法彻底地搜索是不可能的,本领域目前已知的方法通常被鉴定有用的多肽所需的时间和成本所限制。问题的一部分由必须要测序、筛选和测定的多肽变体的巨大的量而引起。定向进化方法提高了深入研究具有有益特征的候选生物分子的效率。如今,蛋白的定向进化由往往迭代进行的多种高通量筛选和重组方式主导。用于搜索序列-活性空间的多种计算技术也已被提出。 ...
【技术保护点】
1.一种计算机实现的进行定向进化的方法,所述方法包括:(a)从分子的物理测量值接收具有信息的未过滤的数据集,其中所述未过滤的数据集包括多个变体生物分子的每一个的以下信息:(i)所述变体生物分子对在所述变体生物分子的结合位点中的配体的活性;(ii)所述变体生物分子的序列,其中所述序列是核酸序列或蛋白序列;以及(iii)一个或更多个几何参数,所述一个或更多个几何参数表征在所述变体生物分子的结合位点中的配体的几何结构;(b)过滤所述未过滤的数据集,以通过移出一个或更多个所述变体生物分子的信息来产生经过滤的数据子集,其中,所述过滤从所述未过滤的数据集移出至少一个所述几何参数和/或从 ...
【技术特征摘要】
2013.09.27 US 61/883,9191.一种计算机实现的进行定向进化的方法,所述方法包括:(a)从分子的物理测量值接收具有信息的未过滤的数据集,其中所述未过滤的数据集包括多个变体生物分子的每一个的以下信息:(i)所述变体生物分子对在所述变体生物分子的结合位点中的配体的活性;(ii)所述变体生物分子的序列,其中所述序列是核酸序列或蛋白序列;以及(iii)一个或更多个几何参数,所述一个或更多个几何参数表征在所述变体生物分子的结合位点中的配体的几何结构;(b)过滤所述未过滤的数据集,以通过移出一个或更多个所述变体生物分子的信息来产生经过滤的数据子集,其中,所述过滤从所述未过滤的数据集移出至少一个所述几何参数和/或从所述未过滤的数据集移出具有限定范围之外的几何参数值的特定变体生物分子,并且其中所述过滤包括用多个选择的数据子集训练序列活性模型并测试用所述多个选择的数据子集训练的所述序列活性模型的将变体生物分子对在所述变体生物分子的所述结合位点中的配体的活性预测为独立变量的函数的能力,并从而鉴定提供序列活性模型的经过滤的数据子集,所述序列活性模型具有比用所述未过滤的数据子集训练的序列活性模型更高的将变体生物分子对在所述变体生物分子的所述结合位点中的配体的活性预测为独立变量的函数的能力,其中所述变体生物分子的序列和表征所述变体生物分子的结合位点中的配体的几何结构的经过滤的几何参数是用所述多个选择的数据子集训练的所述序列活性模型中的独立变量,每一个选择的数据子集具有至少一个所述几何参数和/或至少一个从(a)的所述未过滤的数据集移出的具有所述限定范围之外的几何参数值的特定变体生物分子的信息;以及(c)应用使用所述经过滤的数据子集训练的改进的序列活性模型来鉴定被预测为具有满足一个或更多个标准的活性的一个或更多个新的生物分子变体,其中所述一个或更多个新的生物分子变体中的每一个具有与为(a)的未过滤的数据集提供信息的生物分子变体的序列不同的核酸或蛋白序列。2.一种计算机实现的训练机器学习模型的方法,所述机器学习模型用于确定用于定向进化的生物分子,所述方法包括:(a)从数据库收集包含多个变体分子中的每一个的以下信息的数据集:(i)变体生物分子对在所述变体生物分子的结合位点中的配体的活性值,(ii)所述变体生物分子的序列,和(iii)表征在所述变体生物分子的结合位点中的配体的几何结构的一个或更多个几何参数中的每一个参数的几何参数值,其中所述变体生物分子是多肽分子或多核苷酸分子;(b)从所述数据集创建多个第一训练集,其中对于每个数据子集,一个或更多个所述变体生物分子的信息被从所述数据子集移出,所述一个或更多个所述变体生物分子与在所述一个或更多个所述变体生物分子的结合位点中的配体的至少一个几何参数的至少一个几何参数值相关,所述至少一个几何参数值在对所述第一数据集限定的一个或更多个范围之外;(c)训练多个第一模型,每个第一模型使用所述多个第一训练集中的不同第一训练集,其中所述多个第一模型的每一个模型是具有序列数据和将所述一个或更多个几何参数中的至少一个作为输入并将活性作为输出的机器学习模型;(d)使用所述多个第一训练集的一个或更多个第一训练集创建多个第二训练集,所述一个或更多个第一训练集已经被用于训练所述多个第一模型的一个或更多个第一模型,其中所述一个或更多个第一模型具有满足定义的标准的预测力;...
【专利技术属性】
技术研发人员:拉塞尔·贾维尼亚·萨米恩托,唐纳德·斯科特·巴斯克维尔,张希云,
申请(专利权)人:科德克希思公司,
类型:发明
国别省市:美国,US
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。