用于深度学习的高效体素化制造技术

技术编号:39579798 阅读:7 留言:0更新日期:2023-12-03 19:30
本发明专利技术所公开的技术涉及高效地确定蛋白质中哪些原子最接近网格中的体素

【技术实现步骤摘要】
【国外来华专利技术】CONVOLUTIONAL NEURAL NETWORKS(CNNs)”的美国临时专利申请号
62/573,149(
代理人案卷号
ILLM 1000

2/IP

1612

PRV)

[0014]2017

10

16
日提交的名称为“DEEP SEMI

SUPERVISED LEARNING THAT GENERATES LARGE

SCALE PATHOGENIC TRAINING DATA”的美国临时专利申请号
62/573,153(
代理人案卷号
ILLM 1000

3/IP

1613

PRV)

[0015]2017

11
月7日提交的名称为“PATHOGENICITY CLASSIFICATION OF GENOMIC DATA USING DEEP CONVOLUTIONAL NEURAL NETWORKS(CNNs)”的美国临时专利申请号
62/582,898(
代理人案卷号
ILLM 1000

4/IP

1618

PRV)

[0016]2018

10

15
日提交的名称为“DEEP LEARNING

BASED TECHNIQUES FOR TRAINING DEEP CONVOLUTIONAL NEURAL NETWORKS”的美国非临时专利申请号
16/160,903(
代理人案卷号
ILLM 1000

5/IP

1611

US)

[0017]2018

10

15
日提交的名称为“DEEP CONVOLUTIONAL NEURAL NETWORKS FOR VARIANT CLASSIFICATION”的美国非临时专利申请号
16/160,986(
代理人案卷号
ILLM 1000

6/IP

1612

US)

[0018]2018

10

15
日提交的名称为“SEMI

SUPERVISED LEARNING FOR TRAINING AN ENSEMBLE OF DEEP CONVOLUTIONAL NEURALNETWORKS”的美国非临时专利申请号
16/160,968(
代理人案卷号
ILLM 1000

7/IP

1613

US)
;以及
[0019]2019
年5月8日提交的名称为“DEEP LEARNING

BASED TECHNIQUES FOR PRE

TRAINING DEEP CONVOLUTIONAL NEURAL NETWORKS”的美国非临时专利申请号
16/407,149(
代理人案卷号
ILLM 1010

1/IP

1734

US)。

技术介绍

[0020]本部分中讨论的主题不应仅因为在本部分中有提及就被认为是现有技术

类似地,在本部分中提及的或与作为
技术介绍
提供的主题相关联的问题不应被认为先前在现有技术中已被认识到

本部分中的主题仅表示不同的方法,这些方法本身也可对应于受权利要求书保护的技术的具体实施

[0021]基因组学在广义上也称为功能基因组学,其目的是通过使用基因组规模的测定
(
诸如基因组测序

转录组谱分析和蛋白质组学
)
来表征生物体的每种基因组元件的功能

基因组学作为数据驱动的科学出现

其通过从基因组规模数据的探索中发现新特性而不是通过测试预先设想的模型和假设来运作

基因组学的应用包括发现基因型与表型之间的关联

发现用于患者分层的生物标志物

预测基因功能,以及绘制有生化活性的基因组区域
(
诸如转录增强子
)
的图表

[0022]基因组学数据太大太复杂,以至于不能仅通过可视化研究成对相关来挖掘

相反,需要分析工具来支持发现未预料到的关系,以导出新的假设和模型,并进行预测

机器学习算法与假设和领域专业知识被硬编码的一些算法不同,被设计成自动检测数据中的模式

因此,机器学习算法适合于数据驱动的科学,尤其适合于基因组学

然而,机器学习算法的性能可能强烈依赖于如何表示数据,也就是说,如何计算每个变量
(
也称为特征
)。
例如,为了从荧光显微镜图像中将肿瘤分类为恶性或良性,预处理算法可以检测细胞

识别细胞类型,以及生成针对每种细胞类型的细胞计数列表

[0023]机器学习模型可以将估计的细胞计数
(
是手工特征的实例
)
作为输入特征来对肿瘤进行分类

核心问题是分类性能严重依赖于这些特征的质量和相关性

例如,相关视觉特征
(
诸如细胞形态

细胞间的距离或器官内的定位
)
在细胞计数中没有被捕捉到,对数据的这种不完整表示可能降低分类准确度

[0024]深度学习
(
机器学习的分支学科
)
通过将特征的计算嵌入到机器学习模型本身中以产生端对端模型来解决这个问题

该成果已经通过开发深度神经网络来实现,这些深度神经网络是包括连续基本运算的机器学习模型,其中连续基本运算通过取在先运算的结果作为输入来计算越来越复杂的特征

深度神经网络能够通过发现高复杂度的相关特征
(
诸如上述实例中的细胞形态和细胞的空间组织
)
来提高预测准确性

通过数据爆炸

算法的进步以及计算能力的显著增加,特别是通过使用图形处理单元
(GPU)
,已经能够实现深度神经网络的构建和训练

[0025]监督学习本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.
一种高效确定序列中哪些元素最接近网格中均匀间隔的单元格的计算机实现的方法,其中所述元素具有元素坐标,并且所述单元格具有维度式单元格索引和单元格坐标,所述方法包括:生成将所述单元格的子集映射到所述元素中的每个元素的元素到单元格映射,其中映射到所述序列中的特定元素的所述单元格的所述子集包括所述网格中的最接近单元格和所述网格中的一个或多个邻域单元格,其中基于将所述特定元素的元素坐标匹配到所述单元格坐标来选择所述最接近单元格,并且其中所述邻域单元格与所述最接近单元格连续相邻,并且基于在相对所述特定元素处于距离接近范围内来选择;生成单元格到元素映射,其将所述元素的子集映射到所述单元格中的每个单元格,其中映射到所述网格中的特定单元格的所述元素的所述子集包括所述序列中通过所述元素到单元格映射而映射到所述特定单元格的那些元素;以及使用所述单元格到元素映射来为所述单元格中的每个单元格确定所述序列中的最接近元素,其中基于所述特定单元格与所述元素子集中的所述元素之间的距离来确定所述特定单元格的所述最接近元素
。2.
根据权利要求1所述的计算机实现的方法,其中将所述特定元素的所述元素坐标匹配到所述单元格坐标还包括截断所述元素坐标的小数部分以生成截断的元素坐标
。3.
根据权利要求1或2所述的计算机实现的方法,其中将所述特定元素的所述元素坐标匹配到所述单元格坐标还包括:对于第一维度,将所述截断的元素坐标中的第一截断的元素坐标与所述网格中第一单元格的第一单元格坐标进行匹配,并且选择所述第一单元格的第一维度索引;对于第二维度,将所述截断的元素坐标中的第二截断的元素坐标与所述网格中第二单元格的第二单元格坐标进行匹配,并且选择所述第二单元格的第二维度索引;对于第三维度,将所述截断的元素坐标中的第三截断的元素坐标与所述网格中第三单元格的第三单元格坐标进行匹配,并且选择所述第三单元格的第三维度索引;基于用底数幂对所选择的第一维度索引

第二维度索引和第三维度索引进行位置式加权,使用所选择的第一维度索引

第二维度索引和第三维度索引来生成累加和;以及使用所述累加和作为用于选择所述最接近单元格的单元格索引
。4.
根据权利要求1至3中任一项所述的计算机实现的方法,其中计算所述特定单元格的单元格坐标与所述元素子集中的所述元素的元素坐标之间的所述距离
。5.
根据权利要求1至4中任一项所述的计算机实现的方法,其中所述序列是氨基酸的蛋白质序列
。6.
根据权利要求5所述的计算机实现的方法,其中所述元素是所述氨基酸的原子
。7.
根据权利要求5或6所述的计算机实现的方法,其中生成所述元素到单元格映射

生成所述单元格到元素映射

以及使用所述单元格到元素映射来为所述单元格中的每个单元格确定所述最接近元素的步骤的运行时复杂度为
O(a*f+v...

【专利技术属性】
技术研发人员:T
申请(专利权)人:因美纳剑桥有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1