用于基于稀疏向量的矩阵变换的方法和系统技术方案

技术编号:28048784 阅读:75 留言:0更新日期:2021-04-09 23:40
描述了用于利用全局标识符、群组标识符、n元组表示和稀疏向量中的一者或多者将矩阵转换成基于稀疏向量的矩阵的方法和系统。描述了用于划分矩阵的方法和系统。描述了用于管理分布式计算环境中的任务的执行的方法和系统。描述了用于在分布式计算环境内定位数据的方法和系统。

【技术实现步骤摘要】
【国外来华专利技术】用于基于稀疏向量的矩阵变换的方法和系统相关专利申请的交叉引用本申请要求2018年6月1日提交的美国临时申请62/679,517和2019年4月30日提交的美国临时申请62/840,986的优先权,其全文以引用方式并入本文中。
技术介绍
新类别药物的发现、开发和商业化可能需要数十年数十亿的研究和开发投资。研究表明,以人类遗传学证据为基础的新的药物靶标候选物具有显著提高的成功可能性。作为响应,创建了全面的遗传数据库来补充药物开发渠道。这种全面的遗传数据库包括来自超过250,000个具有成对的去识别的电子健康记录的个体的DNA序列数据。已经开发了高通量渠道用于检验所有基因突变和疾病性状之间的关联。结果,生成了大量包括基因型、健康性状及其关联的数据。尽管这些海量数据为获得新颖的治疗见解提供了空前的机会,但这些数据量却在实现药物研发中的大数据和基因组学承诺的道路上带来了许多挑战。这些挑战包括现代化问题、数据整合问题、可扩展性问题和分散分析。基因组分析软件工具的大部分被设计成在单个机器上运行,并以定制的平面文件格式操作,这些格式通常缺乏明确的数据模式。数据整合:原始的遗本文档来自技高网...

【技术保护点】
1.一种方法,包括:/n基于多个受试者的基因型数据和表型数据来生成基因型矩阵、数量性状矩阵或二元性状矩阵中的一者或多者;/n基于所述基因型矩阵、所述数量性状矩阵和所述二元性状矩阵来生成n元组数据结构;/n基于所述n元组数据结构来确定基于稀疏向量的基因型矩阵、基于稀疏向量的数量性状矩阵或基于稀疏向量的二元性状矩阵中的一者或多者;以及/n处理针对所述基于稀疏向量的基因型矩阵、所述基于稀疏向量的数量性状矩阵或所述基于稀疏向量的二元性状矩阵中的一者或多者的一个或多个查询。/n

【技术特征摘要】
【国外来华专利技术】20180601 US 62/679,517;20190430 US 62/840,9861.一种方法,包括:
基于多个受试者的基因型数据和表型数据来生成基因型矩阵、数量性状矩阵或二元性状矩阵中的一者或多者;
基于所述基因型矩阵、所述数量性状矩阵和所述二元性状矩阵来生成n元组数据结构;
基于所述n元组数据结构来确定基于稀疏向量的基因型矩阵、基于稀疏向量的数量性状矩阵或基于稀疏向量的二元性状矩阵中的一者或多者;以及
处理针对所述基于稀疏向量的基因型矩阵、所述基于稀疏向量的数量性状矩阵或所述基于稀疏向量的二元性状矩阵中的一者或多者的一个或多个查询。


2.根据权利要求1所述的方法,其中所述基因型矩阵基于所述基因型数据,其中所述基因型矩阵包括针对所述多个受试者中的每个的列和针对多个变体中的每个的多个行。


3.根据权利要求1所述的方法,其中所述数量性状矩阵基于所述表型数据,其中所述数量性状矩阵包括针对多个数量性状中的每个的列和针对所述多个受试者中的每个的多个行。


4.根据权利要求1所述的方法,其中所述二元性状矩阵基于所述表型数据,其中所述二元性状矩阵包括针对多个二元性状中的每个的列和针对所述多个受试者中的每个的多个行。


5.根据权利要求1所述的方法,还包括将元数据矩阵的至少一部分附加到所述基因型矩阵、所述数量矩阵和所述二元性状矩阵中的一者或多者。


6.根据权利要求1所述的方法,其中基于所述基因型矩阵、所述数量性状矩阵和所述二元性状矩阵来生成所述n元组数据结构进一步基于标识符管理器。


7.根据权利要求1所述的方法,其中基于所述n元组数据结构来确定基于稀疏向量的基因型矩阵、基于稀疏向量的数量性状矩阵或基于稀疏向量的二元性状矩阵中的一者或多者进一步基于标识符管理器。


8.根据权利要求1所述的方法,其中所述n元组数据结构包括行的行标识符、列的列标识符以及在所述行和所述列的交集处出现的值。


9.根据权利要求8所述的方法,其中所述行标识符包括染色体:位置:参考:备选或染色体:范围:参考:备选并且其中所述列标识符包括群组标识符。


10.根据权利要求1所述的方法,还包括由标识符管理器向所述多个受试者中的每个分配全局标识符和群组标识符,其中受试者能够被分配多于一个群组标识符和仅一个全局标识符。


11.根据权利要求10所述的方法,其中所述基于稀疏向量的基因型矩阵包括针对所述多个受试者中的每个的列和针对所述多个基因型中的每个的多个行,其中至少一列包括表示所述基因型矩阵的一个或多个值的稀疏向量。


12.根据权利要求11所述的方法,其中所述基于稀疏向量的数量性状矩阵包括针对所述多个受试者中的每个的列和针对所述多个基因型中的每个的多个行,其中至少一列包括表示所述数量性状矩阵的一个或多个值的稀疏向量。


13.根据权利要求12所述的方法,其中所述基于稀疏向量的二元性状矩阵包括针对所述多个受试者中的每个的列和针对所述多个基因型中的每个的多个行,其中至少一列包括表示所述二元性状矩阵的一个或多个值的稀疏向量。


14.根据权利要求13所述的方法,还包括根据列来对齐所述基于稀疏向量的基因型矩阵、所述基于稀疏向量的数量性状矩阵和所述基于稀疏向量的二元性状矩阵。


15.根据权利要求14所述的方法,其中根据列来对齐所述基于稀疏向量的基因型矩阵、所述基于稀疏向量的数量性状矩阵和所述基于稀疏向量的二元性状矩阵是基于所述全局标识符或所述群组标识符中的一者或多者。


16.根据权利要求11所述的方法,其中表示所述基因型矩阵的一个或多个值的所述稀疏向量包括具有针对与在所述基因型矩阵的行中具有非零值的受试者相关联的每个群组标识符的列的数据结构。


17.根据权利要求11所述的方法,其中表示所述基因型矩阵的一个或多个值的所述稀疏向量包括纯合参考。


18.根据权利要求12所述的方法,其中表示所述数量性状矩阵的一个或多个值的所述稀疏向量包括具有针对与在所述数量性状矩阵的列中具有非空值的受试者相关联的每个群组标识符的列的数据结构。


19.根据权利要求13所述的方法,其中表示所述二元性状矩阵的一个或多个值的所述稀疏向量包括具有针对与在所述二元性状矩阵的列中具有非零值的受试者相关联的每个群组标识符的列的数据结构。


20.根据权利要求13所述的方法,其中表示所述基因型矩阵或所述数量性状矩阵的一个或多个值的所述稀疏向量被配置为丢弃0(零)值,其中表示所述数量性状矩阵的一个或多个值的所述稀疏向量被配置为允许0(零)值并且丢弃空值,其中表示所述数量性状矩阵的一个或多个值的所述稀疏向量包括未定义值,并且其中表示所述二元性状矩阵的一个或多个值的所述稀疏向量包括未定义值。


21.根据权利要求1所述的方法,还包括:
接收另外的多个受试者的另外的基因型数据和另外的表型数据;
由所述标识符管理器向所述多个受试者与所述另外的多个受试者之间共同的每个受试者分配群组标识符;以及
由所述标识符管理器向所述多个受试者与所述另外的多个受试者之间非共同的所述受试者中的每个受试者分配全局标识符和群组标识符,其中受试者能够被分配多于一个群组标识符和仅一个全局标识符。


22.根据权利要求21所述的方法,还包括:
将所述另外的基因型数据的至少一部分添加到所述基因型矩阵;
将所述另外的表型数据的至少一部分添加到所述数量性状矩阵;
将所述另外的表型数据的至少一部分添加到所述数量性状矩阵;以及
将所述元数据矩阵的至少一部分附加到所述基因型矩阵、所述数量性状矩阵和所述二元性状矩阵中的每一者。


23.根据权利要求1所述的方法,还包括基于所述基因型矩阵、所述数量性状矩阵或所述二元性状矩阵中的一者或多者生成关联结果矩阵。


24.根据权利要求23所述的方法,还包括划分所述关联结果矩阵。


25.根据权利要求24所述的方法,其中划分所述关联结果矩阵包括:
为多个染色体中的每个生成文件夹数据结构;
将所述关联结果矩阵按基因组范围划分成多个文件;以及
基于所述基因组范围和所述多个染色体,将所述多个文件存储在所述文件夹数据结构中。


26.根据权利要求1所述的方法,其中处理针对所述基于稀疏向量的基因型矩阵、基于稀疏向量的数量性状矩阵或所述基于稀疏向量的二元性状矩阵中的一者或多者的一个或多个查询包括:
接收要执行数据比较的请求,其中所述请求识别基于稀疏向量的性状矩阵(TM)中的一个或多个性状以与所述基于稀疏向量的基因型矩阵(GM)中的一个或多个基因型进行比较,其中所述基于稀疏向量的性状矩阵包括所述基于稀疏向量的数量性状矩阵的至少一部分和所述基于稀疏向量的二元性状矩阵的至少一部分;
确定要执行所述数据比较的多个工作者;
基于所述多个工作者将所述基于稀疏向量的基因型矩阵划分成多个GM分区;
向所述多个工作者中的每个工作者提供所述多个GM分区中的GM分区,其中所述多个工作者中的每个工作者接收不同的GM分区;
基于所识别的一个或多个性状将所述基于稀疏向量的性状矩阵划分成一个或多个TM分区;
向所述多个工作者中的每个工作者提供所述一个或多个TM分区中的第一TM分区;以及
使所述多个工作者中的每个工作者执行所述数据比较,其中所述多个工作者中的每个工作者将所述第一TM分区与所述GM分区进行比较。


27.根据权利要求26所述的方法,其中所述数据比较的结果包括一个或多个性状-基因型关联。


28.根据权利要求26所述的方法,还包括:
从所述多个工作者中的每个工作者接收所述数据比较完成的指示;
基于所述指示向所述多个工作者中的每个工作者提供第二TM分区;以及
使所述多个工作者中的每个工作者执行所述数据比较,其中所述多个工作者中的每个工作者将所述第二TM分区与所述GM分区进行比较。


29.根据权利要求26所述的方法,还包括:
从所述多个工作者中的工作者接收所述工作者已完成与所述第一TM分区的所述数据比较的指示;
基于所述指示向所述多个工作者中的所述工作者提供第二TM分区;以及
使所述多个工作者中的所述工作者执行与所述第二TM分区的所述数据比较。


30.根据权利要求26所述的方法,还包括从所述多个工作者中的每个工作者接收所述数据比较的结果,其中所述数据比较的所述结果包括具有性状和基因型两者的受试者的一个或多个计数。


31.根据权利要求30所述的方法,其中所述一个或多个受试者计数包括具有参考等位基因-参考等位基因(RR)基因型、参考等位基因-备选等位基因(RA)基因型、备选等位基因-备选等位基因(AA)基因型或无调用(NC)基因型的受试者计数。


32.根据权利要求31所述的方法,还包括基于所述一个或多个受试者计数来生成针对所识别的一个或多个性状中的每个的列联表。


33.根据权利要求32所述的方法,其中所述列联表包括针对案例受试者的行和针对对照受试者的行,以及针对所述RR基因型、所述RA基因型、所述AA基因型和所述NC基因型的列,其中行和列的交集指示表示所述行和所述列的受试者计数。


34.根据权利要求33所述的方法,还包括基于所述列联表来评价汇总统计数据。


35.根据权利要求34所述的方法,其中所述汇总统计数据包括费希尔精确检验。


36.根据权利要求31所述的方法,还包括:
确定与所识别的一种或多种性状相关的一种或多种基因型中的每一种的基因型标识符(GID);
确定所识别的一个或多个性状中的每个的性状标识符(TID);以及
生成包括多个行和多个列的支架数据结构,其中所述多个列包括基因型标识符列、相关联的性状列的性状标识符、针对所述相关联的性状列的列联表、以及汇总统计数据列。


37.根据权利要求36所述的方法,还包括:
查询所述支架数据结构以识别多个候选性状-基因型关联;以及
查询所述多个TM分区以从所述多个候选性状-基因型关联确定包括性状的TM分区。


38.根据权利要求37所述的方法,其中查询所述支架数据结构以识别多个候选性状-基因型关联是基于所述汇总统计数据列、所述一个或多个受试者计数或两者。


39.根据权利要求37所述的方法,还包括:
向所述多个工作者中的每个工作者提供第三TM分区,所述第三TM分区包括来自所述多个候选性状-基因型关联的性状和基因型标识符列表。


40.根据权利要求39所述的方法,还包括:
使所述多个工作者中的每个工作者确定工作者的GM分区是否包括来自所述基因型标识符列表的基因型标识符;并且
如果工作者的GM分区包括来自所述基因型标识符列表的所述基因型标识符,则使所述工作者检索与所述基因型标识符相关联的稀疏向量;
使所述工作者将所述稀疏向量致密化;以及
使所述工作者基于致密化的稀疏向量来执行统计分析。


41.根据权利要求40所述的方法,其中所述统计分析包括逻辑回归或线性回归中的一种或多种。


42.根据权利要求26所述的方法,其中所述基于稀疏向量的基因型矩阵包括聚合的基于稀疏向量的基因型矩阵。


43.根据权利要求42所述的方法,还包括:
使用一个或多个布尔运算子基于多个基因来查询源基于稀疏向量的基因型矩阵;以及
基于查...

【专利技术属性】
技术研发人员:E·麦克斯韦L·巴纳德A·亚达夫J·史泰博J·雷德L·赫碧嘉
申请(专利权)人:瑞泽恩制药公司
类型:发明
国别省市:美国;US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利