信息处理程序、信息处理方法以及信息处理装置制造方法及图纸

技术编号:37296871 阅读:10 留言:0更新日期:2023-04-21 22:43
信息处理装置获取作为特定的个人的基因组信息的被断开为多个的断开基因组数据。信息处理装置基于将密码子和代码建立对应的密码子变换表,生成将多个断开基因组数据分别以密码子为单位进行编码的多个断开密码子数据。信息处理装置基于将成为基准的基准基因组数据以密码子为单位进行编码的基准密码子数据、和多个断开密码子数据的每一个断开密码子数据,确定出现在多个断开密码子数据中的代码中的与出现在基准密码子数据中的代码不同的基因变异出现的位置和种类。信息处理装置生成将基因变异和基因变异出现的位置及种类建立对应的基因变异转置索引。的基因变异转置索引。的基因变异转置索引。

【技术实现步骤摘要】
【国外来华专利技术】信息处理程序、信息处理方法以及信息处理装置


[0001]本专利技术涉及信息处理程序、信息处理方法以及信息处理装置。

技术介绍

[0002]近年来,通过分析构成人类、生物的DNA(Deoxyribonucleic Acid:脱氧核糖核酸)以及RNA(Ribonucleic Acid:核糖核酸)的基因组,预测新型病毒的影响力,开发了疫苗等。另外,根据基因组,进行检测癌等的突变(点突变)、基因变异的基因的异常,或预防诊断疾病的研究。
[0003]具体而言,已知有将人类基因组的碱基序列与位置建立对应地存储,将个体间的差异作为有益的意义信息提供的技术。例如,获取与基因组的分析服务等的请求信息相应的碱基序列的位置信息,响应与获取到的位置信息相对应的碱基序列信息。
[0004]专利文献1:日本特开2012

234558号公报;
[0005]专利文献2:日本特开2012

157283号公报。
[0006]另外,从定序器输出的碱基序列每隔数百B(Byte)被断开。并且,人类基因组的碱基序列的数据尺寸为3GB(Byte),非常大。
[0007]以往,在被断开的状态下获取个人基因组的碱基序列,因此进行连结被断开的碱基序列。作为连结的技术,大多利用BW(Burrows

Wheeler)变换或者区块排序等,但由于搜索并连结被断开的部分,因此分析时间非常长。因此,碱基序列的分析时间的长度和连结后的数据尺寸是课题。

技术实现思路

[0008]在一个方面,其目的在于提供能够缩短个人基因组的分析时间,缩小数据尺寸的信息处理程序、信息处理方法以及信息处理装置。
[0009]在第一方案中,信息处理程序使计算机执行如下处理:获取作为特定的个人的基因组信息的被断开为多个的断开基因组数据。信息处理程序使计算机执行如下处理:基于将密码子和代码建立对应的密码子变换表,生成将多个断开基因组数据的每一个以密码子为单位进行编码后的多个断开密码子数据。信息处理程序使计算机执行如下处理:基于将成为基准的基准基因组数据以密码子为单位进行编码后的基准密码子数据、和上述多个断开密码子数据的每一个断开密码子数据,确定出现在上述多个断开密码子数据中的上述代码中的与出现在上述基准密码子数据中的上述代码不同的基因变异出现的位置和种类。信息处理程序使计算机执行如下处理:生成将上述基因变异和上述基因变异出现的位置及种类建立对应的基因变异转置索引。
[0010]根据一个实施方式,能够缩短个人基因组的分析时间,缩小数据尺寸。
附图说明
[0011]图1是说明实施例1所涉及的信息处理装置的动作的图。
~“Y”的符号表示。对一个氨基酸对应有多种密码子。因此,例如氨基酸“丙氨酸(Ala)”与密码子“GCU”、“GCC”、“GCA”以及“GCG”相对应。即使第三碱基不同,也具有成为相同的氨基酸的特征。
[0038]如图1所示,信息处理装置10保持将密码子和分配给该密码子的压缩代码(以下有时仅记载为“代码”)建立对应的密码子变换表。例如,在密码子变换表中对应有“UUU、@”等作为“密码子、代码”。
[0039]然后,信息处理装置10使用密码子变换表,生成将基准基因组数据“UUU
···”以密码子为单位进行编码后的基准密码子数据“@Ek
···”。另外,信息处理装置10生成将基准密码子数据中的密码子的代码和出现位置建立对应的位图型的基准转置索引。
[0040]在这样的状态下,信息处理装置10从解读个人基因组的定序器获取断开基因组数据α~η。于是,信息处理装置10将断开基因组数据α~η的每一个保持被断开的状态,参照密码子变换表,以密码子为单位进行编码,从而生成断开密码子数据α~η。
[0041]然后,信息处理装置10将断开密码子数据α~η的每一个按顺序使用基准转置索引,从基准密码子数据中提取部分基准密码子数据。将断开密码子数据和部分基准密码子数据以密码子为单位按顺序进行比较,从而检测表示个人间的遗传信息的稍微的不同的单核苷酸多态性(以下,称为基因变异),生成将变异的种类及其位置建立对应的位图型的SNPs转置索引(基因变异转置索引)。
[0042]此时,信息处理装置10不连结断开密码子数据α~η,而使用基准转置索引,进行与断开密码子数据相应的密码子序列的缩减,提取部分基准密码子数据,从而能够使SNPs转置索引的生成高速化。例如,信息处理装置10通过最长一致字串搜索,从基准基因组的基准转置索引中,缩减预先指定的成为搜索对象的基准密码子序列“UUU、UCC、AAG、UCA、UGG”的编码数据“@、E、k、F、O”出现的位置。
[0043]此处,信息处理装置10将断开密码子数据和所提取的部分基准密码子数据以密码子为单位进行比较,检测不同的密码子的基因变异。而且,信息处理装置10将转置索引初始化为“0”,仅在与不同的密码子的碱基及其位置对应的位设置“1”,从而能够不连结全部的断开密码子数据,而生成SNPs转置索引20。
[0044]这样,信息处理装置10即使在个人基因组被断开的情况下,也能够保持被断开的状态,分析基因变异,因此能够缩短个人基因组的分析时间。
[0045][功能结构][0046]图2是表示实施例1所涉及的信息处理装置10的功能结构的功能框图。如图2所示,信息处理装置10具有通信部11、存储部12、控制部30。
[0047]通信部11是控制与其它的装置之间的通信的处理部,例如由通信接口等实现。例如,通信部11在与作为个人基因组的提供源的定序器之间执行数据的收发,接收每隔数百B被断开的断开基因组数据13α~13η。
[0048]存储部12是存储各种数据、控制部30执行的各种程序等的处理部,例如由存储器、硬盘等实现。该存储部12存储断开基因组数据13、密码子变换表14、断开密码子数据15、基准基因组数据16、基准密码子数据17、基准转置索引18、部分基准密码子数据19、SNPs转置索引20。
[0049]断开基因组数据13是分析对象的个人基因组按规定尺寸被断开的断开碱基序列
数据。例如,断开基因组数据13是包含根据个人基因组“UUUUUCA
···”生成的断开基因组数据13α“UUU
···”~断开基因组数据13η“···
C”的数据。该断开基因组数据13由控制部30获取。
[0050]密码子变换表14是在对碱基序列进行编码时所使用的信息,将密码子和代码建立对应地存储。具体而言,密码子变换表14是将出现频率高的高频出密码子和分配给该高频出密码子的代码建立对应的变换信息。
[0051]图3是表示密码子变换表14的例子的图。如图3所示,例如,密码子“UUU”的代码为“40h(01000000)”。“h”表示16进制。此外,在本实施例中,在对密码子“UUU”进行编码的情况下记载为“40h(01000000)”,为了容易理解说明,表记“UUU(40h)本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种信息处理程序,其特征在于,使计算机执行如下处理:获取作为特定的个人的基因组信息的被断开为多个的断开基因组数据;基于将密码子和代码建立对应的密码子变换表,生成将多个断开基因组数据分别以密码子为单位进行编码后的多个断开密码子数据;基于将成为基准的基准基因组数据以密码子为单位进行编码后的基准密码子数据、和所述多个断开密码子数据的每一个断开密码子数据,确定出现在所述多个断开密码子数据中的所述代码中的与出现在所述基准密码子数据中的所述代码不同的基因变异出现的位置和种类;生成将所述基因变异和所述基因变异出现的位置及种类建立对应的基因变异转置索引。2.根据权利要求1所述的信息处理程序,其特征在于,在所述确定的处理中,从将所述基准密码子数据中的所述密码子的代码和所述密码子的代码的出现位置建立对应的基准转置索引,确定作为搜索对象的基准密码子序列的位置,将与确定的所述位置对应的所述基准密码子数据内的代码和与所述位置对应的所述多个断开密码子数据内的代码进行比较,确定所述基因变异出现的位置和种类。3.根据权利要求1所述的信息处理程序,其特征在于,使所述计算机执行如下处理:生成与患者的所述断开基因组数据对应的所述基因变异转置索引;生成通过不同的加密方法对识别所述患者的标识、所述基因变异转置索引、所述密码子变换表分别进行加密而结合的数据;输出所述数据。4.根据权利要求1所述的信息处理程序,其特征在于,使所述计算机执行如下处理:在所述获取的处理中,获取作为癌患者的基因组信息的被断开为多个的所述断开基因组数据,在所述生成的处理中,生成与所述癌患者对应的所述多个断开密码子数据,在所述确定的处理中,基于健康的人的所述基准密码子数据、和与所述癌患者对应的所述多个断开密码子数据,确定所述基因变异出现的位置和种类,在所述生成的处理中,使用所确定的所述基因变异的位置和种类,生成与所述癌患者对应的所述基因变异转置索引。5.根据权利要求4所述的信息处理程序,其特征在于,使所述计...

【专利技术属性】
技术研发人员:片冈正弘松村量茂栉薰
申请(专利权)人:富士通株式会社
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1