转录组解析装置及解析方法制造方法及图纸

技术编号:21660969 阅读:23 留言:0更新日期:2019-07-20 06:12
本发明专利技术涉及转录组解析装置及解析方法。本发明专利技术中旨在使用关于转录产物的碱基序列数据而进行更高精度的转录组解析。本发明专利技术中生成对于含目的变量数据和基因表达量数据的多个数据集随机地削减基因表达量数据而得到的多个子数据集,对于多个子数据集应用正则化法而算出各自预测式,生成预测式中所含的基因的列表。

Transcriptome Analysis Device and Method

【技术实现步骤摘要】
转录组解析装置及解析方法
本专利技术涉及对关于转录组的信息进行解析的转录组解析装置及解析方法。
技术介绍
作为基于基因表达而预测生物的表现型的尝试,已知从基因表达数据和表现型数据重回归分析的方法(非专利文献1及专利文献1)。在非专利文献1中公开的方法中,为了使基因表达数据的重复消失,对于相同的操纵子而应用仅表达水平最高的数据等而限定基因表达数据。即便如此,转录组,一般而言,是指存在于指定的状态或条件下的组织或细胞内的全部转录产物。转录组含来自基因组上的编码区域的转录产物(即,mRNA)和来自非编码区域的转录产物(所谓的ncRNA)。通过对转录组进行解析,可得到因环境要因导致的基因表达的变动、与表现型关联表达的基因的鉴定等基于基因的表达状态的新的见解。在解析转录组时,例如,将存在于组织或细胞内的转录产物应用微阵列技术或下一代测序技术而整体测量。测量的数据是大量的碱基序列数据,是典型的大数据。作为统计学解析得到的数据的方法,如在专利文献2中公开,已知应用作为多变量解析的一方法的主成分分析的方法。在所述方法中,通过对于训练数据(不是由分析得到的碱基序列数据)进行主成分分析,可导出在条件不同的样品间能比较的结果。另外,作为转录组解析法,如在专利文献3中公开,已知从基因表达信息(状态变量)和性状信息(特性变量)生成解析对象的特性变量推定模型的方法。在专利文献3中公开的方法中,以特性变量作为目的变量(从属变量)、以状态变量的各自作为说明变量,生成有正则化项的回归模型。作为回归模型的算出式,例示LASSO回归(LeastAbsoluteShrinkageandSelectionOperator)。即便如此,LASSO回归是指为了防在统计学或机器学习的领域中的过度拟合而使用的正则化的一方法(L1型正则化法),是将大量的数据之中不重要的数据的参数设为0,从数据删除的基于稀疏正则化法的回归建模(非专利文献2)。【现有技术文献】【专利文献】【专利文献1】WO2016/148107【专利文献2】专利第5854346号【专利文献3】特开2017-51118号公报【非专利文献】【非专利文献1】NatureCommunications5,Articlenumber:5792(2014)【非专利文献2】RobertTibshirani,JournaloftheRoyalStatisticalSociety.SeriesB(Methodological)Vol.58,No.1(1996),pp.267-288【专利技术的概要】【专利技术要解决的课题】即便如此,由于在上述的转录组解析中,与解析对象的样品数比较,得到了碱基序列数据的转录产物的数极其大,因此在非专利文献1中公开的方法中难以得到充分地有含意的解析结果。另外,对于应用在专利文献3中公开的LASSO回归分析的解析方法,即使在与解析对象的样品数比较而得到碱基序列数据的转录产物的数是极其大时也期待良好的解析结果。但是,在转录组解析中,要求解析结果的进一步的精度提升。从而,本专利技术鉴于上述的实情,旨在提供可使用关于转录产物的碱基序列数据而进行更高精度的转录组解析的转录组解析装置及解析方法。【用于解决课题的手段】达成上述的目的的本专利技术包含以下。(1)转录组解析装置,其具备:生成对于含目的变量数据和基因表达量数据的多个数据集随机地削减基因表达量数据的第1~第m的子数据集(m≥2)的数据集生成单元,生成对于第1~第m的子数据集各自应用有正则化项的回归分析法而算出以目的变量数据作为目的变量、以基因表达量数据作为说明变量的第1~第m的预测式的预测式算出单元,及生成对应于第1~第m的预测式中所含的基因表达量数据的基因的列表的基因列表生成单元。(2)(1)所述的转录组解析装置,其特征在于,上述预测式算出单元作为上述回归分析法而应用LASSO(leastabsoluteshrinkageandselectionoperator)。(3)(1)所述的转录组解析装置,其特征在于,上述数据集生成单元生成1000~20000轮的子数据集(m=1000~20000)。(4)(1)所述的转录组解析装置,其特征在于,上述基因列表生成单元基于第1~第m的预测式而算出基因的出现概率,与算出的出现概率相关联而生成基因的列表。(5)(1)所述的转录组解析装置,其特征在于,上述基因列表生成单元从储存了基因的注释信息的数据库读取列表中所含的基因的注释信息,与读取的注释信息相关联而生成基因的列表。(6)(1)所述的转录组解析装置,其特征在于还有对于由上述基因列表生成单元生成的列表中所含的多个基因,由使用上述多个数据集中所含的目的变量数据和基因表达量数据的重回归分析生成关于指定的目的变量的预测模型式的预测模型式生成单元。(7)转录组解析方法,其包括:生成对于含目的变量数据和基因表达量数据的多个数据集随机地削减基因表达量数据的子数据集的子数据集生成工序,对于子数据集应用正则化法而算出以目的变量数据作为目的变量、以基因表达量数据作为说明变量的预测式的预测式算出工序,记录对应于预测式中所含的基因表达量数据的基因的基因记录工序,及将上述子数据集生成工序、上述预测式算出工序及上述基因记录工序重复m次(m≥2),生成记录的基因的列表的基因列表生成工序。(8)(7)所述的转录组解析方法,其特征在于,在上述预测式算出工序中,作为上述正则化法而应用LASSO(leastabsoluteshrinkageandselectionoperator)。(9)(7)所述的转录组解析方法,其特征在于,在上述子数据集生成工序中,生成1000~20000轮的子数据集(n=1000~20000)。(10)(7)所述的转录组解析方法,其特征在于,在上述基因列表生成工序中,基于以第1~第m次的重复生成的第1~第m的预测式而算出基因的出现概率,与算出的出现概率相关联而生成基因的列表。(11)(7)所述的转录组解析方法,其特征在于,在上述基因列表生成工序中,从储存了基因的注释信息的数据库读取列表中所含的基因的注释信息,与读取的注释信息相关联而生成基因的列表。(12)(7)所述的转录组解析方法,其特征在于,在上述基因列表生成工序之后还有,对于生成的列表中所含的多个基因,由使用上述多个数据集中所含的目的变量数据和基因表达量数据的重回归分析生成关于指定的目的变量的预测模型式的预测模型式生成工序。【专利技术的效果】根据本专利技术涉及的转录组解析装置及解析方法,能进行关于转录组的高精度的解析。从而,通过应用本专利技术涉及的转录组解析装置及解析方法,可高精度地进行例如,由指定的状态或条件这样的要因导致的基因表达的变动解析、与表现型关联的基因的表达解析、或者,基于基因表达的性状的预测解析等。【附图说明】【图1】是显示本专利技术涉及的转录组解析装置的一实施方式的功能框图。【图2】是显示本专利技术涉及的转录组解析方法的一实施方式的流程图。【图3】是显示由转录组解析装置及解析方法输出的基因的列表的一例的特性图。【图4】是显示由转录组解析装置及解析方法输出的基因的列表的其他例的特性图。【图5】是显示本专利技术涉及的转录组解析装置的其他实施方式的功能框图。【图6】是显示本专利技术涉及的转录组解析方法的其他实施方本文档来自技高网...

【技术保护点】
1.转录组解析装置,其具备:数据集生成单元,其生成对于含目的变量数据和基因表达量数据的多个数据集随机地削减基因表达量数据的第1~第m的子数据集,其中m≥2,预测式算出单元,其对于第1~第m的子数据集各自应用有正则化项的回归分析法而算出以目的变量数据作为目的变量、以基因表达量数据作为说明变量的第1~第m的预测式,及基因列表生成单元,其生成对应于第1~第m的预测式中所含的基因表达量数据的基因的列表。

【技术特征摘要】
2018.01.12 JP 2018-0036971.转录组解析装置,其具备:数据集生成单元,其生成对于含目的变量数据和基因表达量数据的多个数据集随机地削减基因表达量数据的第1~第m的子数据集,其中m≥2,预测式算出单元,其对于第1~第m的子数据集各自应用有正则化项的回归分析法而算出以目的变量数据作为目的变量、以基因表达量数据作为说明变量的第1~第m的预测式,及基因列表生成单元,其生成对应于第1~第m的预测式中所含的基因表达量数据的基因的列表。2.权利要求1所述的转录组解析装置,其特征在于,上述预测式算出单元作为上述回归分析法而应用LASSO(leastabsoluteshrinkageandselectionoperator)。3.权利要求1所述的转录组解析装置,其特征在于,上述数据集生成单元生成1000~20000轮的子数据集(m=1000~20000)。4.权利要求1所述的转录组解析装置,其特征在于,上述基因列表生成单元基于第1~第m的预测式而算出基因的出现概率,与算出的出现概率相关联而生成基因的列表。5.权利要求1所述的转录组解析装置,其特征在于,上述基因列表生成单元从储存了基因的注释信息的数据库读取列表中所含的基因的注释信息,与读取的注释信息相关联而生成基因的列表。6.权利要求1所述的转录组解析装置,其特征在于,还有预测模型式生成单元,其对于由上述基因列表生成单元生成的列表中所含的多个基因,由使用上述多个数据集中所含的目的变量数据和基因表达量数据的重回归分析生成关于指定的目的变量的预测模型式...

【专利技术属性】
技术研发人员:近藤聪大音德阿部圆佳青木直大A·福田广濑龙郎永野惇
申请(专利权)人:丰田自动车株式会社国立大学法人东京大学国立研究开发法人农业·食品产业技术总和研究机构学校法人龙谷大学
类型:发明
国别省市:日本,JP

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1