【技术实现步骤摘要】
一种批量合并eQTL分析结果中存在连锁不平衡SNP的方法
本专利技术属于生物
,涉及一种批量合并eQTL分析结果中存在连锁不平衡SNP的方法。
技术介绍
关联分析(associationanalysis)是一种以位点间的连锁不平衡(linkagedisequilibrium)为基础,采用统计方法检测遗传多态性与性状之间关联的分析方法。全基因组关联分析(genome-wideassociationstudy,GWAS)最初应用于人类疾病相关的研究中,这些研究对人类理解相关疾病的遗传基础和分子机制具有显著的贡献。近年来,随着高密度SNP基因分型芯片和全基因组测序等技术的发展,GWAS广泛应用于作物复杂性状遗传结构的解析。与传统的连锁分析相比,GWAS有多个优势:可以利用自然群体,无需针对特定性状构建作图群体,花费时间少;能同时检测群体同一基因的多个等位基因,有利于优良等位基因的挖掘;当群体连锁不平衡程度低并且标记覆盖度高时,定位精度高,可以达到单基因水平。eQTL(expressionquantitativetra ...
【技术保护点】
1.一种批量合并eQTL分析结果中存在连锁不平衡SNP的方法,其特征在于,步骤如下:/n(1)在Windows操作系统下创建工作目录eqtl_analysis及其子文件夹gene_info,将待分析植物的基因注释信息文件***.gff3和脚本abstract_gene_info.py放在gene_info文件夹下,运行“python abstract_gene_info.py***.gff3”命令,得到每条染色体各自的基因信息文件,记为G数据集;/nG数据集文件命名方式为染色体名+“_gene_info.txt”,不保留标题行,文件包括5列,分别为基因名、染色体、基因起始位 ...
【技术特征摘要】
1.一种批量合并eQTL分析结果中存在连锁不平衡SNP的方法,其特征在于,步骤如下:
(1)在Windows操作系统下创建工作目录eqtl_analysis及其子文件夹gene_info,将待分析植物的基因注释信息文件***.gff3和脚本abstract_gene_info.py放在gene_info文件夹下,运行“pythonabstract_gene_info.py***.gff3”命令,得到每条染色体各自的基因信息文件,记为G数据集;
G数据集文件命名方式为染色体名+“_gene_info.txt”,不保留标题行,文件包括5列,分别为基因名、染色体、基因起始位置、基因中止位置和正负链信息;
(2)将待分析植物的eQTL结果文件记为A数据集,格式为eQTL分析常用软件MatrixeQTL的结果文件格式;脚本separate_cis_trans.py参考G数据集提供的基因物理位置,分析SNP与基因的染色体和物理距离,将所有SNP划分为两类,顺式SNP和反式SNP;A数据集和脚本eqtl_cis_trans.py均放在工作目录eqtl_analysis下,运行命令“pythonseparate_cis_trans.pyXXX1.txtcis_dis”,得到“XXX1_cis.txt”和“XXX1_trans.txt”两个文件;
“XXX1.txt”代表所述A数据集的文件名,格式与eQTL分析常用软件MatrixeQTL的结果文件格式相同,包含6列“SNP”,“gene”,“beta”,“t-stat”,“p-value”和“FDR”,脚本利用其中“SNP”,“gene”和“p-value”三列信息;文件按“gene”和“SNP”两列信息进行排序;SNP的命名方式用染色体名+物理位置,染色体为3位或者10位,物理位置为8位数,不足的位数用0补全;
“cis_dis”为划分SNP为顺式SNP和反式SNP的距离阈值,默认设定为24,000bp;
所述“XXX1_cis.txt”为包含所有顺式SNP的文件名,记为B1数据集;所述“XXX1_trans.txt”为包含所有反式SNP的文件名,记为B2数据集;
(3)脚本combine_near_snp.py合并相邻的显著SNP,得到SNPcluster,并用其中最显著、物理位置小的SNP作为代表,将脚本combine_near_snp.py放在工作目录eqtl_analysis下,针对B1、B2数据集分别运行命令“pythoncombine_near_snp.pyXXX1_cis.txtpart_dis”和“pythoncombine_near_snp.pyXXX1_trans.txtpart_dis”,得到“XXX1_cis_median.txt”和“XXX1_trans_median.txt”两个文件;
“part_dis”为合并相邻SNP的距离阈值,默认设定为10,000bp;所述“XXX1_cis_median.txt”为合并相邻的顺式SNP后得到的结果文件,记为C1数据集;“XXX1_trans_median.txt”为合并相邻的反式SNP后得到的结果文件,记为C2数据集;
(4)为计算SNPclus...
【专利技术属性】
技术研发人员:孙程明,张洁夫,胡茂龙,付三雄,郭月,陈松,彭琦,王晓东,陈峰,张维,
申请(专利权)人:江苏省农业科学院,
类型:发明
国别省市:江苏;32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。