一种批量计算近缘物种间基因组编码区SNP位点的方法技术

技术编号:20162464 阅读:41 留言:0更新日期:2019-01-19 00:15
本发明专利技术公开了一种批量计算近缘物种间基因组编码区SNP位点的方法。本发明专利技术所提供的计算近缘物种间基因组编码区SNP位点(coding SNP,cSNP)的方法综合运用了基于Blast成对比对结果后进行聚类搜索直系同源基因的InParanoid程序,基于比对两套DNA编码区序列(cds序列)的Crossmatch载体屏蔽软件,以及结合Perl脚本语言编程等方法。实验证明,本发明专利技术所提供的批量计算近缘物种间cSNP位点的方法比较系统,检测近缘物种间cSNP的重复效果好,速度快,易实现批量化、自动化和流程化。

【技术实现步骤摘要】
一种批量计算近缘物种间基因组编码区SNP位点的方法
本专利技术属于生物
,涉及一种批量计算近缘物种间基因组编码区SNP(cSNP)位点的方法。
技术介绍
分子标记是分子遗传学研究中的一种重要工具。可以广泛应用于图谱构建、分子标记辅助育种、群体关联分析、生物群体多样性分析、亲缘关系研究等领域。种间通用性分子标记可应用于种间进化关系研究、种间比较作图、分子标记辅助育种等研究领域,具有重要的生物学意义。起初DNA分子标记的通用性研究多集中于多态性丰富的SSR标记。SNP标记作为近几年发展起来的一种新型分子标记,具有高遗传稳定性、共显性、含量丰富、分布广泛且常与治病基因或重要性状基因相关联等优点,具有重要的生物学意义。在遗传图谱构建、QTL定位、基因功能分析、分子标记辅助育种等领域得到广泛应用。基于新一代高通量测序技术的发展,多种快速、准确、高通量的分子标记开发技术应运而生,使得DNA分子标记开发摆脱了低通量、高成本的瓶颈,不仅为种内SNP标记的开发奠定了基础,也为种间通用性分子标记的研究提供有力的支持。新一代分子标记SNP因其含量丰富,分布广泛且代表性强等优势,在近年的分子标记通用性本文档来自技高网...

【技术保护点】
1.一种批量计算近缘物种间基因组编码区SNP位点的方法,包括如下流程步骤:(1)将两待测物种SpeciⅠ和SpeciⅡ基因组蛋白序列fasta格式文件分别记为A和B数据集,所述A、B数据集的文件名分别为“XXX1”和“XXX2”,利用Linux系统中的InParanoid软件,运行“perl inparanoid.pl XXX1 XXX2”命令,得到“orth_Bol_Bra.txt”文件;所述“orth_Bol_Bra.txt”文件中的数据为SpeciⅠ和SpeciⅡ两物种间的直系同源基因对及分值,记为C数据集;所述“XXX1”和“XXX2”在运行InParanoid程序时已置于包含“inp...

【技术特征摘要】
1.一种批量计算近缘物种间基因组编码区SNP位点的方法,包括如下流程步骤:(1)将两待测物种SpeciⅠ和SpeciⅡ基因组蛋白序列fasta格式文件分别记为A和B数据集,所述A、B数据集的文件名分别为“XXX1”和“XXX2”,利用Linux系统中的InParanoid软件,运行“perlinparanoid.plXXX1XXX2”命令,得到“orth_Bol_Bra.txt”文件;所述“orth_Bol_Bra.txt”文件中的数据为SpeciⅠ和SpeciⅡ两物种间的直系同源基因对及分值,记为C数据集;所述“XXX1”和“XXX2”在运行InParanoid程序时已置于包含“inparanoid.pl”的文件夹内;(2)为ActivePerl软件安装Bioperl模块,建立工作文件夹work_dir,将待测SpeciⅠ和SpeciⅡ两物种基因组cds编码区序列fasta格式文件分别记为D和E数据集,所述D、E数据集的文件名分别为“XXX3”和“XXX4”,运行“perlfind_bra_bol_cds_seq.plXXX3XXX4orth_Bol_Bra.txt”命令,在当前工作文件夹work_dir下得到“res_bra_bol_cds_seq”文件;所述“res_bra_bol_cds_seq”文件为满足Crossmatch软件输入格式的文件,记为数据集F;所述“XXX3”和“XXX4”在运行“perlfind_bra_bol_cds_seq.pl”程序时已置于包含脚本“find_bra_bol_cds_seq.pl”的当前工作文件夹work_dir内;(3)在当前工作文件夹work_dir内运行“cross_matchres_bra_bol_cds_seqalignments-discrep_lists>res_out_cm”命令,得到“res_out_cm”文件;所述“res_out_cm”文件为Crossmatch软件计算后的输出文件,记为数据集G;且在运行“cross_matchres_bra_bol_cds_seqalignments-discrep_lists>res_out_cm”命令后所产生的新“res_out_cm”结果文件在当前工作文件夹work_dir内;(4)在当前工作文件夹work_dir内运行“perlcross_match_snp.pl”,得到文件“my_line_cm_snp”;所述“my_line_cm_snp”文件记为数据集H,该数据集中的序列即为从待测SpeciⅠ和SpeciⅡ两物种基因组编...

【专利技术属性】
技术研发人员:郭月刘静杜建厂胡茂龙浦惠明张洁夫龙卫华张维周晓婴
申请(专利权)人:江苏省农业科学院
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1