一种批量计算近缘物种间基因组编码区SNP位点的方法技术

技术编号：20162464 阅读：41 留言：0更新日期：2019-01-19 00:15

本发明专利技术公开了一种批量计算近缘物种间基因组编码区SNP位点的方法。本发明专利技术所提供的计算近缘物种间基因组编码区SNP位点(coding SNP，cSNP)的方法综合运用了基于Blast成对比对结果后进行聚类搜索直系同源基因的InParanoid程序，基于比对两套DNA编码区序列(cds序列)的Crossmatch载体屏蔽软件，以及结合Perl脚本语言编程等方法。实验证明，本发明专利技术所提供的批量计算近缘物种间cSNP位点的方法比较系统，检测近缘物种间cSNP的重复效果好，速度快，易实现批量化、自动化和流程化。

全部详细技术资料下载

【技术实现步骤摘要】
一种批量计算近缘物种间基因组编码区SNP位点的方法
本专利技术属于生物
，涉及一种批量计算近缘物种间基因组编码区SNP(cSNP)位点的方法。
技术介绍
分子标记是分子遗传学研究中的一种重要工具。可以广泛应用于图谱构建、分子标记辅助育种、群体关联分析、生物群体多样性分析、亲缘关系研究等领域。种间通用性分子标记可应用于种间进化关系研究、种间比较作图、分子标记辅助育种等研究领域，具有重要的生物学意义。起初DNA分子标记的通用性研究多集中于多态性丰富的SSR标记。SNP标记作为近几年发展起来的一种新型分子标记，具有高遗传稳定性、共显性、含量丰富、分布广泛且常与治病基因或重要性状基因相关联等优点，具有重要的生物学意义。在遗传图谱构建、QTL定位、基因功能分析、分子标记辅助育种等领域得到广泛应用。基于新一代高通量测序技术的发展，多种快速、准确、高通量的分子标记开发技术应运而生，使得DNA分子标记开发摆脱了低通量、高成本的瓶颈，不仅为种内SNP标记的开发奠定了基础，也为种间通用性分子标记的研究提供有力的支持。新一代分子标记SNP因其含量丰富，分布广泛且代表性强等优势，在...

【技术保护点】
1.一种批量计算近缘物种间基因组编码区SNP位点的方法，包括如下流程步骤：(1)将两待测物种SpeciⅠ和SpeciⅡ基因组蛋白序列fasta格式文件分别记为A和B数据集，所述A、B数据集的文件名分别为“XXX1”和“XXX2”，利用Linux系统中的InParanoid软件，运行“perl inparanoid.pl XXX1 XXX2”命令，得到“orth_Bol_Bra.txt”文件；所述“orth_Bol_Bra.txt”文件中的数据为SpeciⅠ和SpeciⅡ两物种间的直系同源基因对及分值，记为C数据集；所述“XXX1”和“XXX2”在运行InParanoid程序时已置于包含“inp...

【技术特征摘要】
1.一种批量计算近缘物种间基因组编码区SNP位点的方法，包括如下流程步骤：(1)将两待测物种SpeciⅠ和SpeciⅡ基因组蛋白序列fasta格式文件分别记为A和B数据集，所述A、B数据集的文件名分别为“XXX1”和“XXX2”，利用Linux系统中的InParanoid软件，运行“perlinparanoid.plXXX1XXX2”命令，得到“orth_Bol_Bra.txt”文件；所述“orth_Bol_Bra.txt”文件中的数据为SpeciⅠ和SpeciⅡ两物种间的直系同源基因对及分值，记为C数据集；所述“XXX1”和“XXX2”在运行InParanoid程序时已置于包含“inparanoid.pl”的文件夹内；(2)为ActivePerl软件安装Bioperl模块，建立工作文件夹work_dir，将待测SpeciⅠ和SpeciⅡ两物种基因组cds编码区序列fasta格式文件分别记为D和E数据集，所述D、E数据集的文件名分别为“XXX3”和“XXX4”，运行“perlfind_bra_bol_cds_seq.plXXX3XXX4orth_Bol_Bra.txt”命令，在当前工作文件夹work_dir下得到“res_bra_bol_cds_seq”文件；所述“res_bra_bol_cds_seq”文件为满足Crossmatch软件输入格式的文件，记为数据集F；所述“XXX3”和“XXX4”在运行“perlfind_bra_bol_cds_seq.pl”程序时已置于包含脚本“find_bra_bol_cds_seq.pl”的当前工作文件夹work_dir内；(3)在当前工作文件夹work_dir内运行“cross_matchres_bra_bol_cds_seqalignments-discrep_lists>res_out_cm”命令，得到“res_out_cm”文件；所述“res_out_cm”文件为Crossmatch软件计算后的输出文件，记为数据集G；且在运行“cross_matchres_bra_bol_cds_seqalignments-discrep_lists>res_out_cm”命令后所产生的新“res_out_cm”结果文件在当前工作文件夹work_dir内；(4)在当前工作文件夹work_dir内运行“perlcross_match_snp.pl”，得到文件“my_line_cm_snp”；所述“my_line_cm_snp”文件记为数据集H，该数据集中的序列即为从待测SpeciⅠ和SpeciⅡ两物种基因组编...

【专利技术属性】
技术研发人员：郭月，刘静，杜建厂，胡茂龙，浦惠明，张洁夫，龙卫华，张维，周晓婴，
申请(专利权)人：江苏省农业科学院，
类型：发明
国别省市：江苏,32

全部详细技术资料下载我是这个专利的主人