System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及生物信息,特别是涉及一种微卫星位点筛选分析方法、系统、计算机设备及存储介质。
技术介绍
1、法医遗传学研究中,遗传多态性高、种属特异性强、分析便捷的微卫星(shorttandem repeats,str)位点是用于个体识别与亲缘鉴定的主流遗传标记。然而,种属特异性强就意味着相近物种需要筛选不同str基因座才能符合检验需求。
2、现有的str基因座筛选方法主要包括以下三种:(1)构建基因组文库后使用寡核苷酸探针从中钓取目标str基因座;(2)从相关数据库或文献中查找目标物种或其近缘物种的目标str基因座;(3)使用tandem repeat finder(trf)等软件从已报道基因组中筛选满足软件算法的str基因座。尽管现有的微卫星位点筛选方法可满足一定程度的使用需求,但其均存在着相应的应用缺陷:构建基因组文库后钓取的方法虽灵敏度高但操作复杂、周期长、成本高、效率低,对于鉴定需求大的人、猫、狗等物种,需要长期投入筛选才能得到足够数量、多态性高的str基因座;从现有数据库资源中获取目标物种的已报道位点信息的方法通常无法用于研究较少的物种;通过生物信息软件筛选的方法虽然相对前两种成本较低、速度较快,但基因组中满足目标软件算法的str位点数目往往较大,无法实现目标位点的精选,筛选效率和精准性都有待提升,且仅以单一参考基因组代表目标物种的方法获得的str基因座代表性差、多态性不确定,难以真正满足实际应用需求,导致相关鉴定与遗传学研究受限。
技术实现思路
1、本专利技
2、为了实现上述目的,有必要针对上述技术问题,提供一种微卫星位点筛选分析方法、系统、计算机设备及存储介质。
3、第一方面,本专利技术实施例提供了一种微卫星位点筛选分析方法,所述方法包括以下步骤:
4、根据预设基因组组装级别,获取目标物种的若干个基因组数据;所述基因组数据包括参考基因组数据;
5、通过trf软件对所述参考基因组数据进行处理,得到对应的预处理参考基因组数据;
6、采用预设脚本程序对所述预处理参考基因组数据进行格式处理,得到对应的目标参考基因组数据;
7、根据所述目标参考基因组数据,获取基准基因序列文件,并根据所述基准基因序列文件,得到初筛基因座;
8、将所述基准基因序列文件与各个基因组数据进行基因序列比对,得到若干个序列比对结果文件,并根据所述序列比对结果文件对所述初筛基因座进行筛选,得到目标基因座。
9、进一步地,所述采用预设脚本程序对所述预处理参考基因组数据进行格式处理,得到对应的目标参考基因组数据的步骤包括:
10、读取所述预处理参考基因组数据,并将所述预处理参考基因组数据中的无用信息去除,得到第一参考基因组数据;
11、遍历所述第一参考基因组数据中的各个基因座,将各个基因座添加对应的序列信息,得到第二参考基因组数据;
12、根据格式调整指标,对所述第二参考基因组数据进行调整,得到所述目标参考基因组数据;所述格式调整指标包括目标基因座类型、核心序列重复次数、核心序列中基因座基序所占比例、核心序列中非基因座基序所占比例和染色体定位准确性。
13、进一步地,所述根据所述目标参考基因组数据,获取基准基因序列文件的步骤包括:
14、获取所述目标参考基因组数据中的各个基因标记、以对应的标记开始位置和标记结束位置;
15、根据预设侧翼长度,对各个基因标记的标记开始位置和标记结束位置进行侧翼延长处理,并制作对应的基准基因bed文件;
16、通过bedtools对所述基准基因bed文件进行基因座序列提取,得到所述基准基因序列文件。
17、进一步地,所述根据所述序列比对结果文件对所述初筛基因座进行筛选,得到目标基因座的步骤包括:
18、采用所述预设脚本程序读取各个序列比对结果文件,并获取各个序列比对结果文件的基因座比中信息;所述基因座比中信息包括各个比中基因座的长度差异值、起始位点、终止位点和序列信息;
19、循环统计各个序列比对结果文件的基因座比中信息,得到各个初筛基因座在每个序列比对结果文件的比中序列个数,并获取每个序列比对结果文件的比中序列个数均为1的初筛基因座作为待确认基因座;
20、根据各个待确认基因座对应的基因座比中信息,对各个待确认基因座进一步筛选,得到所述目标基因座。
21、进一步地,所述根据各个待确认基因座对应的基因座比中信息,对各个待确认基因座进一步筛选,得到所述目标基因座的步骤包括:
22、获取基因座比中信息的长度差异值不全为0的待确认基因座,作为长度多态性基因座;
23、获取基因座比中信息的起始位点均小于终止位点的待确认基因座,作为正向基因座;
24、获取基因座比中信息的染色体编号准确的待确认基因座,作为准确定位基因座;
25、将所述长度多态性基因座、所述正向基因座和所述准确定位基因座取交集,得到所述目标基因座。
26、进一步地,所述根据所述序列比对结果文件对所述初筛基因座进行筛选,得到目标基因座的步骤之后,还包括:
27、获取各个目标基因座对应的目标基因座序列文件,并根据各个目标基因座序列文件的多序列比对分析结果,对各个目标基因座进行筛选,得到精选基因座。
28、进一步地,所述获取各个目标基因座对应的目标基因座序列文件,并根据各个目标基因座序列文件的多序列比对分析结果,对各个目标基因座进行筛选,得到精选基因座的步骤包括:
29、遍历各个序列比对结果文件,提取各个目标基因座的比中序列名、比中序列起始位置和比中序列终止位置;
30、根据所述比中序列名、所述比中序列起始位置和所述比中序列终止位置,确定染色体定位、起始位点和终止位点,并生成对应的目标基因组bed文件;
31、根据各个目标基因组bed文件,生成对应的目标序列文件,并将各个目标序列文件转换为对应的目标基因座序列文件;
32、循环执行各个目标基因座序列文件的多序列比对分析,得到对应的多序列比对结果文件;
33、循环统计各个多序列比对结果文件中不同基因组对应比对结果序列中预设核心序列区域内的长度差异标志数目,得到对应的基因座长度差异统计结果;所述基因座长度差异统计结果包括不同基因组对应的目标基因座长度差异数;
34、将各个基因座长度差异统计结果中不同基因组对应的目标基因座长度差异数不全为零的目标基因座,作为所述精选基因座。本文档来自技高网...
【技术保护点】
1.一种微卫星位点筛选分析方法,其特征在于,所述方法包括以下步骤:
2.如权利要求1所述的微卫星位点筛选分析方法,其特征在于,所述采用预设脚本程序对所述预处理参考基因组数据进行格式处理,得到对应的目标参考基因组数据的步骤包括:
3.如权利要求1所述的微卫星位点筛选分析方法,其特征在于,所述根据所述目标参考基因组数据,获取基准基因序列文件的步骤包括:
4.如权利要求1所述的微卫星位点筛选分析方法,其特征在于,所述根据所述序列比对结果文件对所述初筛基因座进行筛选,得到目标基因座的步骤包括:
5.如权利要求4所述的微卫星位点筛选分析方法,其特征在于,所述根据各个待确认基因座对应的基因座比中信息,对各个待确认基因座进一步筛选,得到所述目标基因座的步骤包括:
6.如权利要求1所述的微卫星位点筛选分析方法,其特征在于,所述根据所述序列比对结果文件对所述初筛基因座进行筛选,得到目标基因座的步骤之后,还包括:
7.如权利要求6所述的微卫星位点筛选分析方法,其特征在于,所述获取各个目标基因座对应的目标基因座序列文件,并根据各个
8.一种微卫星位点筛选分析系统,其特征在于,所述系统包括:
9.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一所述方法的步骤。
...【技术特征摘要】
1.一种微卫星位点筛选分析方法,其特征在于,所述方法包括以下步骤:
2.如权利要求1所述的微卫星位点筛选分析方法,其特征在于,所述采用预设脚本程序对所述预处理参考基因组数据进行格式处理,得到对应的目标参考基因组数据的步骤包括:
3.如权利要求1所述的微卫星位点筛选分析方法,其特征在于,所述根据所述目标参考基因组数据,获取基准基因序列文件的步骤包括:
4.如权利要求1所述的微卫星位点筛选分析方法,其特征在于,所述根据所述序列比对结果文件对所述初筛基因座进行筛选,得到目标基因座的步骤包括:
5.如权利要求4所述的微卫星位点筛选分析方法,其特征在于,所述根据各个待确认基因座对应的基因座比中信息,对各个待确认基因座进一步筛选,得到所述目标基因座的步骤包括:
6.如权利要求1所述的微卫...
【专利技术属性】
技术研发人员:孙宏钰,乌日嘎,李燃,刘佳俊,耿姣姣,
申请(专利权)人:中山大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。