检测表现二元表型的蛋白序列集之间的高变异区制造技术

技术编号:14697438 阅读:178 留言:0更新日期:2017-02-24 02:21
本发明专利技术提供了用于鉴定被分至不同表型数据集的序列集之间的蛋白序列差异的基于计算机的生物信息学方法,所述方法涉及查询数据库以鉴定蛋白序列的第一表型数据集和另一表型数据集内的共同序列基序,计算每个数据集的基序之间的两两相关性,并计算数据集之间的变化以鉴定在给定数据集中保守的一个或多个基序并因此与该数据集的表型相关联(图1)。

【技术实现步骤摘要】
【国外来华专利技术】相关申请的交叉参考本申请要求2014年3月25日提交的美国临时专利申请号61/970,287的优先权。
本专利技术总体涉及计算鉴定表现二元表型的两个蛋白序列集之间的高变异区的方法和材料,所述二元表型例如来自早期基因蛋白的高风险和低风险人乳头瘤病毒基序。
技术介绍
生物信息学领域中的一个持续不断追求是开发用于检测相似蛋白序列但具有不同表型的两个数据集之间的具有高变异性的序列位点的框架。例如,人乳头瘤病毒(HVP),具有超过100个基因型,是非常复杂的一组人病原性病毒并且还具有相对相似的蛋白序列。致癌类型的HVP可在辅因子存在下诱导恶性转化。的确,超过99%的所有宫颈癌和大部分的生殖器癌是致癌性HPV类型的结果。这些HPV类型已经越来越与涉及皮肤、喉和食道的其它上皮癌联系起来。由于不能在动物模型中有效地产生成熟HPV病毒粒子,调查HPV瘤形成的研究是复杂的。因此,对于完全阐明HPV感染细胞中的致癌潜能具有持续不断的限制。更通常地,区分相似蛋白序列的不同表型的能力将是非常有用的。
技术实现思路
本公开涉及鉴定二元表型数据集中序列差异的新方法。例如,通过检查HPV早期基因的蛋白序列内的保守区域并寻找它们在已知低风险类型中的存在,可将所述方法应用于检测高风险HPV中的潜在治疗靶点。因此,在一个实施方式中,计算机执行的生物信息学方法鉴定被分至不同表型数据集的序列集之间的蛋白序列差异。所述方法通过以下进行:查询数据库以鉴定蛋白序列的第一表型数据集和另一表型数据集内的共同序列基序;计算每个数据集的基序之间的两两相关性;以及计算所述数据集之间的变化以鉴定在给定数据集中保守的一个或多个基序并因此与数据集的表型相关联。除非另有说明,在此所用的所有的技术和科学术语具有与本公开所属领域技术人员通常理解的相同的含义。材料、方法和实施例仅仅是说明性的并非旨在限制。在此提及的所有公开、专利申请、专利、序列、数据库条目和其它参考文献以其整体通过参考并入。在冲突的情况下,将以本说明书,包括定义为准。本专利技术的其它特征和优势将通过以下详细描述和附图以及通过权利要求书而显而易见。附图说明图1.用于鉴定与高风险HPV相关的基序的策略。在13个高风险参考序列的训练集上利用MEME鉴定高风险基序。然后利用MAST将这些基序应用于12个低风险参考序列集上,确定两个集中每个基序的产生的频率。另外,利用MAST和BLAST在NCBI蛋白数据库中的病毒序列、人ORF、以及这两种指定风险类别之外的HPV类型中搜索这些基序。图2.HPV蛋白图谱。在每一个它们各自基因中,每个显著位置的位置被高亮。另外,还确定了这些HPV早期基因中的已知保守基序的位置,所述保守基序在此分析中被检测但由于对致癌性显著而没有被过滤。这包括E6和E7的锌结合位点、E7的pRB结合位点和E5的第一结构域中的双亮氨酸基序。图3以列表形式显示统计学上显著的基序、它们在每个数据集中的频率,以及在基因中的位置和推定作用。进行带有耶茨校正的卡方检验从112个通过MEME确定的基序中产生10个统计学上显著的基序。然后,在风险未分类的其它HPV分离物的数据集中分别查询这些基序,这些基序的频率也显示在表格中。HPV16中每个基序的氨基酸范围与相对推定功能也在最后两列中指出。专利技术详述在此研究中利用的计算方法考虑到检测相似蛋白序列但具有不同表型的两数据集之间的具有高变异性的序列位点。在一个实施方式中,这些方法应用于HPV的研究。先前研究的序列比较技术检查了在一个集中的序列的种系发生,但限于揭示序列或数据集之间的变化。例如,在HPV的情况下,之前的比较基因组学研究将集中于一个或两个基因(主要是已知的致癌基因E6和E7)或每次调查少许HPV类型,通常是HPV16、HPV18和HPV45。本文中利用的生物信息学方法论提供了一种系统、全面和非监督式的方法,该方法用于确定有助于致癌作用的HPV蛋白质组中的区域。统计学上显著的基序表明在它们各自的蛋白质组区域中HR(高风险)和LR(低风险)类型之间的变化。这些区域于是可被看作是潜在有助于致癌作用的位点,并可根据蛋白区域的推定功能评估这些区域。此方法还可推广用于鉴定两个不同数据集之间的变化。利用本文中的方法具有被用作HPV治疗靶点的发现工具的潜能。这用作设计靶向显著区域以防止恶性转化的药物的先驱步骤。而且,这些进程是全面且无偏分析,这些进程可译为调查HPV之外的其它病毒或不同类别的蛋白。实施方式将在以下实施例中被进一步描述,这没有限制权利要求书中描述的专利技术的范围。实施例在所述方法的一个实施方式中,计算序列分析工具,如MEME和MAST(meme.sdsc.edu/meme/intro.html),以及统计分析被用于确定对HPV致癌性显著的序列基序。MEME鉴定在相似核苷酸或蛋白序列的数据集中保守的短序列特征、基序。MAST是利用MEME输出以在用户限定数据库或公共知识来源中搜索这些基序的比对搜索工具。与这些技术一起,使用耶茨连续性校对的卡方检验被用于查找存在于两数据集中的显著基序。回到图1,从NCBI参考序列数据库(www.ncbi.nlm.nih.gov/RefSeq/)中检索基因E1、E2、E4、E5、E6、E7、L1和L2的13个高风险和12个低风险类型的HPV蛋白参考序列。高风险数据集包括类型HPV16、18、31、33、35、39、45、51、52、56、58、59和68,而低风险组为类型HPV6、11、40、42、43、44、53、54、61、72、73和81。HPV51参考序列缺乏基因注释,并且HPV35的参考序列对于E2具有错误的蛋白输出。用来自UniProtKB/Swiss-Prot的全基因组条目P26554和P27220替代这两个参考序列。另外,由于在大多数参考序列条目中的E4和E5基因的限制注释,由于NIAIDHPV数据库PaVe(pave.niaid.nih.gov)包括选定参考序列的修订和重注释的提交,从NIAIDHPV数据库PaVe中检索它们各自的蛋白序列。结果,在PaVe中,13个高风险类型中只有12个和12个低风险类型中只有9个具有指定的E5基因。为鉴定HRHPV蛋白质组内的共同序列基序,采用MEME(用于基序引出的多重Em(MultipleEmforMotifElicitation))程序组(meme.sdsc.edu/memecgibin/rneme.cgi)。对于每个基因,利用MEME评估13个HRHPV类型,指定最小6个氨基酸和最大10个的基序宽度。使得基序能够重复,并基于基因的大小调整基序的最大数量。这确保没有两个引出的基序具有超过0.60的两两相关性。通过从MEME结果生成的MAST(基序比对搜索工具(MotifAlignmentSearchTool))结果计算该相关性。为确定LRHPV类型中这些基序的频率,利用在LRHPV类型中鉴定的基序,在所述12个LRHPV类型上进行单独的MAST搜索。确定每个病毒蛋白质组中的基序频率。为量化两个集(HRHPV和LRHPV)之间的变化,评估在12个LRHPV类型中单个高风险基序出现的频率。这里假设相比于LRHPV序列,在HRHPV序列中优选保守的基序将具有致癌潜能。首本文档来自技高网...
<a href="http://www.xjishu.com/zhuanli/27/201580016184.html" title="检测表现二元表型的蛋白序列集之间的高变异区原文来自X技术">检测表现二元表型的蛋白序列集之间的高变异区</a>

【技术保护点】
用于鉴定被分至不同表型数据集的序列集之间蛋白序列差异的计算机执行的生物信息学方法,所述方法包括:查询数据库以鉴定蛋白序列的第一表型数据集和另一表型数据集内的共同序列基序;计算每个数据集的基序之间的两两相关性;以及计算所述数据集之间的变化以鉴定在给定数据集中保守的一个或多个基序并因此与该数据集的表型相关联。

【技术特征摘要】
【国外来华专利技术】2014.03.25 US 61/970,2871.用于鉴定被分至不同表型数据集的序列集之间蛋白序列差异的计算机执行的生物信息学方法,所述方法包括:查询数据库以鉴定蛋白序列的第一表型数据集和另一表型数据集内的共同序列基序;计算每个数据集的基序之间的两两相关性;以及计算所述数据集之间的变化以鉴定在给定数据集中保守的一个或多个基序并因此与该数据集的表型相关联。2.权利要求1所述的方法,其中所述数据库包括用于基序引出的多重EM程序组。3.权利要求1所述的方法,其中指定最小六个氨基酸和最大十个氨基酸的基序宽度。...

【专利技术属性】
技术研发人员:卡伦·安德森伊曼纽尔·普鲁肖瑟曼
申请(专利权)人:亚利桑那州立大学董事会
类型:发明
国别省市:美国;US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1