多组学融合剪接位点的识别方法及系统、设备和存储介质技术方案

技术编号：29463910 阅读：71 留言：0更新日期：2021-07-27 17:40

组学融合剪接位点的识别方法及系统、设备和存储介质，对待测试样本进行高通量测序，进行质量控制，获得转录组数据高质量的读段文件、组蛋白数据高质量的读段文件和甲基化数据高质量的读段文件；将转录组数据的高质量的读段文件和参考基因组文件进行比对，组装后与标准注释文件对比，得到剪接位点的位置；然后对基因组数据、组蛋白数据以及甲基化数据进行提取并进行编码，得到多组学数据集；将多组学数据集进行分割，得到训练集、验证集和测试集；将训练集放入到卷积神经网络中，加入神经网络注意力机制后对测试集进行识别，得到网络识别结果。本发明专利技术能够提高可变剪接位点的识别的准确率并且可以用来预测新的可变剪接位点。

Identification method, system, equipment and storage medium of multi omics fusion splice site

全部详细技术资料下载

【技术实现步骤摘要】
多组学融合剪接位点的识别方法及系统、设备和存储介质
本专利技术涉及多组学测序
，尤其是涉及多组学融合剪接位点的识别方法及系统、设备和存储介质。
技术介绍
可变剪接(AlternativeSplicing,AS)是指mRNA前体因为不同的剪接方式或者选择了不同的剪接位点产生不同的mRNA异构的现象。对于基因组的分析能够发现，在人类中35％-70％的基因拥有可变剪接异构体，而这些可变剪接也是导致一些疾病的重要因素，所以对于可变剪接的研究越发重视。可变剪接是转录后基因表达调控的重要步骤，能通过单个基因从而产生不同的RNA异构体进而有助于丰富蛋白质组学的多样性。而近年来的研究表明，可变剪接在人类肿瘤中也十分常见，通过特定癌症基因的剪接调节元件发生突变或者调节剪接机制发生了变化，产生可变剪接机制的更改进而影响蛋白质的变化而导致癌症的产生，所以，对可变剪接位点的研究，无论是在疾病、癌症的治疗和预后中都可以发挥极为重要的作用，并且对于一些治疗靶点以及新型药物的研发的发现也会产生帮助。目前对于可变剪接位点识别和预测主要...

【技术保护点】
1.一种多组学融合剪接位点的识别方法，其特征在于，包括以下步骤：/n对待测试样本进行高通量测序，获得转录组数据、组蛋白数据以及甲基化数据，并对转录组数据、组蛋白数据以及甲基化数据进行质量控制，获得转录组数据高质量的读段文件、组蛋白数据高质量的读段文件和甲基化数据高质量的读段文件；/n将转录组数据的高质量的读段文件和参考基因组文件进行比对，得到高质量比对文件，再进行组装，得到组装后的注释文件，将组装后的注释文件与标准注释文件对比，得到剪接位点的位置；/n根据剪接位点的位置对基因组数据进行提取并进行编码，得到基因编码结果，根据组蛋白数据高质量的读段文件对组蛋白数据进行提取并进行编码，得到组蛋白编码...

【技术特征摘要】
1.一种多组学融合剪接位点的识别方法，其特征在于，包括以下步骤：
对待测试样本进行高通量测序，获得转录组数据、组蛋白数据以及甲基化数据，并对转录组数据、组蛋白数据以及甲基化数据进行质量控制，获得转录组数据高质量的读段文件、组蛋白数据高质量的读段文件和甲基化数据高质量的读段文件；
将转录组数据的高质量的读段文件和参考基因组文件进行比对，得到高质量比对文件，再进行组装，得到组装后的注释文件，将组装后的注释文件与标准注释文件对比，得到剪接位点的位置；
根据剪接位点的位置对基因组数据进行提取并进行编码，得到基因编码结果，根据组蛋白数据高质量的读段文件对组蛋白数据进行提取并进行编码，得到组蛋白编码结果，根据甲基化数据高质量的读段文件对甲基化数据进行提取并进行编码，得到甲基化编码结果，将基因编码结果、组蛋白编码结果以及甲基化编码结果组合，得到多组学数据集；
将多组学数据集进行分割，得到训练集、验证集和测试集；
将训练集按照组学的不同放入到不同卷积核大小的卷积神经网络中，然后加入神经网络注意力机制，再进行特征提取，最后进行合并以联合预测剪接位点，得到最优深度学习网络；
通过最优深度学习网络对测试集进行识别，得到网络识别结果。

2.根据权利要求1所述的一种多组学融合剪接位点的识别方法，其特征在于，将同标准注释文件与标准注释文件对比，得到剪接位点的位置包括以下步骤：组装后的注释文件同标准注释文件中相同的外显子的右端点为5’端位点，左端点为3’端位点，组装后的注释文件中含有但在标准注释文件中没有的外显子的右端点为可疑5’端位点，左端点为可疑3’端位点，随机抽取与5’端位点、3’端位点、可疑5’端位点与可疑3’端位点不同的位点为非剪接位点；
剪接位点的位置包括5’端位点、3’端位点、可疑5’端位点、可疑3’端位点以及非剪接位点。

3.根据权利要求1所述的一种多组学融合剪接位点的识别方法，其特征在于，根据剪接位点的位置对基因组数据进行提取并进行编码，得到基因编码结果包括以下步骤：
通过给定位点直接从基因组数据中提取给定位点的上下各100nt范围的DNA序列并进行独热编码；其中，基因组数据的序列包含ACGT四种碱基，通过使用四维向量来对四种碱基进行编码，得到序列的编码为A为[1,0,0,0]T，C为[0,1,0,0]T，G为[0,0,1,0]T，T为[0,0,0,1]T。

4.根据权利要求1所述的一种多组学融合剪接位点的识别方法，其特征在于，根据组蛋白数据高质量的读段文件对组蛋白数据进行提取并进行编码，得到组蛋白编码结果包括以下步骤：
将组蛋白数据高质量的读段文件和测试样本的读段文件分别同参考基因组数据进行比对，获得两个高质量的比对文件，再两个高质量的比对文件进行统计学上的比较，获得信号p-value值，根据信号p-value值提取给定位点相应范围的信号p-value值。

5.根据权利要求1所述的一种多组学融合剪接位点的识别方法，其特征在于，根据甲基化数据高质量的读段文件对甲基化数据进行提取并进行编码，得到甲基化编码结果包括以下步骤：
将甲基化数据高质量的读段文件同参考基因组文件进...

【专利技术属性】
技术研发人员：杨晓飞，魏宏，叶凯，
申请(专利权)人：西安交通大学，
类型：发明
国别省市：陕西;61

全部详细技术资料下载我是这个专利的主人