一种遗传性心脏病基因辅助诊断系统的工作方法技术方案

技术编号:38139196 阅读:10 留言:0更新日期:2023-07-08 09:52
本发明专利技术公开了一种遗传性心脏病基因辅助诊断系统的工作方法,通过构建由待测基因选择模块、变异位点发现模块、变异位点注释模块、变异位点致病性分析模块和报告生成模块这五个模块构成的诊断系统,利用基因测序数据系统性的完善了对遗传性心脏病的诊断手段,使临床医生对是否是遗传性心脏病能够做出准确有效的风险评估和针对,有利于进一步开展针对患者的精准治疗。精准治疗。精准治疗。

【技术实现步骤摘要】
一种遗传性心脏病基因辅助诊断系统的工作方法


[0001]本专利技术涉及生物信息
,特别涉及一种遗传性心脏病基因辅助诊断系统的工作方法。

技术介绍

[0002]遗传性心脏病(Inherited Cardiac Conditions,ICCs)是指由基因变异所引起的,可以遗传给下一代的一组心脏疾病,是心源性猝死(Sudden Cardiac Death,SCD)的主要原因,包括心肌结构异常、遗传性心律失常和主动脉病等。临床上,遗传性心脏病表现多样、病情发展各异、呈现家族性等特征,仅通过问询和常规检测手段,医生往往难以对疾病做出准确有效的风险评估和诊断,不利于进一步开展针对患者的精准治疗。
[0003]随着基因技术和测序数据处理技术的发展及普及,使得基于目标基因集、全外显子组、全基因组的测序以及海量基因数据的处理与解读成为可能。目前,基因测序数据的分析一般用于遗传类疾病、罕见病以及肿瘤的风险评估、孕前早期筛查和致病基因的发现,相关技术措施包括使用常规分析软件进行序列比对、遗传变异位点发现、注释等,同时结合具体应用给出结果的解读。从已有的文献、专利来看,国内外多个心血管指南推荐利用基因技术来辅助疾病的风险预测、诊断及预后评估,但是目前在基因分子层面上系统化开展遗传性心脏病筛查和诊断的研究还较少,缺乏利用基因测序数据辅助临床诊断的技术方案。以“遗传性心脏病”作为关键词进行检索,相关专利申请仅有1项(“用于筛查遗传性心脏病的基因组合及其用途”,申请号:CN201911408249.5),该专利申请提出一种用于筛查遗传性心脏病的基因组合,并介绍其在检测遗传性心脏病试剂中的用途,但是该专利申请仅提供相关基因组合,并没有提供具体的测序数据分析方法、辅助诊断方法及相关系统,针对这一空白,本申请提出了一种解决方案。

技术实现思路

[0004]专利技术目的:本专利技术的目的是提供一种一种遗传性心脏病基因辅助诊断系统的工作方法,在基因分子层面上系统化开展遗传性心脏病筛查和诊断,利用基因测序数据辅助临床诊断,填补在这一
的空白。
[0005]技术方案:本专利技术所述的一种遗传性心脏病基因辅助诊断系统的工作方法,包括有依次连接的待测基因选择模块、变异位点发现模块、变异位点注释模块、变异位点致病性分析模块和报告生成模块;
[0006]所述待测基因选择模块基于文献分析和遗传学专家知识经验,将遗传性心脏病分为5大类15个小类,并根据大类确定各个遗传性心脏病对应的待检测基因列表;
[0007]所述变异位点发现模块开展针对待测候选基因的测序数据分析,根据测序仪使用的试剂盒,从指定的染色体ROI区间发现潜在的致病变异位点,分析过程包括序列比对与映射单元、序列数据预处理单元和变异位点发现单元;
[0008]所述变异位点注释模块对发现的变异位点进行注释,分析过程包括解析vcf文件
单元、基因信息注释单元、碱基和氨基酸改变信息注释单元、剪切变异位点信息注释单元和基于DBNSFP数据库的变异位点信息注释单元;
[0009]所述变异位点致病性分析模块以家系或个人为单位,对检测者所有遗传变异位点的致病性进行分类分析,分析过程包括资源文件预处理单元、变异位点致病性判别单元和变异位点致病性分类单元;
[0010]所述报告生成模块通过读取和分析病人信息、医生信息、检测样本信息、测序数据信息、致病位点信息和文献信息自动生成不同细节层次的中英双语检测分析报告,过程包括数据抽取单元、报告生成单元、报告解读单元和报告导出单元。
[0011]作为优选,所述待测基因选择模块包括遗传性心脏病分类单元和待测基因列表单元,所述遗传性心脏病分类单元将遗传性心脏病分为遗传性心肌病Cardiomyopathies、遗传性主动脉疾病Aortopathies、遗传性心律失常Inherited arrthymias、家族性高胆固醇血症Familial hypercholesterolaemia和肺动脉高压Pulmonary arterial hypertension五大类型;
[0012]所述遗传性心肌病,细分为扩张型心肌病DCM、肥厚性心肌病HCM、致心律失常型右室心肌病ARVC和左心室致密化不全LVNC心肌病;
[0013]所述遗传性主动脉疾病,细分为马凡氏综合Marfans、Loeys Dietz综合征Loeys Dietz和结缔组织疾病CCTD;
[0014]所述遗传性心律失常,细分为长QT综合征LQTS、短QT综合征SQTS、Brugada综合征Brugada、心脏传导疾病CCD和儿茶酚胺能多态性室性心肌病CVPT;
[0015]所述待测基因列表单元根据遗传性心脏病的分类,由遗传学专家提供相关心脏病对应待测基因列表,所述扩张型心肌病DCM对应基因列表为:LMNA、SCN5A、ACTC1、DES、SGCD、MYH7、TNNT2、TPM1、TTN、VCL、MYBPC3、PLN、LDB3、ACTN2、CSRP3、MYH6、ABCC9、TNNC1、TCAP、EYA4、TMPO、FCMD、DMD、Tafazzin、TNNI3、DNAJC19、BAG3、DSP、RYR2、LMNA、NEXN、RBM20、DSG2;
[0016]所述肥厚性心肌病HCM对应基因列表为:ACTC1、CSRP3、MYBPC3、MYH6、MYH7、MYL2、MYL3、TCAP、TNNC1、TNNI3、TNNT2、TPM1、TTN、MYLK2、PRKAG2、MYOZ2;
[0017]所述致心律失常型右室心肌病ARVC对应基因列表为:DSC2、DSG2、DSP、PKP2、TGFB3、RYR2、TMEM43、JUP;
[0018]所述左心室致密化不全LVNC心肌病对应基因列表为:ACTC1、CASQ2、LDB3、LMNA、MYBPC3、MYH7、PLN、TAZ、TNNT2、TPM1、DTNA;
[0019]所述长QT综合征LQTS对应基因列表为:KCNQ1、SCN4B、KCNH2、SCN5A、ANK2、KCNE1、KCNE2、KCNJ2、CACNA1C、CAV3、AKAP9、SNTA1;
[0020]所述短QT综合征SQTS对应基因列表为:KCNH2、KCNQ1、TMEM43;
[0021]所述Brugada综合征对应基因列表为:SCN5A、GPD1L、CACNA1C、CACNB2、SCN1B、KCNE3、SCN3B、HCN4、KCNJ8、MOG1、KCND3、KCNE5;
[0022]所述心脏传导疾病CCD对应基因列表为:RYR2、SCN5A、TRPM4;
[0023]所述儿茶酚胺能多态性室性心肌病CVPT对应基因列表为:RYR2、CASQ2;
[0024]所述马凡氏综合征Marfans、Loeys Dietz综合征Loeys Dietz、结缔组织疾病CCTD对应基因列表为:FBN1、TGFBR1、TGFBR2、COL3A1、MYH11、ACTA2、SMAD3、MYLK、GLUT10、本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种遗传性心脏病基因辅助诊断系统的工作方法,其特征在于:包括有依次连接的待测基因选择模块、变异位点发现模块、变异位点注释模块、变异位点致病性分析模块和报告生成模块;所述待测基因选择模块基于文献分析和遗传学专家知识经验,将遗传性心脏病分为5大类15个小类,并根据大类确定各个遗传性心脏病对应的待检测基因列表;所述变异位点发现模块开展针对待测候选基因的测序数据分析,根据测序仪使用的试剂盒,从指定的染色体ROI区间发现潜在的致病变异位点,分析过程包括序列比对与映射单元、序列数据预处理单元和变异位点发现单元;所述变异位点注释模块对发现的变异位点进行注释,分析过程包括解析vcf文件单元、基因信息注释单元、碱基和氨基酸改变信息注释单元、剪切变异位点信息注释单元和基于DBNSFP数据库的变异位点信息注释单元;所述变异位点致病性分析模块以家系或个人为单位,对检测者所有遗传变异位点的致病性进行分类分析,分析过程包括资源文件预处理单元、变异位点致病性判别单元和变异位点致病性分类单元;所述报告生成模块通过读取和分析病人信息、医生信息、检测样本信息、测序数据信息、致病位点信息和文献信息自动生成不同细节层次的中英双语检测分析报告,过程包括数据抽取单元、报告生成单元、报告解读单元和报告导出单元。2.根据权利要求1所述的一种遗传性心脏病基因辅助诊断系统的工作方法,其特征在于:所述待测基因选择模块包括遗传性心脏病分类单元和待测基因列表单元,所述遗传性心脏病分类单元将遗传性心脏病分为遗传性心肌病Cardiomyopathies、遗传性主动脉疾病Aortopathies、遗传性心律失常Inherited arrthymias、家族性高胆固醇血症Familial hypercholesterolaemia和肺动脉高压Pulmonary arterial hypertension五大类型;所述遗传性心肌病,细分为扩张型心肌病DCM、肥厚性心肌病HCM、致心律失常型右室心肌病ARVC和左心室致密化不全LVNC心肌病;所述遗传性主动脉疾病,细分为马凡氏综合Marfans、Loeys Dietz综合征Loeys Dietz和结缔组织疾病CCTD;所述遗传性心律失常,细分为长QT综合征LQTS、短QT综合征SQTS、Brugada综合征Brugada、心脏传导疾病CCD和儿茶酚胺能多态性室性心肌病CVPT;所述待测基因列表单元根据遗传性心脏病的分类,由遗传学专家提供相关心脏病对应待测基因列表,所述扩张型心肌病DCM对应基因列表为:LMNA、SCN5A、ACTC1、DES、SGCD、MYH7、TNNT2、TPM1、TTN、VCL、MYBPC3、PLN、LDB3、ACTN2、CSRP3、MYH6、ABCC9、TNNC1、TCAP、EYA4、TMPO、FCMD、DMD、Tafazzin、TNNI3、DNAJC19、BAG3、DSP、RYR2、LMNA、NEXN、RBM20、DSG2;所述肥厚性心肌病HCM对应基因列表为:ACTC1、CSRP3、MYBPC3、MYH6、MYH7、MYL2、MYL3、TCAP、TNNC1、TNNI3、TNNT2、TPM1、TTN、MYLK2、PRKAG2、MYOZ2;所述致心律失常型右室心肌病ARVC对应基因列表为:DSC2、DSG2、DSP、PKP2、TGFB3、RYR2、TMEM43、JUP;所述左心室致密化不全LVNC心肌病对应基因列表为:ACTC1、CASQ2、LDB3、LMNA、MYBPC3、MYH7、PLN、TAZ、TNNT2、TPM1、DTNA;所述长QT综合征LQTS对应基因列表为:KCNQ1、SCN4B、KCNH2、SCN5A、ANK2、KCNE1、
KCNE2、KCNJ2、CACNA1C、CAV3、AKAP9、SNTA1;所述短QT综合征SQTS对应基因列表为:KCNH2、KCNQ1、TMEM43;所述Brugada综合征对应基因列表为:SCN5A、GPD1L、CACNA1C、CACNB2、SCN1B、KCNE3、SCN3B、HCN4、KCNJ8、MOG1、KCND3、KCNE5;所述心脏传导疾病CCD对应基因列表为:RYR2、SCN5A、TRPM4;所述儿茶酚胺能多态性室性心肌病CVPT对应基因列表为:RYR2、CASQ2;所述马凡氏综合征Marfans、Loeys Dietz综合征Loeys Dietz、结缔组织疾病CCTD对应基因列表为:FBN1、TGFBR1、TGFBR2、COL3A1、MYH11、ACTA2、SMAD3、MYLK、GLUT10、EFEMP2;所述家族性高胆固醇血症FH对应基因列表为:APOB、LDLR、LDLRAP1、PCSK9;所述肺动脉高压PAH对应基因列表为:ACVRL1、BMPR2、CAV1、ENG、SMAD9。3.根据权利要求2所述的一种遗传性心脏病基因辅助诊断系统的工作方法,其特征在于:所述变异位点发现模块中的序列比对与映射单元接收fastq格式的原始测序数据,利用BWA

MEM算法,将70bp

1Mbp查询序列与BWA

MEM算法对齐,并采用多线程方法加速序列比对和映射过程,输出bam格式文件;所述变异位点发现模块中的序列数据预处理单元以bam格式文件作为输入,以处理后的bam格式文件作为输出,包括如下步骤:

采用Picard的AddOrReplaceRead Groups方法将reads组信息添加到映射后的bam文件中;

用Picard的MarkDuplicate方法来标记重复reads,以减轻诸如PCR扩增的数据生成步骤所引起的偏差;

使用Picard对序列进行排序,以方便后续的变异发现;

重新校准Indels的基本质量分数BQSR,以调整测序仪的系统误差;所述变异位点发现模块中的变异位点发现单元识别相对参考基因组的变异位点,并计算每个变异位点的基因型,输入是序列数据预处理单元中输出的bam文件,输出为包含变异位点的vcf格式文件,包括如下步骤:

使用GATK,在GVCF模式中单独对每个样本运行HaplotypeCaller方法,以产生GVCF的中间文件格式;

使用GATK的GenotypeGVCFs方法联合单样本GVCF文件产生多样本的vcf文件;

使用GATK的SelectVariants方法区分SNPs和INDELs;

使用GATK的VariantRecalibrator和ApplyRecalibration方法对遗传变异进行质量分数校正VQSR,实现对变异位点的过滤;

使用GATK的CombineVariants方法将SNPs和INDELs联合输出到vcf文件中。4.根据权利要求1所述的一种遗传性心脏病基因辅助诊断系统的工作方法,其特征在于:所述变异位点注释模块用来对变异位点信息进行注释,输入为变异位点发现单元生成的文件,输出为经过注释的、txt格式的变异位点信息文件,包括如下步骤:

解析变异位点发现单元生成的vcf文件,获取变异位点所在染色体CHROM、位点坐标POS、参考序列碱基REF、变异序列碱基ALT、位点覆盖度DP、参考序列覆盖度RO、变异序列覆盖度AO和基因型信息GT,生成临时文件input.txt和coverage.txt;

对基因信息进行注释,首先读取基因注释资源库文件,包括经预处理的基因外显子文件sorted_compiled_exon.bed、内含子文件intron.bed、utr3文件utr3.bed、utr5文件utr5.bed、上游文件upstream1000.bed、下游文件downstream 1000.bed、“转录子

基因”文件transcript_to_gene.txt和“蛋白注释”文件protein_annotation.txt,进一步根据步骤

生成的input.txt文件和读取的基因注释资源库文件中的数据,计算变异发生的区域,是内含子intron区域、外显子exon区域、utr5或
utr3,并生成临时文件annotation.txt;

对碱基和氨基酸改变信息进行注释,首先读取编码区域文件allcds.bed、HGNC对应碱基序列文件sequence.txt、氨基酸对应缩写文件aminoacid.txt,进一步根据编码区域文件allcds.bed中的转录子编号、位点起始坐标和位点结束坐标,如果变异发生在外显子区域,则计算外显子编号,否则输出NA,进一步根据变异发生的区域,计算该变异类型,包括Synonymous SNP、Nonsynonymous SNP、Intron SNP、Utr5 SNP、Utr3 SNP、Intron Deletion、Intron Insertion、Frameshift Deletion、In

Frame Deletion、Stop Gain和Unknown,进一步对于外显子区域的变异,计算某个位置的碱基改变信息和氨基酸改变信息,生成碱基和氨基酸改变信息注释临时文件hgvs_annotation.txt;

对剪切变异位点信息进行注释,首先读取

中生成的文件hgvs_annotation.txt和预处理的基因外显子文件sorted_compiled_exon.bed以及编码区域文件allcds.bed,进一步检查边界5bp内是否存在任何潜在的剪切变异位点,以变异位点所在的起始位置和结束位置为边界,将起始位置和结束位置分别加减5,从而将边界区域划分为4段,命名为s1,e1,s2,e2,然后分别判断s1,e1区域是否为剪切位点,s2,e2区域是否为剪切位点,如果是剪切位点,则进一步输出该剪切位点变异的碱基改变信息,生成临时文件spliced_hgvs_annotation.txt;

基于dbnsfp数据库的变异位点信息注释,首先读取

生成的文件spliced_hgvs_annotation.txt和经过滤的dbnsfp数据文件filterbased_dbnsfp.txt,进一步将spliced_hgvs_annotation.txt和filterbased_dbnsfp.txt进行比对,获取SIFT、Polyphen、LRT、MutationTaster、FATHMM、CAD、MetaSVM和Clinvar可计算工具预测的变异位点致病性结果与分数,进一步获取变异位点在人群中的注释信息,包括1000Gp3_AFR_AF、1000Gp3_EUR_AF、1000Gp3_AMR_AF、1000Gp3_EAS_AF、1000Gp3_SAS_AF、ESP6500_EA_AF、ExAC_Adj_AF、ExAC_AFR_AF、ExAC_AMR_AF、ExAC_EAS_AF、ExAC_FIN_AF、E...

【专利技术属性】
技术研发人员:诸峰窦慧莉束鑫杨习贝
申请(专利权)人:江苏科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1