基因标志物在恶性乳腺癌与良性乳腺结节的早筛中的应用和筛查模型的构建方法技术

技术编号:37667647 阅读:14 留言:0更新日期:2023-05-26 04:27
本发明专利技术涉及基因标志物在恶性乳腺癌与良性乳腺结节的早筛中的应用和筛查模型的构建方法,通过对血浆样本cfDNA进行液体活检全基因组WGS低深度测序,并对高通量测序结果进行恶性乳腺癌与良性结节间,窗口拷贝数变化分析(CNV),DNA片段化分布差异(FSD),DNA片段长度比值差异(FSR),DNA断点序列(BPM)和DNA末端序列(EDM)利用自动机器学习构建多特征多算法的整合模型,实现对乳腺癌无创精准诊断的目的。实现对乳腺癌无创精准诊断的目的。实现对乳腺癌无创精准诊断的目的。

【技术实现步骤摘要】
基因标志物在恶性乳腺癌与良性乳腺结节的早筛中的应用和筛查模型的构建方法


[0001]本专利技术涉及对恶性乳腺癌与良性乳腺结节的早期筛查,属于分子生物医学领域。

技术介绍

[0002]乳腺癌是世界上女性中最常见,也是导致女性死亡最常见的癌症类型。据GLOBOCAN2020年全球癌症报告显示,2020年新发乳腺癌226万例,占总体癌症发病的11.7%,成为全球第一恶性癌症,严重威胁了女性的身心健康,影响生活质量。研究表明,早期乳腺癌筛查可以更早发现乳腺癌,提高生存率及生存质量。目前,乳腺癌常见的筛查方式主要有乳腺超声(Breast Ultrasound),核磁共振(Breast MRI),自动乳腺超声系统(Automated Breast Ultrasound System,ABUS)以及乳房造影术(Mammography)。然而现存各个现有技术都存在一些缺点,其中,乳房超声技术的检查质量在一定程度取决于操作人员的经验技术,核磁共振技术的患者使用依从性不高,自动乳腺超声系统成本较高。使用率最高的乳房造影术是目前筛检早期乳癌的主要检查方法,但对患者不同的胸型的检测灵敏度存在差异。比如在较年轻女性中,乳房造影术的筛查准确性较低,对于50岁以上的女性,由于随着年龄的增长,乳房的纤维腺体组织会变脂肪组织取代,脂肪组织附近的异常病灶更容易被乳房造影检出,筛查准确性变高。筛查灵敏度与年龄有一定联系。此外,对于约占总体10%的极度致密胸型(Almost entirely dense tissue),存在过度诊断,灵敏性不高的缺点。研究显示,采用乳房造影术的检测的模型AUC为0.79,采用乳腺超声的检测模型AUC为0.78。乳腺癌的影像检测的灵敏性有一定的限制,仅依靠影像检测作为诊断乳腺肿瘤的依据,增加了不必要侵入性手术的风险,因此迫切需要开发适用于广泛人群的有效,实用,高灵敏度的筛查手段对影像检测诊断为高风险的人群进行辅助筛查。

技术实现思路

[0003]本专利技术提供了一种对血浆样本cfDNA进行WGS测序,通过高通量测序结果进行恶性乳腺癌与良性结节的特征差异1Mb窗口的拷贝数变化 (copy number variation, CNV),DNA片段化分布 (Fragment size distribution, FSD), DNA片段化长度比例 (Fragment size ratio, FSR) ,断点序列(Break Point Motif,BPM)以及末端序列(End Point Motif,EDM)分析,利用广义线性模型(GLM),梯度提升(Gradient Boost, GBM),随机森林(Random Forest,RF),深度学习(Deep Learning, DL)和极致梯度提升(extreme gradient boosting,xgboost),分别进行建模,最终通过算取其平均值的方法对多特征多算法进行整合,得到最终风险系数并进行分类,实现了对恶性乳腺癌的无创精准诊断的目的。
[0004]基因标志物在恶性乳腺癌与良性乳腺结节的早筛中的应用,所述的基因标志物包括:第一标志物:WGS数据中染色体上不同窗口中的拷贝数;第二标志物:cfDNA片段比对至参考基因组的不同窗口中的短读段数量占比和长
读段数量占比;所述的短读段的碱基长度为100

150bp,所述的长读段的碱基长度为151

220bp;第三标志物:cfDNA片段比对至参考基因组的长臂和短臂上的不同长度梯度区间中的读段数量;不同长度梯度区间是指在100

220bp范围内以4

5bp步长递增而得到的不同长度梯度范围;所述的长臂和短臂选自如下的染色体臂:chr1_p、chr4_q、chr8_p、chr11_q、chr16_q、chr20_p、chr1_q、chr5_p、chr8_q、chr12_p、chr17_p、chr20_q、chr2_p、chr5_q、chr9_p、chr12_q、chr17_q、chr21_q、chr2_q、chr6_p、chr9_q、chr13_q、chr18_p、chr22_q、chr3_p、chr6_q、chr10_p、chr14_q、chr18_q、chr3_q、chr7_p、chr10_q、chr15_q、chr19_p、chr4_p、chr7_q、chr11_p、chr16_p、chr19_q;其中字符chr及其后的数字代表染色体编号,q代表长臂,p代表短臂;第四标志物:cfDNA片段比对参考基因组上的断点处的上下游各n个bp的碱基序列在全部碱基序列中的占比;第五标志物:不同种类的cfDNA片段比对至参考基因组的5

端的m个碱基片段在全部碱基片段中的占比。
[0005]所述的第一标志物通过如下步骤获得:将参考基因组划分为多个窗口,并分别获得WGS数据中1

22号染色体上不同窗口中的拷贝数数据;窗口大小为0.8

1.2M。
[0006]所述的第二标志物通过如下步骤获得:将参考基因组划分为多个窗口,分别统计出比对于各个窗口中的短读段和长读段cfDNA在该窗口中全部cfDNA片段中的比例。
[0007]所述的第三标志物通过如下步骤获得:cfDNA片段比对至参考基因组,分别以各个染色体上的长臂和短臂作为区域范围,并获得在每个范围内的不同长度梯度区间中的读段数量。
[0008]所述的第四标志物通过如下步骤获得:将cfDNA片段数据结果比对至参考基因组,得到读段的5

端在参考基因组上的位置;获得所述的位置处的上下游各n个bp碱基的序列数据,作为碱基片段集合;以得到的各种碱基片段在全部片段中的所占比例作为第四特征集合。
[0009]所述的第五标志物通过如下步骤获得:将cfDNA片段的5

端的m个碱基数据作为碱基片段集合,并得到各种碱基片段在全部片段中所占比例。
[0010]n是4,m是8。
[0011]恶性乳腺癌筛查模型的构建方法,所述的模型用于对样本进行恶性乳腺癌和良性乳腺结节的分类,包括如下步骤:步骤1,对恶性乳腺癌患者和对照组(良性结节患者)的样本进行cfDNA的提取并测序,获得cfDNA 片段化的信息;步骤2,将参考基因组划分为多个窗口,并分别获得在每个窗口范围内的拷贝数数据,作为第一特征值;步骤3,将读段数据结果比对至参考基因组,将参考基因组划分为多个窗口,并分别获得在每个窗口范围内的短读段数量占比和长读段数量占比,作为第二特征集合,所述的短读段的碱基长度为100

150bp,所述的长读段的碱基长度为151

220bp;步骤4,将读段数据结果比对至参考基因组,分别以各个染色体上的长臂和短臂作为区域范围,并获得在每个范围内的不同长度梯度区间中的读段数量,作为第三特征集合;
不同长度梯度区间是指在100

220bp范围内以4

5本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基因标志物在制备恶性乳腺癌与良性乳腺结节的早筛检测试剂中的应用,其特征在于,所述的基因标志物包括:第一标志物:WGS数据中染色体上不同窗口中的拷贝数;第二标志物:cfDNA片段比对至参考基因组的不同窗口中的短读段数量占比和长读段数量占比;所述的短读段的碱基长度是100

150bp,所述的长读段的碱基长度是151

220bp;第三标志物:cfDNA片段比对至参考基因组的长臂和短臂上的不同长度梯度区间中的读段数量;不同长度梯度区间是指在100

220bp范围内以4

5bp步长递增而得到的不同长度梯度范围;所述的长臂和短臂选自如下的染色体臂:chr1_p、chr4_q、chr8_p、chr11_q、chr16_q、chr20_p、chr1_q、chr5_p、chr8_q、chr12_p、chr17_p、chr20_q、chr2_p、chr5_q、chr9_p、chr12_q、chr17_q、chr21_q、chr2_q、chr6_p、chr9_q、chr13_q、chr18_p、chr22_q、chr3_p、chr6_q、chr10_p、chr14_q、chr18_q、chr3_q、chr7_p、chr10_q、chr15_q、chr19_p、chr4_p、chr7_q、chr11_p、chr16_p、chr19_q;其中字符chr及其后的数字代表染色体编号,q代表长臂,p代表短臂;第四标志物:cfDNA片段比对参考基因组上的断点处的上下游各n个bp的碱基序列在全部碱基序列中的占比;第五标志物:不同种类的cfDNA片段比对至参考基因组的5

端的m个碱基片段在全部碱基片段中的占比。2.根据权利要求1所述的应用,其特征在于,所述的第一标志物通过如下步骤获得:将参考基因组划分为多个窗口,并分别获得WGS数据中1

22号染色体上不同窗口中的拷贝数数据;窗口大小为0.8

1.2M。3.根据权利要求1所述的应用,其特征在于,所述的第二标志物通过如下步骤获得:将参考基因组划分为多个窗口,分别统计出比对于各个窗口中的短读段和长读段cfDNA在该窗口中全部cfDNA片段中的比例。4.根据权利要求1所述的应用,其特征在于,所述的第三标志物通过如下步骤获得:cfDNA片段比对至参考基因组,分别以各个染色体上的长臂和短臂作为区域范围,并获得在每个范围内的不同长度梯度区间中的读段数量。5.根据权利要求1所述的应用,其特征在于,所述的第四标志物通过如下步骤获得:将cfDNA片段数据结果比对至参考基因组,得到读段的5

端在参考基因组上的位置;获得所述的位置处的上下游各n个bp碱基的序列数据,作为碱基片段集合;以得到的各种碱基片段在全部片段中的所占比例作为第四特征集合。6.根据权利要求1所述的应用,其特征在于,所述的第五标志物通过如下步骤获得:将cfDNA片段的5

端的m个碱基数据作为碱基片段集合,并得到各种碱基片段在全部片段中所占比例。7.根据权利要求1所述的应用,其特征在于,n是4,m是8。8.恶性乳腺癌筛查模型的构建方法,其特征在于,所述的模型用于对样本进行恶性乳腺癌和良性乳腺结节的分类,包括如下步骤:步骤1,对恶性乳腺癌患者和对照组的样本进行cfDN...

【专利技术属性】
技术研发人员:邵阳吴雪包华刘睿吴舒雨唐皖湘夫唐诗婷刘思思
申请(专利权)人:南京世和医疗器械有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1