本发明专利技术公开了一种基于神经网络的免疫特征识别方法,根据高通量测序得到的受试者的B细胞受体(BCR)或T细胞受体(TCR)的可变区序列(CDR3序列),与对照群体的BCR或TCR可变区序列(CDR3序列)集合进行比较,得到受试者个体或群体,对照群体差异的免疫特征序列,利用前馈反向传播(BP)神经网络算法构建受试者和对照组免疫特征模型,可在分子水平识别样本的免疫特征。
【技术实现步骤摘要】
一种基于神经网络的免疫特征识别方法
本专利技术属于免疫特征鉴定
,具体涉及一种基于神经网络的免疫特征识别方法的设计。
技术介绍
鉴定特定生物(包括但不限于人类、哺乳动物)个体或群体相对于对照组的免疫特征,是生物学和医学研究中重要且必须的检测。现有的检测方法主要有抗体/免疫因子检测、血常规检测、淋巴细胞亚群分析等。其中,抗体/免疫因子检测通过酶联免疫吸附试验(ELISA)、荧光定量PCR试验等方法,检测血液中免疫球蛋白、补体、干扰素、白介素等抗体和/或免疫因子的含量,或者检测免疫细胞表达这些抗体和/或免疫因子的水平。免疫球蛋白和细胞因子是体液免疫的重要效应成分,在生物体的免疫状况发生改变(如感染、药物、疫苗接种等)情况下,这些指标相对参考值将出现升高或降低。然而这种检测只针对体液免疫,不能很好评估细胞免疫。在样本量、经费和时间有限的情况下,只能检测部分因子的水平,也不能在分子序列层次上进行深度分析。免疫细胞即白细胞,主要分为淋巴细胞和巨噬细胞,是免疫系统的基本组成单位。血常规检测是通过显微镜观测对外周血中的白细胞进行分类和计数。白细胞的增多和减少主要受中性粒细胞数量的影响,淋巴细胞等数量的改变也会引起白细胞总数的变化。血常规检测只能大致判断细胞免疫整体水平的状况,无法精确分辨生物体针对感染、药物等刺激产生免疫的状况,也无法在基因水平判断免疫细胞的分类和多样性。淋巴细胞亚群分析通过流式细胞分析或PCR技术,对外周血中免疫细胞的相对计数、绝对计数及其变化进行监控。最常检测的亚群包括T细胞(CD3)、B细胞(CD19)、NK细胞(CD16+56)、辅助性T细胞(CD3+CD4+)和抑制性T细胞(CD3+CD8+)等。然而淋巴细胞亚群种类繁多,如进行全面分析,则需要采集的外周血量、费用及时间均难以接受。只进行少数几种淋巴细胞亚群分析,则难以获取全面的免疫系统状况。
技术实现思路
本专利技术的目的是提出一种基于神经网络的免疫特征识别方法,利用BP神经网络分析受试者个体或群体的B细胞受体(BCR)或T细胞受体(TCR)的可变区序列(CDR3序列),识别其与对照组不同的免疫特征,解决现有技术依赖有限的样本,在经费和时间有限的情况下,只能检测少数指标,无法获取全面信息,也无法得到分子水平的信息等缺陷,实现使用少量样本就能在分子水平识别出比较全面的特征性免疫信息。本专利技术的技术方案为:一种基于神经网络的免疫特征识别方法,包括以下步骤:S1、通过高通量测序得到受试者和对照组的TCR或BCR的CDR3序列。S2、取相同数量的受试者和对照组的TCR或BCR的CDR3序列样本,进行数据筛选。S3、对数据筛选后的受试者和对照组的TCR或BCR的CDR3序列样本进行对比分析,得到受试者和对照组的TCR或BCR的特征CDR3序列及其数量,并对其进行数据标准化处理后作为样本集。S4、通过BP神经网络算法,采用样本集中70%的样本数据构建免疫特征识别神经网络模型。S5、采用样本集中剩余30%的样本数据对免疫特征识别神经网络模型进行验证,并采用验证后的免疫特征识别神经网络模型对相同类型受试者个体或群体进行免疫特征识别。进一步地,步骤S1中对每个样本的TCR或BCR的CDR3序列进行随机不放回抽样,使每个样本的CDR3序列数量总和均为50000。进一步地,步骤S2中进行数据筛选的具体方法为:保留CDR3序列样本中CDR3序列数量大于5的CDR3序列,筛除掉CDR3序列数量小于或等于5的CDR3序列。进一步地,步骤S3中对数据筛选后的受试者和对照组的TCR或BCR的CDR3序列样本进行对比分析的具体方法为:对数据筛选后的受试者和对照组的TCR或BCR的CDR3序列样本进行对比,将受试者和对照组不同的CDR3序列作为特征CDR3序列,并获取其数量。进一步地,步骤S4包括以下分步骤:S41、采用样本集中70%的样本数据中受试者和对照组的TCR或BCR的特征CDR3序列的数量构建输入矩阵,将其输入BP神经网络,并随机初始化BP神经网络的权重和偏差。S42、通过激活函数将BP神经网络每一层神经元的输出传播到下一层,并在输出层计算得到误差。S43、通过误差反向传播调整BP神经网络前向传播过程使用的权重和偏差。S44、重复步骤S42~S43,直到误差最小化,将此时的权重和偏差应用BP神经网络,得到免疫特征识别神经网络模型。进一步地,步骤S42中的激活函数f(x)为:f(x)=1/(1+ex)其中x表示神经元的输入。本专利技术的有益效果是:(1)本专利技术通过对比受试者和对照组的TCR或BCR的CDR3序列,得到了受试者和对照组的TCR或BCR的特征CDR3序列,在分子序列水平上进入了深层次的分析。(2)本专利技术通过BP神经网络来建立免疫特征识别模型,时间大幅度减少,费用大幅度降低。(3)本专利技术中免疫特征识别神经网络模型构建成功后,可保存用于未来相同类型受试者个体或群体免疫特征的识别。附图说明图1所示为本专利技术实施例提供的一种基于神经网络的免疫特征识别方法流程图。图2所示为本专利技术实施例提供的BP神经网络结构示意图。图3所示为本专利技术实施例提供的输入矩阵示意图。图4所示为本专利技术实施例提供的神经元网络模型示意图。具体实施方式现在将参考附图来详细描述本专利技术的示例性实施方式。应当理解,附图中示出和描述的实施方式仅仅是示例性的,意在阐释本专利技术的原理和精神,而并非限制本专利技术的范围。本专利技术实施例提供了一种基于神经网络的免疫特征识别方法,如图1所示,包括以下步骤S1~S5:S1、通过高通量测序得到受试者和对照组的TCR或BCR的CDR3序列。本专利技术实施例中,由于前期取样的多少会导致TCR或BCR的CDR3序列数量(count)有差异(几乎序列count总和都是在50000以上),因此需要人为对每个样本的TCR或BCR的CDR3序列进行随机不放回抽样,使每个样本的CDR3序列数量(count)总和均为50000。S2、取相同数量的受试者和对照组的TCR或BCR的CDR3序列样本,进行数据筛选。本专利技术实施例中,由于每个样本有个体差异性(CDR3差异性),因此保留CDR3序列样本中CDR3序列数量大于5的CDR3序列,筛除掉CDR3序列数量小于或等于5的CDR3序列(有利于后续神经网络模型的构建)。S3、对数据筛选后的受试者和对照组的TCR或BCR的CDR3序列样本进行对比分析,得到受试者和对照组的TCR或BCR的特征CDR3序列及其数量,并对其进行数据标准化处理后作为样本集。本专利技术实施例中,对数据筛选后的受试者和对照组的TCR或BCR的CDR3序列样本进行对比,将受试者和对照组不同的CDR3序列作为特征CDR3序列,并获取其数量(count)。S4、通过BP神经网络算法,采用样本集中70%的样本数据构本文档来自技高网...
【技术保护点】
1.一种基于神经网络的免疫特征识别方法,其特征在于,包括以下步骤:/nS1、通过高通量测序得到受试者和对照组的TCR或BCR的CDR3序列;/nS2、取相同数量的受试者和对照组的TCR或BCR的CDR3序列样本,进行数据筛选;/nS3、对数据筛选后的受试者和对照组的TCR或BCR的CDR3序列样本进行对比分析,得到受试者和对照组的TCR或BCR的特征CDR3序列及其数量,并对其进行数据标准化处理后作为样本集;/nS4、通过BP神经网络算法,采用样本集中70%的样本数据构建免疫特征识别神经网络模型;/nS5、采用样本集中剩余30%的样本数据对免疫特征识别神经网络模型进行验证,并采用验证后的免疫特征识别神经网络模型对相同类型受试者个体或群体进行免疫特征识别。/n
【技术特征摘要】
1.一种基于神经网络的免疫特征识别方法,其特征在于,包括以下步骤:
S1、通过高通量测序得到受试者和对照组的TCR或BCR的CDR3序列;
S2、取相同数量的受试者和对照组的TCR或BCR的CDR3序列样本,进行数据筛选;
S3、对数据筛选后的受试者和对照组的TCR或BCR的CDR3序列样本进行对比分析,得到受试者和对照组的TCR或BCR的特征CDR3序列及其数量,并对其进行数据标准化处理后作为样本集;
S4、通过BP神经网络算法,采用样本集中70%的样本数据构建免疫特征识别神经网络模型;
S5、采用样本集中剩余30%的样本数据对免疫特征识别神经网络模型进行验证,并采用验证后的免疫特征识别神经网络模型对相同类型受试者个体或群体进行免疫特征识别。
2.根据权利要求1所述的免疫特征识别方法,其特征在于,所述步骤S1中对每个样本的TCR或BCR的CDR3序列进行随机不放回抽样,使每个样本的CDR3序列数量总和均为50000。
3.根据权利要求1所述的免疫特征识别方法,其特征在于,所述步骤S2中进行数据筛选的具体方法为:保留CDR3序列样本中CDR3序列数量大于5的CDR3序列,筛除掉CDR3序列数量小于或等于5的...
【专利技术属性】
技术研发人员:张志新,杨鑫,卓越,
申请(专利权)人:成都益安博生物技术有限公司,
类型:发明
国别省市:四川;51
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。