一种基于多连体特征的T细胞受体对应表位预测方法技术

技术编号:24942051 阅读:52 留言:0更新日期:2020-07-17 21:50
本发明专利技术公开了一种基于多连体特征的T细胞受体对应表位预测方法,将CDR3β链以及对应的表位解析为长度3的碱基,统计每种三联体的频次作为初始特征;根据得到的初始特征建立初始特征矩阵,使用主成分分析法对初始特征矩阵进行降维,进行特征提取;设有n个训练样本,输入预测数据x后,训练得到梯度提升决策树模型,通过梯度提升决策树模型将各个决策树的决策结果线性组合起来做出预测;将特征数据输入训练好的模型中进行预测,根据不同的预测目的选择不同的预测指标。本发明专利技术仅使用三联体的统计值作为初始特征,结合梯度提升决策树模型能够在极短的时间内完成模型的训练,且预测的准确度更高。

【技术实现步骤摘要】
一种基于多连体特征的T细胞受体对应表位预测方法
本专利技术属于以精准医学为应用背景的数据科学
,具体涉及一种基于多连体特征的T细胞受体对应表位预测方法。
技术介绍
T细胞受体(英文名称:Tcellreceptor,英文缩写:TCR)和表位(英文名称:epitope)与主要组织相容性复合体(英文名称:majorhistocompatibilitycomplex,英文缩写:MHC)的特异性结合能够激活免疫系统,从而引发一系列特异性免疫反应。免疫治疗正是利用特异性免疫系统这一特性,通过研制对应药剂,人为激活免疫系统,使机体的免疫系统重新工作以消灭体内的入侵者或者癌细胞。因此TCR对应表位的预测可为探索疾病机制、癌症的免疫治疗、药物开发和疫苗制作等领域提供重要的理论依据。虽然第二代测序技术(英文名称:NextGenerationSequencing,英文缩写:NGS)提供了海量的核苷酸序列与氨基酸序列,但是由于标注成本高耗时长,目前有标注的数据仍然很少。如果能够从当前的少量的有标注数据中训练一个相对可靠的预测模型,就能够应用于TCR表位的本文档来自技高网...

【技术保护点】
1.一种基于多连体特征的T细胞受体对应表位预测方法,其特征在于,包括以下步骤:/nS1、将CDR3β链以及对应的表位解析为长度3的碱基,统计每种三联体的频次作为初始特征;/nS2、根据步骤S1得到的初始特征建立初始特征矩阵,使用主成分分析法对初始特征矩阵进行降维,进行特征提取;/nS3、设有n个训练样本,输入预测数据x后,训练得到梯度提升决策树模型,通过梯度提升决策树模型将各个决策树的决策结果线性组合起来做出预测;/nS4、将步骤S2的特征数据输入步骤S3训练好的模型中进行预测,根据不同的预测目的选择不同的预测指标。/n

【技术特征摘要】
1.一种基于多连体特征的T细胞受体对应表位预测方法,其特征在于,包括以下步骤:
S1、将CDR3β链以及对应的表位解析为长度3的碱基,统计每种三联体的频次作为初始特征;
S2、根据步骤S1得到的初始特征建立初始特征矩阵,使用主成分分析法对初始特征矩阵进行降维,进行特征提取;
S3、设有n个训练样本,输入预测数据x后,训练得到梯度提升决策树模型,通过梯度提升决策树模型将各个决策树的决策结果线性组合起来做出预测;
S4、将步骤S2的特征数据输入步骤S3训练好的模型中进行预测,根据不同的预测目的选择不同的预测指标。


2.根据权利要求1所述的基于多连体特征的T细胞受体对应表位预测方法,其特征在于,步骤S2具体为:
S201、将初始特征矩阵记为:X={x1,x2,...,xn},对每一列特征进行中心化;
S202、令样本点xi在新空间中超平面上的投影为WTxi,若所有的样本点都分开,使投影后样本点的方差最大化,确定优化目标;
S203、使用拉格朗日乘数法对优化目标件求解,对协方差矩阵XXT进行特征分解,将求得的特征值排序;再取前k个特征值对应的特征向量构成投影矩阵W,最终得到的特征矩阵WTX为一个k行n列的矩阵。


3.根据权利要求2所述的基于多连体特征的T细胞受体对应表位预测方法,其特征在于,步骤S201中,m维列向量x1为:



其中,n是训练样本个数,m是特征维数。


4.根据权利要求2所述的基于多连体特征的T细胞受体对应表位预测方法,其特征在于,步骤S202中,优化目标为:



其中,W是转换矩阵,WT是转换矩阵的转置矩阵,X是初始特征矩阵,XT是初始特征矩阵的转置。


5.根据权利要求2所述的基于多连体特征的T细胞受体对应表位预测方法,其特征在于,步骤S203中,对优化目标件求解,得到
XXTW=λW
投影矩阵W为:
W=(w1,w2,...,wk)
其中,λ是特征值,wi是投影矩阵的列向量,1≤i≤k,特征值的排序为:λ1≥λ2≥...≥λn。

【专利技术属性】
技术研发人员:王嘉寅童瑶杨玲郑田刘涛李敏张选平
申请(专利权)人:西安交通大学北京吉因加科技有限公司
类型:发明
国别省市:陕西;61

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1