一种基于患者画像的肿瘤药物敏感性预测方法技术

技术编号:33837383 阅读:21 留言:0更新日期:2022-06-16 11:55
本发明专利技术公开了一种基于患者画像的肿瘤药物敏感性预测方法,其步骤包括:1、构建临床数据训练样本集;2、构建患者画像的特征提取深度网络模型;3、构建并训练基于患者画像的药物敏感性支持向量机SVM预测模型。本发明专利技术通过构建患者画像作为患者临床信息的特征表达,挖掘隐含病因信息,使得患者药敏信息更加清晰化、结构化和标签化,基于患者画像利用机器学习模型预测抗肿瘤药物敏感性,从而能提高药物敏感性预测的效率、准确率和实用性,并降低时间和人力成本。力成本。力成本。

【技术实现步骤摘要】
一种基于患者画像的肿瘤药物敏感性预测方法


[0001]本专利技术属于抗肿瘤药物敏感性检测
,具体的说是一种基于患者画像的肿瘤药物敏感性预测方法。

技术介绍

[0002]肿瘤药物敏感性检测通常采用体外试验方式对肿瘤患者敏感的化疗药物进行筛选,可以指导临床医生选择针对每个患者的敏感的化疗药物,从而辅助新药研制和个体化用药。近年来,基于基因数据分析的肿瘤药物敏感性预测方法开始出现,例如中国专利技术专利申请公布说明书CN112863696A中使用细胞系的基因表达数据和药物数据,通过图神经网络模型得到药物敏感性的预测结果;又如中国专利技术专利申请公布说明书CN108877953A中采用了细胞系基因谱数据和药物数据,使用药物相似性网络、细胞系相似性网络和基因相似性网络作为输入结合三随机游走算法来预测药物的敏感性。这些方法成本高,周期长,比如基因测序需要几天至几周的时间,因此临床实用性不强。

技术实现思路

[0003]本专利技术是为了解决上述现有技术存在的不足之处,提出一种基于患者画像的肿瘤药物敏感性预测方法,以期能通过构建患者画像作为患者临床信息的特征表达,使得患者信息更加清晰化、结构化和标签化,基于患者画像利用机器学习模型预测抗肿瘤药物敏感性,从而能提高药物敏感性预测的效率、准确率和实用性,并能降低时间和人力成本。
[0004]本专利技术为达到上述专利技术目的,采用如下技术方案:
[0005]本专利技术一种基于患者画像的肿瘤药物敏感性预测方法的特点是按如下步骤进行:
[0006]步骤1、构建临床数据训练样本集S;
[0007]获取患者临床数据集并进行数据清洗、分词的预处理,得到预处理后的临床数据分词集合R={R1,...,R
i
,...,R
N
},R
i
表示分词后的第i个样本,N表示样本总数;并有:表示分词后的第i个样本,N表示样本总数;并有:w
i,j
表示第i个样本R
i
中第j个单词,N
i
表示第i个样本R
i
中的单词总数;
[0008]设置样本对应的药物敏感性类别标签集合L={L1,...,L
i
,...,L
N
};L
i
表示第i个样本R
i
的药物敏感性类别标签,并由R
i
和L
i
构成第i个临床数据训练样本S
i
,从而得到临床数据训练样本集S={S1,S2,...,S
i
,...,S
N
}={(R1,L1),...,(R
i
,L
i
),...,(R
N
,L
N
)};
[0009]步骤2、构建患者画像的特征提取深度网络模型,包括:主题编码模块、多头注意力模块、中间模块、前向传播网络模块以及输出模块;并将所述临床数据分词集合R输入所述特征提取深度网络模型中;
[0010]步骤2.1、所述主题编码模块利用吉布斯采样方法对所述临床数据分词集合R进行处理,从而利用式(1)得到第i个样本R
i
的临床主题分布利用式(2)得到第x个主题下的词分布
[0011][0012][0013]式(1)和式(2)中,为先验参数,表示第x个临床主题在第i个样本R
i
内出现的频数,x=1,2,

,X,X为主题数;表示第t个单词在第x个临床主题下出现的频数,t=1,2,

,T,T为单词数;为第i个样本R
i
在第x个临床主题上的概率,为第x个主题中第t个单词的概率;
[0014]对于词分布取概率最大的前t个单词对第x个临床主题进行向量表征,并结合主题分布θ
i
,得到第i个样本R
i
在第x个临床主题中的特征矢量R

i,x
;从而由X个主题得到第i个样本R
i
的总特征矢量R

i
={R

i,1
,...,R

i,x
,...,R

i,X
};
[0015]步骤2.2、所述多头注意力模块包括:X个注意力块和X个全连接层;其中,任意第x个注意力块由H个自注意力层组成;x=1,2,...,X;
[0016]所述第i个样本R
i
在第x个临床主题中的特征矢量R

i,x
经过第x个注意力块,并分别与H个自注意力层中的3个权重矩阵相乘后进行缩放点积处理,从而得到H个自注意力层输出的注意力信息;其中,特征矢量R

ix
与第h个自注意力层的3个权重矩阵相乘后,相应得到3个参数矩阵Q
x,h
,K
x,h
,V
x,h
,并对3个参数矩阵Q
x,h
,K
x,h
,V
x,h
进行缩放点积处理,从而得到第h个自注意力层输出的注意力信息head
i,x,h
;h=1,2,...,H;
[0017]第x个全连接层利用式(3)对H个自注意力层输出的注意力信息进行拼接处理,得到第i个样本R
i
在第x个注意力块中的信息矩阵Z
i,x
;从而由X个注意力块和X个全连接层得到第i个样本R
i
融合X个临床主题的总信息矩阵Z
i
={Z
i,1
,...,Z
i,x
,...,Z
i,X
};
[0018][0019]式(3)中,为第i个样本R
i
在第x个注意力块中的权重矩阵,Concat表示合并操作;
[0020]步骤2.3、所述中间模块由X个残差连接及归一化层并联组成,所述信息矩阵Z
i,x
和第i个样本R
i
在第x个主题中的特征矢量R

i,x
经过所述第x个残差连接及归一化层的处理后,输出中间信息矩阵Z

i,x
;从而由X个残差连接及归一化层得到第i个样本R
i
融合X个临床主题的总中间信息矩阵Z

i
={Z

i,1
,...,Z

i,x
,...,Z

i,X
};
[0021]步骤2.4、所述前向传播网络模块包括:2X个全连接层和X个Relu激活函数;
[0022]第2x

1个和第2x个全连接层利用式(4)对所述中间信息矩阵Z

i,x
进行线性变换,并在2个全连接层中采用第x个Relu激活函数本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于患者画像的肿瘤药物敏感性预测方法,其特征是按如下步骤进行:步骤1、构建临床数据训练样本集S;获取患者临床数据集并进行数据清洗、分词的预处理,得到预处理后的临床数据分词集合R={R1,...,R
i
,...,R
N
},R
i
表示分词后的第i个样本,N表示样本总数;并有:表示分词后的第i个样本,N表示样本总数;并有:w
i,j
表示第i个样本R
i
中第j个单词,N
i
表示第i个样本R
i
中的单词总数;设置样本对应的药物敏感性类别标签集合L={L1,...,L
i
,...,L
N
};L
i
表示第i个样本R
i
的药物敏感性类别标签,并由R
i
和L
i
构成第i个临床数据训练样本S
i
,从而得到临床数据训练样本集S={S1,S2,...,S
i
,...,S
N
}={(R1,L1),...,(R
i
,L
i
),...,(R
N
,L
N
)};步骤2、构建患者画像的特征提取深度网络模型,包括:主题编码模块、多头注意力模块、中间模块、前向传播网络模块以及输出模块;并将所述临床数据分词集合R输入所述特征提取深度网络模型中;步骤2.1、所述主题编码模块利用吉布斯采样方法对所述临床数据分词集合R进行处理,从而利用式(1)得到第i个样本R
i
的临床主题分布利用式(2)得到第x个主题下的词分布到第x个主题下的词分布到第x个主题下的词分布式(1)和式(2)中,为先验参数,表示第x个临床主题在第i个样本R
i
内出现的频数,x=1,2,

,X,X为主题数;表示第t个单词在第x个临床主题下出现的频数,t=1,2,

,T,T为单词数;为第i个样本R
i
在第x个临床主题上的概率,为第x个主题中第t个单词的概率;对于词分布取概率最大的前t个单词对第x个临床主题进行向量表征,并结合主题分布θ
i
,得到第i个样本R
i
在第x个临床主题中的特征矢量R

i,x
;从而由X个主题得到第i个样本R
i
的总特征矢量R

i
={R

i,1
,...,R

i,x
,...,R

i,X
};步骤2.2、所述多头注意力模块包括:X个注意力块和X个全连接层;其中,任意第x个注意力块由H个自注意力层组成;x=1,2,...,X;所述第i个样本R
i
在第x个临床主题中的特征矢量R

i,x
经过第x个注意力块,并分别与H个自注意力层中的3个权重矩阵相乘后进行缩放点积处理,从而得到H个自注意力层输出的注意力信息;其中,特征矢量R

i,x
与第h个自注意力层的3个权重矩阵相乘后,相应得到3个参数矩阵Q
x,h
,K
x,h
,V
x,h
,并对3个参数矩阵Q
x,h
,K
x,h
,V
x,h
进行缩放点积处理,从而得到第h个自注意力层输出的注意力信息head
i,x,h
;h=1,2,...,H;
第x个全连接层利用式(3)对H个自注意力层输出的注意力信息进行拼接处理,得到第i个样本R
i
在第x个注意力块中的信息矩阵Z
i,x
;从而由X个注意力块和X个全连接层得到第i个样本R
i
融合X个临床主题的总信息矩阵Z
i
={Z
i,1
,...,Z
i,x
,...,Z
i,X
};式(3)中,为第i个样本R
i
在第x个注意力块中的权重矩阵,Concat表示合并操作;步骤2.3、所述中间模块由X个残差连接及归一化层并联组成,所述信息矩阵Z
i,x
和第i个样本R
i
在第x个主题中的特征矢量R

i,x
经过所述第x个残差连接及归一化层的处理后,输出中间信息矩阵Z

i,x
;从而由X个残差连接及归一化层得到第i个样本R
i
融合X个临床主题的总中间信息矩阵Z

i
={Z

i,1
,...,Z

【专利技术属性】
技术研发人员:谢新平李丹丹王红强朱伟伟张蕾
申请(专利权)人:安徽建筑大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1