一种基于NLP的突变基因分类方法技术

技术编号:35229991 阅读:12 留言:0更新日期:2022-10-15 10:50
本发明专利技术提供了一种基于NLP的突变基因分类方法,属于自然语言处理技术领域。包括以下步骤:对文本特征进行挖掘,将原始基因文本、突变基因文本以及文献文本组合成输入样本,提取文本的数值特征,并对每个样本赋予分类标签;将样本的特征输入数据矩阵通过PCA降维和白化,并分为测试集和训练集;搭建DWNN模型,确定机器学习模型的拓扑结构;确定机器学习模型的超参数;得到最终的机器学习模型;将测试集输入机器学习模型,得到最终的分类结果。本发明专利技术提高了突变基因分类的效率和精度,降低了分类成本。本。本。

【技术实现步骤摘要】
一种基于NLP的突变基因分类方法


[0001]本专利技术涉及一种基于NLP的突变基因分类方法,属于自然语言处理


技术介绍

[0002]基因突变是基因组DNA分子发生的突然的、可遗传的变异现象。某种基因发生突变成为一种新型基因,称为突变基因。突变基因分类通常由人工完成。人工完成突变基因分类存在劣势。首先,人工筛查的效率低,一名专业分类人员短则需要几小时,长则需要几周甚至更久的时间完成分类。其次,突变基因分类对人员素质要求高,基因分类工作需要理论水平和实践经验足够高的专业机构和专业人才,为了保证分类精度,通常采样多专家决策。即便如此,某种突变基因的分类还需临床多年验证进行迭代修正。当前机器学习集成算法完成突变基因分类也并不完善,学者往往凭主观经验或有限的尝试就确定集成模型拓扑结构和超参数,无法保证得到的拓扑结构和超参数是全局最优解。

技术实现思路

[0003]本专利技术目的是提供了一种基于NLP的突变基因分类方法,提高了突变基因分离的效率和精度,降低了分类成本。
[0004]本专利技术为实现上述目的,通过以下技术方案实现:步骤1:对文本特征进行挖掘,将原始基因文本、突变基因文本以及文献文本组合成输入样本,提取文本的数值特征,并对每个样本赋予分类标签,所述提取文本数值特征具体步骤如下:步骤1

1:将所有样本获取的原始基因文本、突变基因文本和文献文本各自组合成原始基因数据集、突变基因数据集和文献数据集,分别采用单词提取接口,提取所有满足正则匹配规则[a

>zA

Z0

9]的词并对其去重,再通过nltk模块剔除无意义词。
[0005]步骤1

2:将处理后的原始基因数据集按照ASCII码正序排列组成列表长度为L1的列表T1,逐个筛查列表T1中对应位置单词在原始基因数据集中出现的次数并记录,形成列表V1,V1长度与T1相同,V1的第i个元素值代表T1的第i个元素单词在原始基因数据集中出现的次数,遍历所有样本的原始基因,构成大小为NxL1的原始基因数值提取矩阵。
[0006]将处理后的突变基因数据集按照ASCII码正序排列组成列表长度为L2的列表T2,逐个筛查列表T2中对应位置单词在突变基因数据集中出现的次数并记录,形成列表V2,V2长度与T2相同,V2的第i个元素值代表T2的第i个元素单词在突变基因数据集中出现的次数,遍历所有样本,构成大小为NxL2的突变基因数值提取矩阵。
[0007]将处理后的文献数据集按照ASCII码正序排列组成列表长度为L3的列表T3,逐个筛查列表T3中对应位置单词在文献数据集中出现的次数并记录,形成列表V3,V3长度与T3相同,V3的第i个元素值代表T3的第i个元素单词在文献数据集中出现的次数,遍历所有样本,构成大小为NxL3的文献数值提取矩阵。
[0008]步骤1

3:将原始基因数值提取矩阵、突变基因数值提取矩阵和文献数值提取矩阵
按照列方向拼接,形成样本的特征输入数据矩阵,M=L1+L2+L3。
[0009]步骤2:将样本的特征输入数据矩阵通过PCA降维和白化,并分为测试集和训练集;具体步骤如下:步骤2

1:将特征输入数据的每列特征减去该列的均值得到矩阵B,矩阵B的协方差矩阵为C,其中表示矩阵B的每列数据;表示与的协方差,将C作为实对称矩阵,进行相似对角化,即其中为矩阵C的特征值,且满足,U为特征值对应的特征向量集合经正交及单位化的标准单位正交矩阵,U
T
是U的转置;若C不满秩,则将正交矩阵U右拼接M

Rank(C)个单位正交向量,并使。
[0010]步骤2

2:控制降维度后的信息量,具体公式如下:式中:p表示容许通过信息百分比,k≤M。
[0011]步骤2

3:从左往右取正交矩阵U的前k列,得到降维后的正交矩阵,则降维后的特征数据集为:借助PCA白化思想,经白化后得到:
其中。
[0012]步骤3:搭建DWNN模型,所述DWNN模型依次由6个模块序贯组成,第1个模块由Input层、Flatten层、BatchNormalization层组成;第2模块由神经元个数为500的全连接层Dense_500、BatchNormalization层组成;第3个模块由Dense_300和BatchNormalization层组成;第4个模块由Dense_200和BatchNormalization层组成;第5个模块由Dense_100和BatchNormalization层;第6个模块由Input层的输入以及Dense_500、Dense_300、Dense_200、Dense_100的输出经纵向拼接组成;模块1~6的激活函数均使用relu函数,最后使用全连接层和soft_max函数计算多分类概率;将远离输入层的结果直接短接至输出的前一层。
[0013]步骤4:确定机器学习模型的拓扑结构;将DWNN模型、lightgbm、Decision Tree、Na
ï
ve Bayes、random forest、XGBoost、AdaBoosting、Logistic Regression学习算法通过Stacking集成算法集成机器学习模型的拓扑结构。
[0014]步骤5:确定机器学习模型的超参数;将训练集输入Stacking集成后的机器学习模型进行训练,通过遗传算法模型计算超参数,得到最终的机器学习模型。
[0015]步骤6:将测试集输入步骤5得到的机器学习模型,得到最终的分类结果。
[0016]优选的,所述通过Stacking集成算法集成机器学习模型的拓扑结构使用两种集成方案,一种是两阶段Stacking集成,第一阶段为基学习器base1~base8分别预测出多分类的概率;第二阶段为将base1~base8的预测结果作为元学习器meta的输入特征,meta预测出最终的基因突变类型。
[0017]第二种是三阶段Stacking集成,第一阶段为base1_1、base1_2、base1_3和base1_4分别预测出多分类的概率;第二阶段为将base1_1和base1_2的预测结果作为meta1_1的特征,将base1_3和base1_4的预测结果作为meta1_2的特征,meta1_1和meta1_2分别预测出多分类的概率;第三阶段为将base2_1、base2_2、meta1_1和meta1_2的预测结果作为meta2的输入特征,meta2预测出最终的基因突变类型。
[0018]最后通过带有ε

greedy策略的Q

learning算法确定最优基学习器及元学习器。
[0019]优选的,所述p的取值范围为80%~90%。
[0020]优选的,所述通过遗传算法模型计算超参数的具体步骤如下:初始化种群以及子代数目,每个子代的种本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于NLP的突变基因分类方法,其特征在于,包括以下步骤:步骤1:对文本特征进行挖掘,将原始基因文本、突变基因文本以及文献文本组合成输入样本,提取文本的数值特征,并对每个样本赋予分类标签,所述提取文本数值特征具体步骤如下:步骤1

1:将所有样本获取的原始基因文本、突变基因文本和文献文本各自组合成原始基因数据集、突变基因数据集和文献数据集,分别采用单词提取接口,提取所有满足正则匹配规则[a

zA

Z0

9]的词并对其去重,再通过nltk模块剔除无意义词;步骤1

2:将处理后的原始基因数据集按照ASCII码正序排列组成列表长度为L1的列表T1,逐个筛查列表T1中对应位置单词在原始基因数据集中出现的次数并记录,形成列表V1,V1长度与T1相同,V1的第i个元素值代表T1的第i个元素单词在原始基因数据集中出现的次数,遍历所有样本的原始基因,构成大小为NxL1的原始基因数值提取矩阵;将处理后的突变基因数据集按照ASCII码正序排列组成列表长度为L2的列表T2,逐个筛查列表T2中对应位置单词在突变基因数据集中出现的次数并记录,形成列表V2,V2长度与T2相同,V2的第i个元素值代表T2的第i个元素单词在突变基因数据集中出现的次数,遍历所有样本,构成大小为NxL2的突变基因数值提取矩阵;将处理后的文献数据集按照ASCII码正序排列组成列表长度为L3的列表T3,逐个筛查列表T3中对应位置单词在文献数据集中出现的次数并记录,形成列表V3,V3长度与T3相同,V3的第i个元素值代表T3的第i个元素单词在文献数据集中出现的次数,遍历所有样本,构成大小为NxL3的文献数值提取矩阵;步骤1

3:将原始基因数值提取矩阵、突变基因数值提取矩阵和文献数值提取矩阵按照列方向拼接,形成样本的特征输入数据矩阵,M=L1+L2+L3;步骤2:将样本的特征输入数据矩阵通过PCA降维和白化,并分为测试集和训练集;具体步骤如下:步骤2

1:将特征输入数据的每列特征减去该列的均值得到矩阵B,矩阵B的协方差矩阵为C,其中表示矩阵B的每列数据;表示与的协方差,将C作为实对称矩阵,进行相似对角化,即
其中为矩阵C的特征值,且满足,U为特征值对应的特征向量集合经正交及单位化的标准单位正交矩阵,U
T
是U的转置;若C不满秩,则将正交矩阵U右拼接M

Rank(C)个单位正交向量,并使;步骤2

2:控制降维度后的信息量,具体公式如下:式中:p表示容许通过信息百分比,k≤M;步骤2

3:从左往右取正交矩阵U的前k列,得到降维后的正交矩阵,则降维后的特征数据集为:借助PCA白化思想,经白化后得到:其中;步骤3:搭建DWNN模型,所述DWNN模型依次由6个模块序贯组成,第1个模块由Input层、Flatten层、BatchNormalization层组成;第2模块由神经元个数为500的全连接层Dense_500、BatchNormalization层组成;第3个模块由Dense_300和BatchNormalization层组成;第4个模块由Dense_200和BatchNormalization层组成;第5个模块由Dense_100和BatchNormalization层;第6个模块由Input层的输入以及Dense_500、Den...

【专利技术属性】
技术研发人员:涂燕晖陈虎程海博陈一昕
申请(专利权)人:山东未来网络研究院紫金山实验室工业互联网创新应用基地
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1