基于语义文本的智能肝癌分期方法、系统及介质技术方案

技术编号:36524657 阅读:18 留言:0更新日期:2023-02-01 16:02
本发明专利技术涉及一种基于语义文本的智能肝癌分期方法、系统及介质,属于医疗技术领域,本发明专利技术通过获取样本数据,并截取样本数据中描写肝部位的文本片段作为训练数据;通过对训练数据进行预处理,得到数据集,并按照预设比例将数据集分为训练集以及测试集;获取训练集中的肝癌文本数据,并对肝癌文本数据进行特征处理以获取文本特征向量,将文本特征向量输入至BERT模型中,得到高维词向量;构建分类模型,并将高维词向量输入到分类模型中,得到训练完成的分类模型,并通过测试集对分类模型进行测试,得到分类结果。本发明专利技术通过提取文本中不同层次的语义信息实现肝癌分期,并且将肝癌分期结果更加细化,为医生提供更精确的分期结果。为医生提供更精确的分期结果。为医生提供更精确的分期结果。

【技术实现步骤摘要】
基于语义文本的智能肝癌分期方法、系统及介质


[0001]本专利技术涉及医疗
,尤其涉及基于语义文本的智能肝癌分期方法、系统及介质。

技术介绍

[0002]肝癌是一种恶性肿瘤,是高发的,危害极大的恶性肿瘤。因此,如何有效的提高肝癌的的诊疗水平是医学界研究的重要方向之一。
[0003]肝癌分期可以用于评定癌症发展和扩散的程度,是癌症诊断和治疗的重要环节。CNLC分期系统从大小、数目等多个维度将肝癌分为Ia、Ib、IIa、IIb、IIIa、IIIb期以及IV期。
[0004]随着信息化时代的来临,大量的数据以电子的形式被记录,而电子病历就是医院信息化建设的重要环节。电子病历存储着大量使用率低、完备详细的病患信息,医生们通过电子病历上的记录对患者有具体的了解并制定后续的诊疗方案。以肝癌分期为例,医生通过查阅病人的病理报告和影像学报告来评估病人的肝癌分期情况。由于肝癌分期需要对照多个指标遵循CNLC的分期标准,这是非常耗时且容易出错的。综上所述,利用深度学习模型对肝癌文本进行特征学习,从而实现肝癌的精准分期,这将会在很大程度上降低临床医生的工作量,并为其在肝癌分期评估中提供辅助诊断,帮助医生更加快速、准确的做出诊断和决策。目前的肝癌分期的模型都是基于图像为主,对电子病历的利用率较低,并且对于数据预处理过程要求较高。除此之外,现有的模型只能分为早期、中期、晚期,对分期结果还不够具体。

技术实现思路

[0005]本专利技术克服了现有技术的不足,提供了一种基于语义文本的智能肝癌分期方法、系统及介质。
[0006]为达上述目的,本专利技术采用的技术方案为:本专利技术第一方面提供了一种基于语义文本的智能肝癌分期方法,包括以下步骤:获取样本数据,并截取所述样本数据中描写肝部位的文本片段作为训练数据;通过对所述训练数据进行预处理,得到数据集,并按照预设比例将所述数据集分为训练集以及测试集;获取所述训练集中的肝癌文本数据,并对所述肝癌文本数据进行特征处理以获取文本特征向量,将所述文本特征向量输入至BERT 模型中,得到高维词向量;构建分类模型,并将所述高维词向量输入到所述分类模型中,得到训练完成的分类模型,并通过测试集对所述分类模型进行测试,得到分类结果。
[0007]优选地,本专利技术的一个较佳实施例中,通过对所述训练数据进行预处理,得到数据集,并按照预设比例将所述数据集分为训练集以及测试集,具体包括以下步骤:通过大数据网络获取CNLC分期标准,并通过所述CNLC分期标准对当前训练数据进行分期,将不存在分期结果的训练数据进行剔除,得到肝癌分期数据信息;
基于所述肝癌分期数据信息生成对应的类别标签,构建肝癌分期结果数据表,并将所述类别标签输入到所述肝癌分期数据表中;将所述肝癌分期数据表中的数据进行随机打乱,并将所述肝癌分期数据表中的数据作为数据集;按照预设比例将所述数据集分为训练集以及测试集。
[0008]优选地,本专利技术的一个较佳实施例中,获取所述训练集中的肝癌文本数据,并对所述肝癌文本数据进行特征处理以获取文本特征向量,将所述文本特征向量输入至BERT模型中,得到高维词向量,具体为:获取所述训练集中的肝癌文本数据,并通过对所述肝癌文本数据进行分词处理,以得到文本特征向量;构建BERT 模型,并将所述文本特征向量输入至所述BERT模型的嵌入层中进行嵌入操作,得到操作结果;将所述操作结果输入到Encoder层中,进行自注意力处理以及前馈神经网络的计算,得到多个目标输出矩阵;将所述多个目标输出矩阵拼接成词向量矩阵,并将所述词向量矩阵压缩成预设序列长度大小,以获取高维词向量。
[0009]优选地,本专利技术的一个较佳实施例中,构建分类模型,并将所述高维词向量输入到所述分类模型中,得到训练完成的分类模型,具体包括以下步骤:基于神经网络构建分类模型,并将所述高维词向量输入到所述分类模型的卷积层中通过采用若干个不同大小的卷积核进行卷积运算,得到卷积特征值;将所述卷积特征值输入到池化层中,并采用最大池化的方式,在每一个卷积核中选出最大数字作为当前所在区域的特征值;通过在concatenate 层将所述当前所在区域的特征值进行融合,得到高维特征向量;将所述高维特征向量经过两个全连接层实现线性变换,通过交叉熵损失函数进行参数反向传播训练,直到误差收敛至预设值,并保存模型参数,以结束分类模型的训练。
[0010]优选地,本专利技术的一个较佳实施例中,其中将所述高维特征向量经过两个全连接层实现线性变换,具体为:通过sigmoid 激活函数将高维特征向量转换为预测概率,其中,转换方式如下:其中,为预测概率,、分别表示全连接层和输出层的可训练参数,表示ReLU 激活函数,为高维特征向量。
[0011]优选地,本专利技术的一个较佳实施例中,通过交叉熵损失函数进行参数反向传播训练,直到误差收敛至预设值,具体为:通过交叉熵损失函数进行误差收敛,其计算方式如下:其中,为收敛后的值;N 表示训练文本数量;L 表示文本对应的标签数量;在
[0,1]的取值范围之内,表示第 i 个样本中第 j 个类别的预测概率;∈{0,1}表示第 i 个样本是否属于第 j 个类别;“0”表示否,“1”表示“是”。
[0012]本专利技术第二方面提供了基于语义文本的智能肝癌分期系统,所述系统包括存储器以及处理器,所述存储器中包括基于语义文本的智能肝癌分期方法程序,所述基于语义文本的智能肝癌分期方法程序被处理器执行时,实现如下步骤:获取样本数据,并截取所述样本数据中描写肝部位的文本片段作为训练数据;通过对所述训练数据进行预处理,得到数据集,并按照预设比例将所述数据集分为训练集以及测试集;获取所述训练集中的肝癌文本数据,并对所述肝癌文本数据进行特征处理以获取文本特征向量,将所述文本特征向量输入至BERT模型中,得到高维词向量;构建分类模型,并将所述高维词向量输入到所述分类模型中,得到训练完成的分类模型,并通过测试集对所述分类模型进行测试,得到分类结果。
[0013]优选地,本专利技术的一个较佳实施例中,获取所述训练集中的肝癌文本数据,并对所述肝癌文本数据进行特征处理以获取文本特征向量,将所述文本特征向量输入至BERT模型中,得到高维词向量,具体为:获取所述训练集中的肝癌文本数据,并通过对所述肝癌文本数据进行分词处理,以得到文本特征向量;构建BERT 模型,并将所述文本特征向量输入至所述BERT 模型的嵌入层中进行嵌入操作,得到操作结果;将所述操作结果输入到Encoder层中,进行自注意力处理以及前馈神经网络的计算,得到多个目标输出矩阵;将所述多个目标输出矩阵拼接成词向量矩阵,并将所述词向量矩阵压缩成预设序列长度大小,以获取高维词向量。
[0014]优选地,本专利技术的一个较佳实施例中,构建分类模型,并将所述高维词向量输入到所述分类模型中,得到训练完成的分类模型,具体包括以下步骤:基于神经网络构建分类模型,并将所述高维词向量输入到所述分类模型的卷积层中通过采用若干个不同大小的卷积核进行卷积运算,得到卷积特征值;将所述卷积特征值输入到池化层中,并采用最大池化的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于语义文本的智能肝癌分期方法,其特征在于,包括以下步骤:获取样本数据,并截取所述样本数据中描写肝部位的文本片段作为训练数据;通过对所述训练数据进行预处理,得到数据集,并按照预设比例将所述数据集分为训练集以及测试集;获取所述训练集中的肝癌文本数据,并对所述肝癌文本数据进行特征处理以获取文本特征向量,将所述文本特征向量输入至BERT 模型中,得到高维词向量;构建分类模型,并将所述高维词向量输入到所述分类模型中,得到训练完成的分类模型,并通过测试集对所述分类模型进行测试,得到分类结果。2.根据权利要求1所述的基于语义文本的智能肝癌分期方法,其特征在于,通过对所述训练数据进行预处理,得到数据集,并按照预设比例将所述数据集分为训练集以及测试集,具体包括以下步骤:通过大数据网络获取CNLC分期标准,并通过所述CNLC分期标准对当前训练数据进行分期,将不存在分期结果的训练数据进行剔除,得到肝癌分期数据信息;基于所述肝癌分期数据信息生成对应的类别标签,构建肝癌分期结果数据表,并将所述类别标签输入到所述肝癌分期数据表中;将所述肝癌分期数据表中的数据进行随机打乱,并将所述肝癌分期数据表中的数据作为数据集;按照预设比例将所述数据集分为训练集以及测试集。3.根据权利要求1所述的基于语义文本的智能肝癌分期方法,其特征在于,获取所述训练集中的肝癌文本数据,并对所述肝癌文本数据进行特征处理以获取文本特征向量,将所述文本特征向量输入至BERT 模型中,得到高维词向量,具体为:获取所述训练集中的肝癌文本数据,并通过对所述肝癌文本数据进行分词处理,以得到文本特征向量;构建BERT 模型,并将所述文本特征向量输入至所述BERT 模型的嵌入层中进行嵌入操作,得到操作结果;将所述操作结果输入到Encoder层中,进行自注意力处理以及前馈神经网络的计算,得到多个目标输出矩阵;将所述多个目标输出矩阵拼接成词向量矩阵,并将所述词向量矩阵压缩成预设序列长度大小,以获取高维词向量。4.根据权利要求1所述的基于语义文本的智能肝癌分期方法,其特征在于,构建分类模型,并将所述高维词向量输入到所述分类模型中,得到训练完成的分类模型,具体包括以下步骤:基于神经网络构建分类模型,并将所述高维词向量输入到所述分类模型的卷积层中通过采用若干个不同大小的卷积核进行卷积运算,得到卷积特征值;将所述卷积特征值输入到池化层中,并采用最大池化的方式,在每一个卷积核中选出最大数字作为当前所在区域的特征值;通过在concatenate 层将所述当前所在区域的特征值进行融合,得到高维特征向量;将所述高维特征向量经过两个全连接层实现线性变换,通过交叉熵损失函数进行参数反向传播训练,直到误差收敛至预设值,并保存模型参数,以结束分类模型的训练。
5.根据权利要求4所述的基于语义文本的智能肝癌分期方法,其特征在于,其中将所述高维特征向量经过两个全连接层实现线性变换,具体为:通过sigmoid 激活函数将高维特征向量转换为预测概率,其中,转换方式如下:其中,为预测概率,、分别表示全连接层和输出层的可训练参数,表示ReLU 激活...

【专利技术属性】
技术研发人员:李亚郑学聪戴青云李家平
申请(专利权)人:广东技术师范大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1