基于BERT和双分支网络的胃镜文本分类系统技术方案

技术编号:35067208 阅读:37 留言:0更新日期:2022-09-28 11:25
本发明专利技术属于自然语言处理领域,提供一种基于BERT和双分支网络的胃镜文本分类系统,获取待分类的胃镜文本数据;从待分类的胃镜文本数据中分离镜下所见文本和病理诊断文本;对镜下所见文本和病理诊断文本分别进行切分,获得由若干文本单元组成的集合,即文本单元集合;在所述文本单元集合内的每个文本单元前插入[CLS]标记,每个文本单元后插入[SEP]标记,并将它们重新组合成一段连续的文本;使用预训练好的BERT模型提取每个[CLS]字符对应的文本特征向量,得到文本单元的特征向量集合;基于文本单元的特征向量集合,利用预先训练好的MLP双分支分类网络中进行文本分类。采用先对文本进行切分再进行分类的方法实现对胃镜文本分类,保留胃镜文本中胃的部位信息。保留胃镜文本中胃的部位信息。保留胃镜文本中胃的部位信息。

【技术实现步骤摘要】
基于BERT和双分支网络的胃镜文本分类系统


[0001]本专利技术属于自然语言处理
,具体涉及一种基于BERT和双分支网络的胃镜文本分类系统。

技术介绍

[0002]本部分的陈述仅仅是提供了与本专利技术相关的
技术介绍
信息,不必然构成在先技术。
[0003]我国是胃癌的高发国家,胃癌的发病率和死亡率分别位居恶性肿瘤的第二位和第三位。由于胃癌早期无明显症状,偶尔出现的上腹不适、嗳气等非特异性症状,这与胃炎、胃溃疡等胃部慢性疾病极其相似,使得早期胃癌易被患者和医生忽略,进而导致胃癌的早期诊断率较低。
[0004]胃镜文本是医生对患者进行胃镜诊断后给出的胃镜文本报告,医生在撰写胃镜文本时常常遵照相对固定的格式,规范的胃镜文本需要包括病变位置、形态、大小、颜色、表面状态、边界等要素。胃镜文本通常包含两类文本:镜下所见文本和病理诊断文本。
[0005]胃镜文本中含有的丰富信息可用于胃癌发病规律的研究,特别是早期胃癌。基于现有的胃镜诊断文本,提取胃癌相关信息,可以统计胃癌不同年龄、性别人群的易发病位置、病变表现,总结相关规律。医生知晓这些规律后便可以对疑似早期胃癌的病灶做出更准确的诊断,以提高早期胃癌的诊断率。尽管胃镜文本包含病变相关的各类要素,但对各个要素而言,其具体描述缺乏统一规范,文本内容往往具有个体差异性,这种差异性使得很难使用正则表达式等基于规则的方法提取相关信息。
[0006]近年来,基于深度学习的自然语言处理技术蓬勃发展,尤其是2019年Google创新性地采用12层或24层Transformer的编码层累加,形成了一个自编码语言模型BERT(Bidirectional Encoder Representation from Transformers)。BERT融合Transformer的自注意力机制,能够较好的提取句子级别的特征,但是尚未见到将BERT用于胃镜文本处理的研究和应用。
[0007]现有技术中存在以下问题:
[0008]用于医学领域的非深度自然语言处理模型通常结构比较简单,存在准确率不高、泛化能力差的劣势,如多层感知机(MLP)、支持向量机(SVM)等。
[0009]用于医学领域的深度自然语言处理模型难以基于胃镜文本提取患者的癌症发病部位和病情分级的需求转换为一个传统的文本分类任务。例如,基于BERT的文本分类算法只能实现标签之间没有关联的多分类任务。

技术实现思路

[0010]为了解决上述问题,本专利技术提出了一种基于BERT和双分支网络的胃镜文本分类系统,本专利技术将胃镜文本通过规则切分成文本单元,然后基于预训练并微调后的BERT对胃镜文本单元进行特征提取,最后,融合双分支MLP分类网络,实现基于胃镜文本中的患者癌症
分期以及提取病变部位的需求。
[0011]根据一些实施例,本专利技术的第一方案提供了一种基于BERT和双分支网络的胃镜文本分类系统,采用如下技术方案:
[0012]基于BERT和双分支网络的胃镜文本分类系统,包括:
[0013]文本数据采集模块,被配置为获取待分类的胃镜文本数据;
[0014]文本数据切分模块,被配置为从待分类的胃镜文本数据中分离镜下所见文本和病理诊断文本;
[0015]文本单元切分模块,被配置为对镜下所见文本和病理诊断文本分别进行切分,获得由若干文本单元组成的集合,即文本单元集合;
[0016]文本单元拼接模块,被配置为在所述文本单元集合内的每个文本单元前插入[CLS]标记,每个文本单元后插入[SEP]标记,并将它们重新组合成一段连续的文本;
[0017]文本特征提取模块,被配置为使用预训练好的BERT模型提取每个[CLS]字符对应的文本特征向量,得到文本单元的特征向量集合;
[0018]文本单元分类模块,被配置为基于文本单元的特征向量集合,利用预先训练好的MLP双分支分类网络中进行文本分类。
[0019]进一步地,所述获取待分类的胃镜文本数据,具体为:
[0020]逐条获取胃镜文本数据,以列表形式存储为原始数据集;
[0021]对原始数据集中的原始待处理的每条数据执行去除特殊字符、首尾空格操作,并将英文标点符号转换为中文标点符号,得到待分类的胃镜文本数据。
[0022]进一步地,所述从待分类的胃镜文本数据中分离镜下所见文本和病理诊断文本,包括:
[0023]基于待分类的胃镜文本数据,查找胃镜文本的切分点;
[0024]基于胃镜文本的切分点,将待分类的胃镜文本数据进行切分;
[0025]得到镜下所见文本和病理诊断文本。
[0026]进一步地,所述查找胃镜文本的切分点,具体为:
[0027]对待分类的胃镜文本数据T进行切分,T由字符序列T
i
组成,其中i=1,2,

,n,n为T的中所包含的字符个数;
[0028]置状态符S=0,由T1开始迭代检索;
[0029]若T
i
为换行符,则置状态符S=1,否则置状态符S=0并跳出本轮迭代;
[0030]查看T
i+1
是否为换行符,若T
i+1
为换行符,则置状态符S=2,否则置状态符S=0并跳出本轮迭代;
[0031]查看T
i+2
是否为换行符,若T
i+2
为换行符,则标记T
i
的位置L,否则置状态符S=0,本轮迭代完成;
[0032]所获取的三个换行符为胃镜文本的切分点。
[0033]进一步地,所述对镜下所见文本和病理诊断文本分别进行切分,获得由若干文本单元组成的集合,即文本单元集合,包括:
[0034]以句号为切分点分别将镜下所见文本与病理诊断文本进行切分,获得语句集S,S由S
k
构成其中k=1,2,

,m,m为镜下所见文本和病理诊断文本中的句子数量之和;
[0035]对S
k
进行检索,若句子中有胃角、胃底的胃内部位关键字,将S
k
的标记F
k
置为1,否
则置为0;
[0036]遍历所有F
k
为0的句子S,将S
k
拼接在S
t
的末尾组成新的文本,其中t为[1,k

1]范围中且符合F
t
=1最大的值;
[0037]此时每一条F
k
=1的文本S
k
均为一个文本单元,若此文本单元来自镜下所见文本,则这个文本单元为镜下所见文本单元,否则为病理诊断文本单元;
[0038]将得到所有的镜下所见文本单元和病理诊断文本单元构成文本单元集合。
[0039]进一步地,所述MLP双分支分类网络包括共用输入层、镜下所见文本处理隐藏层、病理诊断文本处理隐藏层、镜下所见文本处理输出层以及病理诊断文本处理输出层;
[00本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于BERT和双分支网络的胃镜文本分类系统,其特征在于,包括:文本数据采集模块,被配置为获取待分类的胃镜文本数据;文本数据切分模块,被配置为从待分类的胃镜文本数据中分离镜下所见文本和病理诊断文本;文本单元切分模块,被配置为对镜下所见文本和病理诊断文本分别进行切分,获得由若干文本单元组成的集合,即文本单元集合;文本单元拼接模块,被配置为在所述文本单元集合内的每个文本单元前插入[CLS]标记,每个文本单元后插入[SEP]标记,并将它们重新组合成一段连续的文本;文本特征提取模块,被配置为使用预训练好的BERT模型提取每个[CLS]字符对应的文本特征向量,得到文本单元的特征向量集合;文本单元分类模块,被配置为基于文本单元的特征向量集合,利用预先训练好的MLP双分支分类网络中进行文本分类。2.如权利要求1所述的基于BERT和双分支网络的胃镜文本分类系统,其特征在于,所述获取待分类的胃镜文本数据,具体为:逐条获取胃镜文本数据,以列表形式存储为原始数据集;对原始数据集中的原始待处理的每条数据执行去除特殊字符、首尾空格操作,并将英文标点符号转换为中文标点符号,得到待分类的胃镜文本数据。3.如权利要求1所述的基于BERT和双分支网络的胃镜文本分类系统,其特征在于,所述从待分类的胃镜文本数据中分离镜下所见文本和病理诊断文本,包括:基于待分类的胃镜文本数据,查找胃镜文本的切分点;基于胃镜文本的切分点,将待分类的胃镜文本数据进行切分;得到镜下所见文本和病理诊断文本。4.如权利要求3所述的基于BERT和双分支网络的胃镜文本分类系统,其特征在于,所述查找胃镜文本的切分点,具体为:对待分类的胃镜文本数据T进行切分,T由字符序列T
i
组成,其中i=1,2,

,n,n为T的中所包含的字符个数;置状态符S=0,由T1开始迭代检索;若T
i
为换行符,则置状态符S=1,否则置状态符S=0并跳出本轮迭代;查看T
i+1
是否为换行符,若T
i+1
为换行符,则置状态符S=2,否则置状态符S=0并跳出本轮迭代;查看T
i+2
是否为换行符,若T
i+2
为换行符,则标记T
i
的位置L,否则置状态符S=0,本轮迭代完成;所获取的三个换行符为胃镜文本的切分点。5.如权利要求1所述的基于BERT和双分支网络的胃镜文本分类系统,其特征在于,所述对镜下所见文本和病理诊断文本分别进行切分,获得由若干文本单元组成的集合,即文本单元集合,包括:以句号为切分点分别将镜下所见文本与病理诊断文本进行切分,获得语句集S,S由S
k
构成其中k=1,2,

,m,m为镜下所见文本和病理诊断文本中的句子数量之和;对S
k
进行检索,若句子中有胃角、胃底的胃内部位关键字,将S
k
的标记F
k
置为1,否则置
为0;遍历所有F
k
为0的句子S,将S
k
拼接在S
t
的末尾组成新的文本,其中t为[1,k

1]范围中...

【专利技术属性】
技术研发人员:郑向伟王智超张明哲穆怡君张劲松
申请(专利权)人:山东师范大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1