基于BERT和双分支网络的胃镜文本分类系统技术方案

技术编号：35067208 阅读：37 留言：0更新日期：2022-09-28 11:25

本发明专利技术属于自然语言处理领域，提供一种基于BERT和双分支网络的胃镜文本分类系统，获取待分类的胃镜文本数据；从待分类的胃镜文本数据中分离镜下所见文本和病理诊断文本；对镜下所见文本和病理诊断文本分别进行切分，获得由若干文本单元组成的集合，即文本单元集合；在所述文本单元集合内的每个文本单元前插入[CLS]标记，每个文本单元后插入[SEP]标记，并将它们重新组合成一段连续的文本；使用预训练好的BERT模型提取每个[CLS]字符对应的文本特征向量，得到文本单元的特征向量集合；基于文本单元的特征向量集合，利用预先训练好的MLP双分支分类网络中进行文本分类。采用先对文本进行切分再进行分类的方法实现对胃镜文本分类，保留胃镜文本中胃的部位信息。保留胃镜文本中胃的部位信息。保留胃镜文本中胃的部位信息。

全部详细技术资料下载

【技术实现步骤摘要】
基于BERT和双分支网络的胃镜文本分类系统

[0001]本专利技术属于自然语言处理
，具体涉及一种基于BERT和双分支网络的胃镜文本分类系统。

技术介绍

[0002]本部分的陈述仅仅是提供了与本专利技术相关的
技术介绍
信息，不必然构成在先技术。
[0003]我国是胃癌的高发国家，胃癌的发病率和死亡率分别位居恶性肿瘤的第二位和第三位。由于胃癌早期无明显症状，偶尔出现的上腹不适、嗳气等非特异性症状，这与胃炎、胃溃疡等胃部慢性疾病极其相似，使得早期胃癌易被患者和医生忽略，进而导致胃癌的早期诊断率较低。
[0004]胃镜文本是医生对患者进行胃镜诊断后给出的胃镜文本报告，医生在撰写胃镜文本时常常遵照相对固定的格式，规范的胃镜文本需要包括病变位置、形态、大小、颜色、表面状态、边界等要素。胃镜文本通常包含两类文本：镜下所见文本和病理诊断文本。
[0005]胃镜文本中含有的丰富信息可用于胃癌发病规律的研究，特别是早期胃癌。基于现有的胃镜诊断文本，提取胃癌相关信息，可以统计胃癌不同年龄、性别人群的易发病位置、病变表现，总结相关规律。医生知晓这些规律后便可以对疑似早期胃癌的病灶做出更准确的诊断，以提高早期胃癌的诊断率。尽管胃镜文本包含病变相关的各类要素，但对各个要素而言，其具体描述缺乏统一规范，文本内容往往具有个体差异性，这种差异性使得很难使用正则表达式等基于规则的方法提取相关信息。
[0006]近年来，基于深度学习的自然语言处理技术蓬勃发展，尤其是2019年Google创新性地采用12层或24层Tr...

【技术保护点】

【技术特征摘要】
1.基于BERT和双分支网络的胃镜文本分类系统，其特征在于，包括：文本数据采集模块，被配置为获取待分类的胃镜文本数据；文本数据切分模块，被配置为从待分类的胃镜文本数据中分离镜下所见文本和病理诊断文本；文本单元切分模块，被配置为对镜下所见文本和病理诊断文本分别进行切分，获得由若干文本单元组成的集合，即文本单元集合；文本单元拼接模块，被配置为在所述文本单元集合内的每个文本单元前插入[CLS]标记，每个文本单元后插入[SEP]标记，并将它们重新组合成一段连续的文本；文本特征提取模块，被配置为使用预训练好的BERT模型提取每个[CLS]字符对应的文本特征向量，得到文本单元的特征向量集合；文本单元分类模块，被配置为基于文本单元的特征向量集合，利用预先训练好的MLP双分支分类网络中进行文本分类。2.如权利要求1所述的基于BERT和双分支网络的胃镜文本分类系统，其特征在于，所述获取待分类的胃镜文本数据，具体为：逐条获取胃镜文本数据，以列表形式存储为原始数据集；对原始数据集中的原始待处理的每条数据执行去除特殊字符、首尾空格操作，并将英文标点符号转换为中文标点符号，得到待分类的胃镜文本数据。3.如权利要求1所述的基于BERT和双分支网络的胃镜文本分类系统，其特征在于，所述从待分类的胃镜文本数据中分离镜下所见文本和病理诊断文本，包括：基于待分类的胃镜文本数据，查找胃镜文本的切分点；基于胃镜文本的切分点，将待分类的胃镜文本数据进行切分；得到镜下所见文本和病理诊断文本。4.如权利要求3所述的基于BERT和双分支网络的胃镜文本分类系统，其特征在于，所述查找胃镜文本的切分点，具体为：对待分类的胃镜文本数据T进行切分，T由字符序列T
i
组成，其中i＝1,2,
…
,n，n为T的中所包含的字符个数；置状态符S＝0，由T1开始迭代检索；若T
i
为换行符，则置状态符S＝1，否则置状态符S＝0并跳出本轮迭代；查看T
i+1
是否为换行符，若T
i+1
为换行符，则置状态符S＝2，否则置状态符S＝0并跳出本轮迭代；查看T
i+2
是否为换行符，若T
i+2
为换行符，则标记T
i
的位置L，否则置状态符S＝0，本轮迭代完成；所获取的三个换行符为胃镜文本的切分点。5.如权利要求1所述的基于BERT和双分支网络的胃镜文本分类系统，其特征在于，所述对镜下所见文本和病理诊断文本分别进行切分，获得由若干文本单元组成的集合，即文本单元集合，包括：以句号为切分点分别将镜下所见文本与病理诊断文本进行切分，获得语句集S，S由S
k
构成其中k＝1,2,
…
,m，m为镜下所见文本和病理诊断文本中的句子数量之和；对S
k
进行检索，若句子中有胃角、胃底的胃内部位关键字，将S
k
的标记F
k
置为1，否则置
为0；遍历所有F
k
为0的句子S，将S
k
拼接在S
t
的末尾组成新的文本，其中t为[1,k
‑
1]范围中...

【专利技术属性】
技术研发人员：郑向伟，王智超，张明哲，穆怡君，张劲松，
申请(专利权)人：山东师范大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人