当前位置: 首页 > 专利查询>之江实验室专利>正文

一种面向NER的中文临床文本数据增强方法及装置制造方法及图纸

技术编号:34433358 阅读:17 留言:0更新日期:2022-08-06 16:13
本发明专利技术公开了一种面向NER的中文临床文本数据增强方法及装置,通过数据预处理得到未标注数据和标签线性化处理的标注数据。使用未标注数据,通过掩盖文本中的部分信息,基于保留信息对掩盖部分进行预测,同时引入实体词级判别任务,进行基于片段的语言模型预训练;在微调阶段引入多种解码机制,基于预训练后的基于片段的语言模型得到文本向量和文本数据之间的关系,将线性化的带实体标签数据转化为文本向量,在文本生成模型的预测阶段通过正向解码和反向解码进行文本生成,通过对标签进行解析,得到带有标注信息的增强数据。本发明专利技术在进一步提升数据多样性的同时,对增强数据的质量也做了改善,从而确保模型可以生成更多高质量增强数据。增强数据。增强数据。

【技术实现步骤摘要】
一种面向NER的中文临床文本数据增强方法及装置


[0001]本专利技术涉及文本数据增强领域,尤其涉及一种面向NER的中文临床文本数据增强方法及装置。

技术介绍

[0002]命名实体识别任务是自然语言处理领域的一个基础任务,是序列标注问题的一种,类似于分类任务,对文本序列中的每个单元(中文的命名实体识别任务,通常基于单字或子词进行处理)进行类别判断,判断结果通常包括“非实体”,“实体开头词”,“实体中间词”,“实体结尾词”等多种类别,其中,实体相关的类型,会根据要预测的实体类型不同而有所不同。
[0003]随着医疗信息化建设的推进,医疗文本数据量呈现爆炸式增长的趋势,对非结构化医疗文书中信息的提取与利用成为了一大研究热点,而对医疗命名实体的识别是其中非常基础且重要的一个任务。通过对医疗命名实体进行识别,可以实现对非结构化医疗文本的信息提取,挖掘出大量蕴含于文本内容中的医疗信息,供临床和科研使用。
[0004]目前,命名实体识别任务常见的方式主要是基于统计学习或深度学习,采用有监督学习的方法进行模型的学习与训练,对医疗实体的识别通常也采用这些方法。有监督学习的方法准确度通常较高,但其要求样本的数量要足够多,样本数量越多,模型效果会越好,泛化能力也越强。而在医疗领域中,对数据的标注工作通常需要具有医疗知识的专业人员进行,并且不同应用场景下,对实体的类型定义等也不尽相同,如提取疾病相关信息时,实体类型可能多为“症状”、“检查”、“检验”等,而提取药品相关信息时,实体类型可能多为“成分”、“适用症”、“剂量”等,因此,不同场景下的医疗实体识别任务需要按照不同标注规范进行数据标注。以上可见,对医疗文本的标注工作是一项成本高难度大的任务,而数据增强技术的存在就是为了解决这个问题。
[0005]数据增强是一种通过让有限数据产生更多等价数据来人工扩展训练数据集规模的技术,采用数据增强技术,可以通过设计合适的算法框架,利用模型进行数据的自动标注,从而快速且低成本的获取到大量的带有标注信息的数据。通过数据增强手段,在节省大量的人工成本的同时,实现了增加训练数据规模,提高模型泛化能力,增加噪声数据,提升模型鲁棒性的效果。因此,如何对医疗NER任务进行有效的数据增强是一项可以大幅降低成本,且提升医疗信息提取效果的工作。
[0006]数据增强的现有技术主要包括两种:一种是采用同类型实体进行随机替换从而进行数据增强,另一种是通过语言模型生成来进行增强。
[0007]采用同类型实体进行随机替换是通用领域NER任务中常见的一种数据增强手段,其方法非常简单易实现,即对已有训练数据中标注好的命名实体进行同类型实体词替换,即可生成新的带有实体标注的样本,如原数据中包含样本“我家在杭州”,其中“杭州”被标记为“城市”类型的命名实体,则取另一同为“城市”类型的命名实体“上海”对其进行替换, 可得到一条新样本“我家在上海”。通过这样的方式,对训练数据进行数据增强,从而得到更
多的伪标注数据。其缺点主要是需要额外的数据资源,如实体词典等,数据增强的效果与实体词典的质量以及规模强相关。同时,该方法进行数据增强的丰富性不足,增强后的数据句式较为单一,可能对语料整体的分布情况造成影响,带来额外的噪声。
[0008]通过语言模型生成来进行增强的方法,将原始的序列标注标签与词条(token)进行混合,如原始内容为“I live in Hangzhou”,其中,“Hangzhou”为“LOC”类型实体,则其与标签混合后变为“I live in S_LOC Hangzhou”的形式。对已有的标注数据做如上形式的调整,并使用LSTM模型对调整后的数据进行语言模型训练。基于训练得到的语言模型,输入“[BOS]+随机token”,则可由语言模型自动进行后续文本内容的生成,由于语言模型的训练数据中混合了序列标注标签,故其生成的文本中也会带有序列标注标签,根据标签对生成的数据进行实体标注,即可得到增强后的标注数据。但是,通过语言模型生成来进行增强的方法,多基于单字多基于单字或子词序列进行文本预测,而医疗实体多数由固定语义单元组合而成,将通用方法直接应用于医疗领域时,会忽略掉医疗实体特有的语义特性,导致生成的数据可能会不符合医疗用语特性或违背医学逻辑,进而影响NER模型准确率。
[0009]常见生成模型多采用自左向右的解码方式,仅能利用已经产生的历史信息,而无法利用还未生成的未来信息,导致生成的样本存在一定程度的偏执;同时随着生成序列变长,单一方向的生成方式容易加剧错误累计问题:例如中间某处如果生成了不合理的词汇将带偏后续预测结果,影响整体生成样本的质量。
[0010]通常生成模型的训练过程多仅采用强标签数据进行训练,但由于强标签数据量非常有限,导致生成模型性能受限,而生成模型的质量将直接影响增强数据的质量,从而决定数据增强方法的有效性。

技术实现思路

[0011]本专利技术目的在于针对现有技术的不足,提出一种面向NER的中文临床文本数据增强方法及装置,采用文本生成方法进行数据增强,避免了同类型实体替换方法对额外资源的依赖,有效提升数据增强的效果。本专利技术通过对医疗实体进行语义切分,如“慢性肾结石”切分为“慢性 肾 结石”,并在此基础上进行基于片段(span

based)的语言模型的训练与文本生成。由于模型训练过程,保留了医疗实体中的独立语义单元,故模型可以更好的学习到真实数据中所包含的语义信息,进而体现在文本生成的结果中,使增强后得到的标注数据相对更符合医学用语规范,达到数据高质量增强的目的。
[0012]本专利技术除常规自左向右的解码方式外,加入反向及双向解码机制,有效建模历史和未来信息,丰富了增强数据的句式结构,增加生成结果的多样性,并提升生成结果的质量,使模型生成的增强数据能够更好的服务于后续的NER任务学习。
[0013]同时,本专利技术在生成模型的训练阶段,使用弱标签数据对训练数据进行了补充,并通过调整损失函数避免弱标签数据的噪声影响,使生成模型可以在更大规模的带标签数据上进行训练,从而提升模型性能。
[0014]本专利技术的目的是通过以下技术方案来实现的:第一方面,本专利技术提供了一种面向NER的中文临床文本数据增强方法,该方法包括步骤如下:(1)数据预处理:获取无标注信息的临床文本数据并进行分词,得到处理后的未标注数据;获取有标注信息的临床文本数据进行实体切分,并将切分后的实体进行标注,得到
处理后的标注数据,并进行标签线性化处理。
[0015](2)基于片段span

based的语言模型预训练:使用未标注数据,通过掩盖文本中的部分信息,基于保留信息对掩盖部分进行预测;同时引入实体词级判别任务,将句子蕴含的实体与实体库中的相似实体进行随机替换,使用判别器网络进行实体的词级检测,判断实体内的每一个词是否为原实体的词;(3)微调finetune阶段引入多种解码机制:微调finetune阶段基于预训练后的基于片段的语言模型得到文本向量和文本数据之间的关系,将线性化的带实体本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种面向NER的中文临床文本数据增强方法,其特征在于,该方法包括步骤如下:(1)数据预处理:获取无标注信息的临床文本数据并进行分词,得到处理后的未标注数据;获取有标注信息的临床文本数据进行实体切分,并将切分后的实体进行标注,得到处理后的标注数据,并进行标签线性化处理;(2)基于片段span

based的语言模型预训练:使用未标注数据,通过掩盖文本中的部分信息,基于保留信息对掩盖部分进行预测;同时引入实体词级判别任务,将句子蕴含的实体与实体库中的相似实体进行随机替换,使用判别器网络进行实体的词级检测,判断实体内的每一个词是否为原实体的词;(3)微调finetune阶段引入多种解码机制:微调finetune阶段基于预训练后的基于片段的语言模型得到文本向量和文本数据之间的关系,将线性化的带实体标签数据转化为文本向量,进行文本生成模型的训练,将需要增强的文本数据输入到训练好的文本生成模型中,在文本生成模型的预测阶段通过正向解码和反向解码进行文本生成,得到带有实体标签的生成结果,通过对标签进行解析,得到带有标注信息的增强数据。2.根据权利要求1所述的一种面向NER的中文临床文本数据增强方法,其特征在于,步骤(1)中,数据预处理过程包括对未标注数据的分词以及对标注数据的标签线性化操作,未标注数据用于预训练阶段的语言模型学习,基于已有的医疗词典,采用词典与规则结合的方式对未标注数据进行分词;标注数据采用BIES标注方式进行标注,用于微调阶段的生成模型训练。3.根据权利要求1所述的一种面向NER的中文临床文本数据增强方法,其特征在于,步骤(1)中,标签线性化处理具体过程为:将临床文本数据中的非实体部分按单字进行切分,并将已标注的实体片段所对应的标签与切分后的句子片段进行混合,将标签视为一个独立的切分片段,置于对应文本内容前。4.根据权利要求1所述的一种面向NER的中文临床文本数据增强方法,其特征在于,步骤(2)中,实体替换具体过程如下:1)结合医疗词典及医学知识,定义不同类型医疗实体的细粒度短语组成结构,每个细粒度组成结构均为具有独立语义且无法继续拆分的独立短语;2)对要替换的实体,根据预定义的细粒度信息进行进一步切分成独立语义单元;3)对切分后的各独立语义单元,进行同类型相似词检索,通过计算语义相似程度,得到与待替换词按相似度从高到低排序的前top

k个同类型相似词,随机选取其中一个对原始内容进行替换;4)对各独立语义单元均进行步骤1)

步骤3)操作,最终完成整个实体替换过程。5.根据权利要求1所述的一种面向NER的中文临床文本数据增强方法,其特征在于,步骤(2)中,实体词级判别任务具体过程为:假设输入基于片段的语言模型的句子序列X蕴含n个实体, 对于第i个实体,以概率P保留实体,以概率1

P从实体库中选择与其语义近似的实体,即:其中,表示实体库,是实体选择的策略函数;表示选择的实体语义近似的实
体,是服从均匀分布的随机变量;经过上述实体随机替换后,形成新的句子;将经过深度自注意力网络Transformer编码后得到相应的表示序列H,实体的编码结果记作,其中m,n分别表示实体在句子序列中的起始与结束位置,h为相应的位置的语义向量表示;然后将输入到判别器网络中进行词级实体检测,判别器网络结构为两层线性层加ReLU激活函数,并使用层标准化Layer Normalization及残差连接的方式保证网络训练的稳定性:其中,和分别为线性层第一层和第二层的权重,为网络第一层的输出结果,为网络第二层的输出结果;最后将输入到Sigmoid函数中进行二分类:如果X中位置i的词与中位置i的词一致,则预测目标为1,否则为0。6.根据权利要求1所述的一种面向NER的中文临床文本数据增强方法,其特征在...

【专利技术属性】
技术研发人员:李劲松史黎鑫辛然杨宗峰田雨周天舒
申请(专利权)人:之江实验室
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1