【技术实现步骤摘要】
一种面向NER的中文临床文本数据增强方法及装置
[0001]本专利技术涉及文本数据增强领域,尤其涉及一种面向NER的中文临床文本数据增强方法及装置。
技术介绍
[0002]命名实体识别任务是自然语言处理领域的一个基础任务,是序列标注问题的一种,类似于分类任务,对文本序列中的每个单元(中文的命名实体识别任务,通常基于单字或子词进行处理)进行类别判断,判断结果通常包括“非实体”,“实体开头词”,“实体中间词”,“实体结尾词”等多种类别,其中,实体相关的类型,会根据要预测的实体类型不同而有所不同。
[0003]随着医疗信息化建设的推进,医疗文本数据量呈现爆炸式增长的趋势,对非结构化医疗文书中信息的提取与利用成为了一大研究热点,而对医疗命名实体的识别是其中非常基础且重要的一个任务。通过对医疗命名实体进行识别,可以实现对非结构化医疗文本的信息提取,挖掘出大量蕴含于文本内容中的医疗信息,供临床和科研使用。
[0004]目前,命名实体识别任务常见的方式主要是基于统计学习或深度学习,采用有监督学习的方法进行模型的学习与训练,对医疗实体的识别通常也采用这些方法。有监督学习的方法准确度通常较高,但其要求样本的数量要足够多,样本数量越多,模型效果会越好,泛化能力也越强。而在医疗领域中,对数据的标注工作通常需要具有医疗知识的专业人员进行,并且不同应用场景下,对实体的类型定义等也不尽相同,如提取疾病相关信息时,实体类型可能多为“症状”、“检查”、“检验”等,而提取药品相关信息时,实体类型可能多为“成分”、“适用症”、“剂量”等 ...
【技术保护点】
【技术特征摘要】
1.一种面向NER的中文临床文本数据增强方法,其特征在于,该方法包括步骤如下:(1)数据预处理:获取无标注信息的临床文本数据并进行分词,得到处理后的未标注数据;获取有标注信息的临床文本数据进行实体切分,并将切分后的实体进行标注,得到处理后的标注数据,并进行标签线性化处理;(2)基于片段span
‑
based的语言模型预训练:使用未标注数据,通过掩盖文本中的部分信息,基于保留信息对掩盖部分进行预测;同时引入实体词级判别任务,将句子蕴含的实体与实体库中的相似实体进行随机替换,使用判别器网络进行实体的词级检测,判断实体内的每一个词是否为原实体的词;(3)微调finetune阶段引入多种解码机制:微调finetune阶段基于预训练后的基于片段的语言模型得到文本向量和文本数据之间的关系,将线性化的带实体标签数据转化为文本向量,进行文本生成模型的训练,将需要增强的文本数据输入到训练好的文本生成模型中,在文本生成模型的预测阶段通过正向解码和反向解码进行文本生成,得到带有实体标签的生成结果,通过对标签进行解析,得到带有标注信息的增强数据。2.根据权利要求1所述的一种面向NER的中文临床文本数据增强方法,其特征在于,步骤(1)中,数据预处理过程包括对未标注数据的分词以及对标注数据的标签线性化操作,未标注数据用于预训练阶段的语言模型学习,基于已有的医疗词典,采用词典与规则结合的方式对未标注数据进行分词;标注数据采用BIES标注方式进行标注,用于微调阶段的生成模型训练。3.根据权利要求1所述的一种面向NER的中文临床文本数据增强方法,其特征在于,步骤(1)中,标签线性化处理具体过程为:将临床文本数据中的非实体部分按单字进行切分,并将已标注的实体片段所对应的标签与切分后的句子片段进行混合,将标签视为一个独立的切分片段,置于对应文本内容前。4.根据权利要求1所述的一种面向NER的中文临床文本数据增强方法,其特征在于,步骤(2)中,实体替换具体过程如下:1)结合医疗词典及医学知识,定义不同类型医疗实体的细粒度短语组成结构,每个细粒度组成结构均为具有独立语义且无法继续拆分的独立短语;2)对要替换的实体,根据预定义的细粒度信息进行进一步切分成独立语义单元;3)对切分后的各独立语义单元,进行同类型相似词检索,通过计算语义相似程度,得到与待替换词按相似度从高到低排序的前top
‑
k个同类型相似词,随机选取其中一个对原始内容进行替换;4)对各独立语义单元均进行步骤1)
‑
步骤3)操作,最终完成整个实体替换过程。5.根据权利要求1所述的一种面向NER的中文临床文本数据增强方法,其特征在于,步骤(2)中,实体词级判别任务具体过程为:假设输入基于片段的语言模型的句子序列X蕴含n个实体, 对于第i个实体,以概率P保留实体,以概率1
‑
P从实体库中选择与其语义近似的实体,即:其中,表示实体库,是实体选择的策略函数;表示选择的实体语义近似的实
体,是服从均匀分布的随机变量;经过上述实体随机替换后,形成新的句子;将经过深度自注意力网络Transformer编码后得到相应的表示序列H,实体的编码结果记作,其中m,n分别表示实体在句子序列中的起始与结束位置,h为相应的位置的语义向量表示;然后将输入到判别器网络中进行词级实体检测,判别器网络结构为两层线性层加ReLU激活函数,并使用层标准化Layer Normalization及残差连接的方式保证网络训练的稳定性:其中,和分别为线性层第一层和第二层的权重,为网络第一层的输出结果,为网络第二层的输出结果;最后将输入到Sigmoid函数中进行二分类:如果X中位置i的词与中位置i的词一致,则预测目标为1,否则为0。6.根据权利要求1所述的一种面向NER的中文临床文本数据增强方法,其特征在...
【专利技术属性】
技术研发人员:李劲松,史黎鑫,辛然,杨宗峰,田雨,周天舒,
申请(专利权)人:之江实验室,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。