【技术实现步骤摘要】
融合多源知识的中文医学命名实体和词性联合学习方法
[0001]本专利技术涉及一种融合多源知识的中文医学命名实体和词性联合学习方法,属于自然语言处理中的信息抽取
技术介绍
[0002]中文医学文本命名实体识别,是自然语言处理在垂直领域中的一项重要的基础性任务,可服务于智能对话系统、神经机器翻译等多种任务。对于临床应用,如自动电子健康记录等,同样有着非常重要的研究意义及价值。
[0003]在中文医学文本中,存在着大量复杂实体现象。如“呼吸肌麻痹”、“呼吸中枢受累”等,为临床表现实体,实体长度较长,实体内部分别嵌套“呼吸肌”、“呼吸中枢”等身体实体。对于这类复杂的实体,由于缺乏边界信息,识别效果往往比较差。因此,如何正确识别实体边界并划分实体类别,具有十分重要的意义。
[0004]目前,大部分的研究表明,NER(命名实体识别,Named Entity Recognition,简称NER)任务和POS(词性标注,Part of Speech,简称POS)任务具有强相关性,方法包括将词性作为特征引入模型、多任 ...
【技术保护点】
【技术特征摘要】
1.融合多源知识的中文医学命名实体和词性联合学习方法,其特征在于,包括以下步骤:步骤1:对中文医学NER数据集和中文医学POS数据集进行数据预处理;步骤2:将NER作为生成式任务,构建序列到序列模型;步骤3:将中文医学POS数据集作为外部数据源,分别对NER任务和POS任务构建模型输入;不同输入共享相同的编码层,解码层和特定任务相关,并将词性特征和词边界信息融入深度学习模型中,用于指导训练过程,实现多个任务同时训练;步骤4:采用遗忘惩罚机制,控制交替式计算的训练过程;步骤5:利用已训练的基于多输入多任务学习的序列到序列模型,对中文医学文本语料中的语句进行预测。2.如权利要求1所述的融合多源知识的中文医学命名实体和词性联合学习方法,其特征在于,步骤1包括以下步骤:将中文医学POS数据集和中文医学NER数据集处理成字级别BILOU编码;对于存在嵌套实体的中文医学NER数据集,由词符token到多标签的映射,是所有相交实体由高优先级实体到低优先级实体的标签的串联,实体优先级定义如下:(1)位置靠前的实体,优先级更高;(2)位置相同,则长实体优先级高于短实体;其中,对中文和英文分别采用不同的切分粒度,中文以字符为粒度切分,英文以词为粒度切分。3.如权利要求1所述的融合多源知识的中文医学命名实体和词性联合学习方法,其特征在于,步骤2包括以下步骤:步骤2.1:输入语句序列(t1,t2,
…
,t
n
),按优先级由高到低的顺序输出t
i
的标签,直到输出终止字符<EOW>,才继续输出t
i+1
的标签;基于序列到序列的命名实体识别模型结构,包括词嵌入层、编码器和解码器三部分。步骤2.2:将离散的词符token用分布式向量表示,经编码器得到对应的隐向量表示,通过式1进行计算:h
t
=tanh(W
h
[h
t
‑1,x
t
])
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)其中,h
t
表示当前时间步的隐向量表示,h
t
‑1表示上一时间步的隐向量表示,W
h
表示权重系数矩阵,x
t
表示当前时间步对应输入的向量表示;seq2seq模型将输入语句编码后,用最后一个隐向量来表示,然后用该隐向量解码得到输出序列;将注意力关注于标签对应的词符token;引入teacher forcing机制,在训练阶段将当前时间步的标准输出作为下一时间步的输...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。