当前位置: 首页 > 专利查询>大连大学专利>正文

一种基于生成对抗网络的规范医疗文本改写方法技术

技术编号:34191638 阅读:22 留言:0更新日期:2022-07-17 15:34
本发明专利技术公开了一种基于生成对抗网络的规范医疗文本改写方法,包括:抽取口语化和规范化的医疗问答语料进行处理,获得数据集;采用Transformer模型构建规范化医疗文本生成器与口语化医疗文本生成器,通过用户健康术语映射表进行预训练,得到规范化医疗文本;采用LSTM神经网络构建规范化医疗文本判别器与口语化医疗文本判别器;结合医疗文本特征,使用损失函数分别优化规范化医疗文本判别器与口语化医疗文本判别器;采用强化学习方式优化规范化医疗文本生成器与口语化医疗文本生成器。本发明专利技术实现了口语化文本与规范化文本之间相互迁移改写,解决传统文本迁移模型对标注语料的过分依赖问题,使模型在没有平行语料的情况下仍然可靠,减少人工标注数据需要耗费的工作量。减少人工标注数据需要耗费的工作量。减少人工标注数据需要耗费的工作量。

A standard medical text rewriting method based on generative confrontation network

【技术实现步骤摘要】
一种基于生成对抗网络的规范医疗文本改写方法


[0001]本专利技术涉及自然语言处理
,具体涉及一种基于生成对抗网络的规范医疗文本改写方法。

技术介绍

[0002]文本风格迁移始终是自然语言生成领域中的热点问题。其含义是在保留原来文本语义内容不变的基础上,转换或生成为另一种特定风格或属性的文本,并且保证新生成的文本流畅逼真。而文本风格迁移除文本的写作风格迁移或情感迁移外,更可应用到聊天机器人的对话问答系统、文本改写、专业文案文书规范检查或生成等领域。现有文本生成模型大都存在模型训练困难,生成内容存在语法错误或语义缺失的问题,而文本风格迁移模型的应用,将能够灵活地减轻文本生成模型的训练难度。
[0003]近年来,深度学习技术的发展使得自然语言处理能够广泛应用于各种场景及复杂任务中。在医疗领域,在线问诊技术也已逐步普及,各类医疗健康网站的建立使患者足不出户即可通过问答方式进行自我诊断。然而,由于缺乏专业的医疗知识,用户在使用这些平台工具时往往会出现病情描述不清、表达内容口语化的问题,使得AI辅助诊断对用户提供的信息存在理解障碍。这种障碍也不仅仅存在于机器阅读理解方面,其往往是双向的,由于患者口语化的描述或是医生专业化的术语,导致医患间存在沟通障碍,在线问诊效率低下。因此,文本风格迁移技术在文本改写、文本规范化方面的应用,为解决此类问题提供了良好方案。
[0004]目前,文本风格迁移方法总体上可以分为两种:有监督学习和无监督学习。有监督学习与机器翻译方式相似,使用并行数据集进行风格转换,这种方法转换出来的文本精度高、转换效果好。现有文本风格迁移模型也大多采取这种类似于统计机器翻译的端到端模型,但是这种模型缺少标注数据语料库,而人工标注数据需要耗费大量的人力物力,因此针对文本风格迁移模型的研究转移到无监督学习方式上。
[0005]与类似于机器翻译的有监督风格迁移模型相比,无监督学习模型能有效分离文本的属性和内容,无需大量成对数据即可训练模型,得到理想的生成文本。但现阶段无监督的文本风格迁移模型研究进度远远慢于图像风格迁移,因为将风格迁移应用到文本中时存在文本离散性问题。文本离散性使得文本在迁移过程中会产生文本流畅度和内容完整性的损失,模型存在生成文本质量不高,泛化性差问题。其次,则是模型质量很难评估,不同于图像风格判别方式,语言风格定义模糊,因此更具有挑战性。

技术实现思路

[0006]本专利技术的目的在于,提供一种基于生成对抗网络的规范医疗文本改写方法,使得患者口语化的病情描述与医生、AI辅助诊断使用的专业规范化术语之间能够实现双向转换。
[0007]为实现上述目的,本申请提出一种基于生成对抗网络的规范医疗文本改写方法,
包括:
[0008]抽取口语化和规范化的医疗问答语料进行处理,获得数据集;
[0009]采用Transformer模型构建规范化医疗文本生成器与口语化医疗文本生成器通过用户健康术语映射表进行预训练,得到规范化医疗文本;
[0010]采用LSTM神经网络构建规范化医疗文本判别器D
Φ1(Y)
(Y)与口语化医疗文本判别器D
Φ2(X)
(X);
[0011]结合医疗文本特征,使用损失函数分别优化规范化医疗文本判别器D
Φ1(Y)
(Y)与口语化医疗文本判别器D
Φ2(X)
(X);
[0012]采用强化学习方式优化规范化医疗文本生成器与口语化医疗文本生成器
[0013]进一步的,所述数据集中口语化的语句作为X风格样本,包含规范化词语的语句作为要转换的Y目标风格的伪平行样本;通过用户健康术语映射表对测试集中能够与术语映射的口语化语句进行标注,作为隐藏层提供给规范化医疗文本生成器
[0014]进一步的,所述数据集包括:数据集X={x1,x2,

,x
i
,

,x
n
},数据集Y={y1,y2,

,y
i
,

,y
n
},其中,i表示第i条样本,n表示共有n条样本,x与y分别表示口语化风格的样本语句与规范化风格的样本语句;口语化风格的样本语句表示为:与规范化风格的样本语句;口语化风格的样本语句表示为:表示句子的第t个词,T表示句子长度,即词的数量;
[0015]为了能够使口语化风格的样本语句与规范化风格的样本语句相互关联,通过分词识别出每条语句中的医疗实体后,结合用户健康术语映射表对未规范的口语化风格的样本语句进行标注,标注序列记为其中,需要进行规范化的样本语句对应位置标注为1,无需规范化的样本语句则标注为0。
[0016]进一步的,采用Transformer模型构建规范化医疗文本生成器与口语化医疗文本生成器具体为:采用CycleGAN结构,构建规范化医疗文本生成器与口语化医疗文本生成器两个生成器的生成方向相反,连接后能够形成闭环互相提供反馈信息。
[0017]进一步的,使用最大似然估计预训练规范化医疗文本生成器与口语化医疗文本生成器具体方式为:设置生成句式最长长度为30个词,给定词嵌入维度Embedding_size值为512,编码器Encoder和解码器Decoder均为六层结构;将用户健康术语映射表设为生成词表,使用从口语化风格样本语句与规范化风格样本语句中划分出的训练集一起预训练词向量,生成单词对应的Embedding初始值。
[0018]更进一步的,采用LSTM神经网络构建规范化医疗文本判别器D
Φ1(Y)
(Y)与口语化医疗文本判别器D
Φ2(X)
(X),具体为:
[0019]将LSTM神经网络的最后一个隐藏层H
n
替换为二元逻辑回归层,确定输入的医疗文本是来自于数据集Y的真实样本还是由规范化医疗文本生成器生成的样本
[0020]对于输入的医疗文本高维序列进行非线性转换,得到序列中单词的Embedding,然后输入到每个基本单元cell中,结合全连接隐藏层得到输出每个单词的概率。
[0021]更进一步的,使用损失函数分别优化规范化医疗文本判别器D
Φ1(Y)
(Y)与口语化医疗文本判别器D
Φ2(X)
(X),具体为:
[0022]在生成器可调参数θ1固定的情况下随机采样数据集Y的真实样本以及规范化医疗文本生成器生成的样本然后最小化交叉熵;规范化医疗文本判别器D
Φ1(Y)
(Y)的损失函数如下:
[0023][0024][0025]L
all
=β1L1+β2L2[0026]其中L1为规范化医疗文本判别器的生成对抗损失,β1为损失项系数,L2为序列标注损失,β2为损失项系数,β1与β2的范围均小于0.5;
[0027]在生成器可调参数θ2固定的情况下随机采样数据集X的真实样本以及口语化医疗文本生成器生成的样本然后最小化交叉熵本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于生成对抗网络的规范医疗文本改写方法,其特征在于,包括:抽取口语化和规范化的医疗问答语料进行处理,获得数据集;采用Transformer模型构建规范化医疗文本生成器与口语化医疗文本生成器通过用户健康术语映射表进行预训练,得到规范化医疗文本;采用LSTM神经网络构建规范化医疗文本判别器D
Φ1(Y)
(Y)与口语化医疗文本判别器D
Φ2(X)
(X);结合医疗文本特征,使用损失函数分别优化规范化医疗文本判别器D
Φ1(Y)
(Y)与口语化医疗文本判别器D
Φ2(X)
(X);采用强化学习方式优化规范化医疗文本生成器与口语化医疗文本生成器2.根据权利要求1所述一种基于生成对抗网络的规范医疗文本改写方法,其特征在于,所述数据集中口语化的语句作为X风格样本,包含规范化词语的语句作为要转换的Y目标风格的伪平行样本;通过用户健康术语映射表对测试集中能够与术语映射的口语化语句进行标注,作为隐藏层提供给规范化医疗文本生成器3.根据权利要求2所述一种基于生成对抗网络的规范医疗文本改写方法,其特征在于,所述数据集包括:数据集X={x1,x2,

,x
i


,x
n
},数据集Y={y1,y2,

,y
i


,y
n
},其中,i表示第i条样本,n表示共有n条样本,x与y分别表示口语化风格的样本语句与规范化风格的样本语句;口语化风格的样本语句表示为:样本语句;口语化风格的样本语句表示为:表示句子的第t个词,T表示句子长度,即词的数量;为了能够使口语化风格的样本语句与规范化风格的样本语句相互关联,通过分词识别出每条语句中的医疗实体后,结合用户健康术语映射表对未规范的口语化风格的样本语句进行标注,标注序列记为其中,需要进行规范化的样本语句对应位置标注为1,无需规范化的样本语句则标注为0。4.根据权利要求1所述一种基于生成对抗网络的规范医疗文本改写方法,其特征在于,采用Transformer模型构建规范化医疗文本生成器与口语化医疗文本生成器具体为:采用CycleGAN结构,构建规范化医疗文本生成器与口语化医疗文本生成器两个生成器的生成方向相反,连接后能够形成闭环互相提供反馈信息。5.根据权利要求4所述一种基于生成对抗网络的规范医疗文本改写方法,其特征在于,使用最大似然估计预训练规范化医疗文本生成器与口语化医疗文本生成器具体方式为:设置生成句式最长长度为30个词,给定词嵌入维度Embedding_size值为512,编码器Encoder和解码器Decoder均为六层结构;将用户健康术语映射表设为生成词表,使用从口语化风格样本语句与规范化风格样本语句中划分出的训练集一起预训练词向量,生成单词对应的Embedding初始值。6.根据权利要求1所述一种基于生成对抗网络的规范医疗文本改写方法,其特征在于,采用LSTM神经网络构建规范化医疗文本判别器D
Φ1(Y)
(Y)与口语化医疗文本判别器D
Φ2(X)
(X),具体为:将LSTM神经网络的最后一个隐藏层H
n
替换为二元逻辑回归层,确定输入的医疗文本是来自于数据集Y的真实样本还是由规范化医疗文本生成器生成的样本对于输入的医疗文本高维序列进行非线性转换,得到序列中单词的Embedding,然后输入到每个基本单元cell中,结合...

【专利技术属性】
技术研发人员:汪祖民徐畅季长清秦静
申请(专利权)人:大连大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1