【技术实现步骤摘要】
一种结构化自监督的医患对话摘要方法
[0001]本专利技术涉及自然语言处理
,具体地,涉及一种结构化自监督的医患对话摘要方法。
技术介绍
[0002]对话摘要从对话上下文中提取关键信息并将其概括为简明摘要。作为一个至关重要的新话题,它为许多场景提供了强大的潜力,例如多人参与的商务会议、医患对话。它还帮助快速访问并消费对话中的基本内容。
[0003]对话摘要的主要尝试是基于模板在原始文本中提取关键信息并将其填充到学习模板中。然而,这些基于模板的技术限制了它们的应用范围,并不能适应更广泛的对话数据,因为它们的输入结构是预定义的。后来,通过利用对话行为或关键点序列探索标记辅助信息对摘要生成的帮助。
[0004]近年来,预训练的Transformer模型在自然语言处理方面取得了许多突破,例如作为最先进的改进以及有低资源任务训练有效模型的能力。使用大型预训练的Transformer模型证明的迁移学习能力引起了人们在各个NLP域中使用该模型的兴趣。医学领域为实际应用提供了较大挑战和巨大潜力。在医患对话记录自动生成医 ...
【技术保护点】
【技术特征摘要】
1.一种结构化自监督的医患对话摘要方法,其特征在于:该方法包括以下步骤:S1、对医患对话语料库中指定对话的诊断结果抽取疾病实体词I;S2、通过SOAP模型判断指定对话中每一句话对应主题类型并进行分类,得到初步的结构化内容;对结构化内容抽取摘要;通过抽取的摘要预测疾病实体词II;S3、基于抽取的摘要需近似于原始指定对话的替换假设,通过辅助任务进行摘要指导生成:首先对结构化内容进行编码,编码过程中对结构化内容中的每个词进行下采样,下采样后将它们编码;然后通过文本分类从候选疾病词中选择正确的疾病实体词II;采用RepSum策略调整编码参数,直至辅助任务中疾病实体词I和疾病实体词II的差异收敛。2.根据权利要求1所述的一种结构化自监督的医患对话摘要方法,其特征在于步骤S1文本生成TG采用编码器
‑
解码器结构,整个诊断结果由双向LSTM连接和编码;每个词的表示是前向和后向LSTM状态的串联,表示编码中第i个词;解码器采用具有注意力机制的单向LSTM,在t时刻的注意力分布a
t
和上下文向量c
t
被公式化为:被公式化为:其中,W
a
是可学习的参数,σ是softmax函数,n表示诊断结果词的数量;s
t
表示当前解码器状态;表示第i个词在t时刻的注意力分布;a
i
表示第i个词的注意力分布;看上下文向量和当前解码器状态s
t
用于预测输出词在所有词汇表上的概率分布:p(y
t
)=σ(W
p
(φ(W
k
[y
t
‑1;s
t
;c
t
]+b
k
))+b
p
)
ꢀꢀꢀꢀꢀꢀ
(3)其中,W
p
、W
k
、b
k
、b
p
是可学习的参数;σ是softmax函数,φ是tanh函数,y
t
表示预测输出词,y
t
‑1表示前一个预测输出词;p(y
t
)表示y
t
的概率分布;采用负对数似然作为损失函数,并通过路径enc
res
→
dec
res
得到生成的损失表示为:其中,enc
res
表示编码器;dec
res
表示解码器...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。