基于层次化多头交互注意力的对话状态生成方法技术

技术编号:26846121 阅读:20 留言:0更新日期:2020-12-25 13:08
本发明专利技术属于任务型对话技术领域,具体涉及了一种基于层次化多头交互注意力的对话状态生成方法,旨在解决现有技术精度和准确度低以及成本高、效率低的问题。本发明专利技术包括:基于文本词典进行对话文本预处理;通过编码器进行各句子的独立编码,获得对话文本的上下文表示;对解码器输入应用自我注意力机制,获得当前时刻的解码器输入向量;应用多头交互式注意力机制,融合字级别和句子级别的上下文表示,获得对话文本当前时刻的上下文向量表示;结合当前时刻的解码器输入向量,通过非线性映射获得实体和状态作为对话文本的对话状态。本发明专利技术可以在无字级别标注信息的情况下取得非常好的效果,不仅节约了数据标注的成本,也提高了模型的精确性与精度。

【技术实现步骤摘要】
基于层次化多头交互注意力的对话状态生成方法
本专利技术属于任务型对话
,具体涉及了一种基于层次化多头交互注意力的对话状态生成方法。
技术介绍
任务型对话系统是在某一特定领域,通过自然语言交互的形式,辅助用户完成某种特定任务的人机交互系统。目前任务型对话系统在各个垂直领域中都有很大的需求,尤其医疗领域。在医疗对话系统中,对用户对话文本的分析和理解是构建医疗对话系统的第一步。首先需要识别出用户文本以及对话历史中出现的症状、检查、药物等疾病相关的实体,然后推断出这些实体的状态信息。在医疗对话文本中,语法结构不规范,口语化严重的现象普遍存在。同一种症状或检查会有各种不同的口语化的表述形式或习惯性的缩写形式。甚至,有些实体知识是隐含在一段对话中的,需要对一部分对话进行推断才能判断实体类型。因此在医疗领域的对话理解模块中不可或缺的一步是进行实体归一化操作,将口语化不规范的文本转化为医疗领域专业的实体文本。传统实体识别的方法是基于序列标注的方法,需要先识别出文本中的实体,然后再进行归一化处理。这种两阶段式的方法会有错误的累积,并且序列标注的方法需要字级本文档来自技高网...

【技术保护点】
1.一种基于层次化多头交互注意力的对话状态生成方法,其特征在于,该方法包括:/n步骤S10,基于文本词典对获取的待处理对话文本进行预处理,获得待处理对话文本对应的词向量;所述文本词典为统计文本语料中非重复字/词获得的字/词与id的对应关系;/n步骤S20,基于所述待处理对话文本对应的词向量,通过编码器进行各个句子的独立编码,获得待处理对话文本的上下文表示;/n以解码器上一时刻输出作为当前时刻输入,并通过自注意力机制编码当前时刻输入的历史向量化表示,将解码器当前时刻输入与所述历史向量化表示相加作为当前时刻的解码器输入向量;所述解码器,其第0时刻的输入为设定字符;/n步骤S30,基于待处理对话文本...

【技术特征摘要】
1.一种基于层次化多头交互注意力的对话状态生成方法,其特征在于,该方法包括:
步骤S10,基于文本词典对获取的待处理对话文本进行预处理,获得待处理对话文本对应的词向量;所述文本词典为统计文本语料中非重复字/词获得的字/词与id的对应关系;
步骤S20,基于所述待处理对话文本对应的词向量,通过编码器进行各个句子的独立编码,获得待处理对话文本的上下文表示;
以解码器上一时刻输出作为当前时刻输入,并通过自注意力机制编码当前时刻输入的历史向量化表示,将解码器当前时刻输入与所述历史向量化表示相加作为当前时刻的解码器输入向量;所述解码器,其第0时刻的输入为设定字符;
步骤S30,基于待处理对话文本的上下文表示和当前时刻的解码器输入向量,通过多头注意力机制计算待处理对话文本针对当前时刻解码器输入的上下文表示,获取待处理对话文本当前时刻的上下文向量表示;
步骤S40,基于所述待处理对话文本当前时刻的上下文向量表示以及当前时刻的解码器输入向量,进行非线性映射获得实体和状态作为待处理对话文本的对话状态;
其中,所述编码器、解码器分别为一个多层的基于Transformer构建的神经网络。


2.根据权利要求1所述的基于层次化多头交互注意力的对话状态生成方法,其特征在于,所述待处理对话文本的上下文表示,其计算方法为:






其中,表示编码器的层归一化模块,表示编码器的前馈网络,是编码器的多头自注意力机制,和分别代表待处理对话文本中第个句子
在编码器的第层和第网络的输出;所述待处理对话文本中所有句子在编码器的最
后一层的输出构成待处理对话文本的上下文表示。


3.根据权利要求1所述的基于层次化多头交互注意力的对话状态生成方法,其特征在于,所述历史向量化表示,其计算方法为:






其中,表示解码器的层归一化模块,表示解码器的前馈网络,是解码器的多头自注意力机制,和分别代表解码器的历史输入在当前时刻解
码器的第层和第网络的输出。


4.根据权利要求1所述的基于层次化多头交互注意力的对话状态生成方法,其特征在于,步骤S30包括:
步骤S31,将待处理对话文本的上下文表示中所有的单词隐向量表示拼接为一个序列,并基于当前时刻的解码器输入向量进行拼接序列的多头注意力权重的计算,获得待处理对话文本的多头注意力权重;
步骤S32,基于所述多头注意力权重以及拼接序列,获得待处理对话文本的字级别上下文表示;基于所述多头注意力权重,分别在句子内计算加权的句子向量,获得句子的加权向量化表示;
步骤S33,基于所述句子的加权向量化表示,在多头内进行自我注意力机制的计算,获得待处理对话文本的句子级别的上下文表示;
步骤S34,进行待处理对话文本的字级别和句子级别的上下文表示的融合,并对融...

【专利技术属性】
技术研发人员:周玉李梅向露宗成庆
申请(专利权)人:中国科学院自动化研究所
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1