任务驱动型多轮对话系统中的状态追踪方法及装置制造方法及图纸

技术编号：30632499 阅读：13 留言：0更新日期：2021-11-04 00:03

本申请实施例公开了任务驱动型多轮对话系统中的状态追踪方法及装置，所述方法包括：在确定出当前轮次对应的输入文本信息后，通过将当前轮次对应的输入文本信息与已接收到的历史轮次对应的输入文本信息进行拼接，获得目标文本信息；通过对所述目标文本信息进行特征提取，获得所述目标文本信息中多个位置上的建模单元分别对应的特征向量；将所述多个位置上的建模单元分别对应的特征向量输入到深度学习模型中，以获得当前时刻的对话状态信息。通过本申请实施例，能够更简单有效的实现任务驱动型多轮对话的状态追踪。动型多轮对话的状态追踪。动型多轮对话的状态追踪。

全部详细技术资料下载

【技术实现步骤摘要】
任务驱动型多轮对话系统中的状态追踪方法及装置

[0001]本申请涉及任务驱动型多轮对话系统中的状态追踪处理
，特别是涉及任务驱动型多轮对话系统中的状态追踪方法及装置。

技术介绍

[0002]任务驱动型对话系统越来越多的被应用到实际的场景中。在传统的任务驱动型对话流程中，如图1所示，用户输入的语音经过ASR(Automatic Speech Recognition，语音识别)系统转化成文字，文字经过NLU(Natural Language Processing，自然语音理解)模块和DST(Dialogue State Track，对话状态追踪)模块转化成当前状态的三元组(领域，语义槽，值)，再经过DP(Dialogue Policy，对话决策)模块生成系统要响应的动作，然后经过自然语言生成模块转成可读懂的文字，最后经过TTS(Text To Speech，语音合成)系统转成语音传达给用户。
[0003]其中，NLU以及DST处理(即把输入的文字转化成当前对话状态的三元组)是其中很关键的一环。现有技术的方案中，对每一轮分别进行NLU以及DST处理时，具体的，在NLU模块中需要用JSGF(Java Speech Grammar Format，Java语音语法格式)去提取当前轮的状态，然后，在DST模块判断当前轮是否需要继承前面一轮或者多轮的状态，如果需要继承，就需要把当前轮的状态与前面轮的状态拼在一起，得到当前轮的状态输出。而关于是否需要继承前面轮的状态的判断，则主要依赖于预先制定的规则，这种规则通常是由专家...

【技术保护点】

【技术特征摘要】
1.一种任务驱动型多轮对话系统中的状态追踪方法，其特征在于，包括：在确定出当前轮次对应的输入文本信息后，通过将当前轮次对应的输入文本信息与已接收到的历史轮次对应的输入文本信息进行拼接，获得目标文本信息；通过对所述目标文本信息进行特征提取，获得所述目标文本信息中多个位置上的建模单元分别对应的特征向量；将所述多个位置上的建模单元分别对应的特征向量输入到深度学习模型中，所述深度学习模型用于通过将所述多个位置上的建模单元对应的特征向量相结合，为所述建模单元生成上下文特征信息，并根据所述上下文特征信息进行领域、语义槽以及槽值的预测，并确定是否继承历史轮次中的对话状态信息，以获得当前时刻的对话状态信息。2.根据权利要求1所述的方法，其特征在于，每个位置上的建模单元对应多种不同类型的特征；所述获得目标文本信息中多个位置上的建模单元分别对应的特征向量，包括：将同一建模单元对应的多种不同类型的特征进行相加，得到对应建模单元的特征信息。3.根据权利要求2所述的方法，其特征在于，所述多种不同类型的特征包括：位置特征、分段特征以及词义标签特征；所述位置特征为所述建模单元在所述目标文本信息中所在的位置序列信息，所述分段特征为所述建模单元是否属于当前轮次或历史轮次，所述词义标签特征为所述建模单元是否属于实体词。4.根据权利要求3所述的方法，其特征在于，所述将当前轮次对应的输入文本信息与已接收到的历史轮次对应的输入文本信息进行拼接，包括：按照时间的先后顺序将多个轮次对应的输入文本信息进行拼接，并在不同轮次对应输入文本信息之间以及第一轮次对应的输入文本信息的句首、当前轮次对应的输入文本信息的句尾分别插入标识符，以用于提取所述建模单元的分段特征。5.根据权利要求4所述的方法，其特征在于，所述深度学习模型包括编码器、第一分类器以及第二分类器，其中，所述编码器用于对所述多个建模单元对应的特征向量进行编码，以获得所述上下文信息，并将所述句首插入的标识符对应的隐藏层状态信息输入到第一分类器中，以用于预测当前时刻对话状态的领域信息，将其他建模单元对应的隐藏层状态信息输入到第二分类器中，以用于预测当前时刻对话状态的语义槽以及槽值，以及对是否继承历史轮次对应的对话状态信息进行判断。6.一种建立深度学习模型的方法，其特征在于，包括：获得训练样本集，所述训练样本集中包括多条文本信息以及对应的标注信息，其中，所述文本信息是通过将多轮对话中的文本信息进行拼接并插入标识符获得的，所述标注信息包括所述文本信息多个位置上的建模单元对应的领域或语义槽信息；通过将所述多条文本信息输入到深度学习模型中进行多次迭代，直到算法收敛后完成对所述深度学习模型的训练；其中，在每次迭代过程中，根据深度学习模型的输出结果与所述标注信息之间的差异，对所述深度学习模型多个层的权重进行调整。7.根据权利要求6所述的方法，其特征在于，还包括：在对所述深度学习模型进行训练之前，通过自监督的预训练，确定所述深度学习模型
中多个层的权重初始值。8.一种任务驱动型多轮对话系统中的信息处理方法，其特征在于，包括：客户端接收当前轮次的输入信息，并将所述输入信息提交到服务端，以便所述服务端确定当前轮次的输入信息对应的文本信息，并通过将当前轮次对应的文本信息与已接收到的历史轮次对应的文本信息进行拼接，获得目标文本信息，通过对所述目标文本信息进行特征提取，获得所述目标文本信息中多个位置上的建模单元分别对应的特征向量；将所述多个位置上的建模单元分别对应的特征向量输入到深度学习模型中，获得当前时刻的对话状态信息，以用于提供给对话决策模块，生成当前轮次的响应信息；接收所述服务端返回的针对当前轮次的响应信息并输出。9.根据权利要求8所述的方法，其特征在于，所述当前轮次的输入信息包括语音信息，所述服务端在确定所述当前轮次对应的文本信息时，通过语音识别的方式将所述语音信息转换为文本信息；在生成所述响应信息后，将响应信息转换成自然语言以便通过客户端进行语音播放。10.根据权利要求9所述的方法，其特征在于，所述客户端包括终端设备中运行的音乐服务类应用程序的客户端。11.根据权利要求9所述的方法，其特征在于，所述客户端包括智能音箱设备关联的客户端。12.根据权利要求8所述的方法，其特征在于，所述当前轮次的输入信息包括文本信息。13.根据权利要求12所述的方法，其特征在于，所述客户端包括商品对象信息服务类应用程序中的客户服务模块。14.一种任务驱动型多轮对话系统中的信息处理方法，其特征在于，包括：服务端接收客户端提交的当前轮次的输入信息；确定当前轮次的输入信息对应的文本信息，并通过将当前轮次对应的文本信息与已接收到的历史轮次对应的文本信息进行拼接，获得目标文本信息；通过对所述目标文本信息进行特征提取，获得所述目标文本信息中多个位置上的建模单元分别对应的特征向量；将所述多个位置上的建模单元分别对应的特征向量输入到深度学习模型中，获得当前时刻的对话状态信息，以用于提供给对话决策模块，生成当前轮次的响应信息；将所述响应信息返回给所述客户端。15.一种音视频语音搜索方法，其特征在于，包括：通过多轮语音对话的方式接收音视频搜索请求；在确定出当前轮次对应的输入文本信息后，通过将当前轮次对应的输入文本信息与已接收到的历史轮次对应的输入文本信息进行拼接，获得目标文本信息；通过对所述目标文本信息进行特征提取，获得所述目标文本信息中多个位置上的建模单元分别对应的特征向量；将所述多个位置上的建模单元分别对应的特征向量输入到深度学习模型中，所述深度学习模型用于通过将所述多个位置上的建模单元对应的特征向量相结合，为所述建模单元生成上下文特征信息，并根据所述上下文特征信息进行领域、语义槽以及槽值的预测，并确
定是否继承历史轮次中的对话状态信息，以获得当前时刻的对话状态信息；根据所述当前时刻的对话状态信息生成对话策略，以返回对应当前轮次语音输入的语音响应信息，以及对应的音视频搜索结果。16.一种提供商品对象信息的方法，其特征在于，包括：通过多轮语音对话的方式接收获取商品对象信息的请求；在确定出当前轮次对应的输入文本信息后，通过将当前轮次对应的输入文本信息与已接收到的历史轮次对应的输入文本信息进行拼接，获得目标文本信息；通过对所述目标文本信息进行特征提取，获得所述目标文本信息中多个位置上的建模单元分别对应的特征向量；将所述多个位置上的建模单元分别对应的特征向量输入到深度学习模型中，所述深度学习模型用于通过将所述多个位置上的建模单元对应的特征向量相结合，为所述建模单元生成上下文特征信息，并根据所述上下文特征信息进行领域、语义槽以及槽值的预测，并确定是否继承历史轮次中的对话状态信息，以获得当前时刻的对话状态信息；根据所述当前时刻的对话状态信息生成对话策略，以返回对应当前轮次语音输入的语音导购信息，以及对应的商品对象信息。17.一种任务驱动型多轮对话系统中的信息处理方法，其特征在于，包括：智能通话系统接收当前轮次的语音信息；将所述语音信息转换为文本信息，并通过将当前轮次对应的文本信息与已接收到的历史轮次对应的文本信息进行拼接，获得目标文本信息；通过对所述目标文本信息进行特征提取，获得所述目标文本信息中多个位置上的建模单元分别对应的特征向量；将所述多个位置上的建模单元分别对应的特征向量输入到深度学习模型中，获得当前时刻的对话状态信息；将所述当前时刻的对话状态信息，提供给对话决策模块，生成当前轮次的响应信息；将所述响应信息转换为自然语言，并进行语音播报。18.一种任务驱动型多轮对话系统中的信息处理方法，其特征在于，包括：第一设备接收第二设备输入的当前轮次的输入信息；确定所述当前轮次的输入信息对应的文本信息，并通过将当前轮次对应的文本信息与已接收到的历史轮次对应的文本信息进行拼接，获得目标文本信息；通过对所述目标文本信息进行特征提取，获得所述目标文本信息中多个位置上的建模单元分别对应的特征向量；将所述多个位置上的建模单元分别对应的特征向量输入到深度学习模型中，获得当前时刻的对话状态信息；将所述当前时刻的对话状态信息，提供给对话决策模块，生成当前轮次的响应信息，并将所述响应信息提供给所述第二设备。19.一种任务驱动型多轮对话系统中的信息处理方法，其特征在于，包括：自助售票机设备接收当前轮次的语音信息；将所述语音信息转换为文本信息，并通过将当前轮次对应的文本信息与已接收到的历史轮次对应的文本信息进行拼接，获得目标文本信息；
通过对所述目标文本信息进行特征提取，获得所述目标文本信息中多个位置上的建模单元分别对应的特征向量；将所述多个位置上的建模单元分别对应的特征向量输入到深度学习模型中，获得当前时刻的对话状态信息；将所述当前时刻的对话状态信息，提供给对话决策模块，生成当前轮次的响应信息；将所述响应信息转换为自然语言，并进行语音播报。20.一种终端设备升级方法，其特征在于，包括：向终端设备提供升级建议信息；接收到终端设备提交的升级请求后，为所述终端设备赋予通过深度学习模型进行多轮对话过程中状态追踪的权限；其中，所述深度学习模型用于通过将目标文...

【专利技术属性】
技术研发人员：陈谦，
申请(专利权)人：阿里巴巴集团控股有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人