一种多模态人机交互方法及装置制造方法及图纸

技术编号：32226515 阅读：10 留言：0更新日期：2022-02-09 17:31

本发明专利技术提供了一种多模态人机交互方法及装置，包括：获取来自用户的交互文本信息；根据交互文本信息预测过渡语；根据过渡语获取对应的多模态内容，将其作为第一回复内容，将第一回复内容推送至虚拟人客户端；根据交互文本信息的答复文本信息生成对应的多模态内容，将其作为第二回复内容，将所述第二回复内容推送至虚拟人客户端。本发明专利技术通过在正式回复内容之前插入过渡语，对答复文本信息分段处理，将一轮回复变成多轮回复，提高了虚拟人的响应速度，实现了顺畅的人机交互体验。实现了顺畅的人机交互体验。实现了顺畅的人机交互体验。

全部详细技术资料下载

【技术实现步骤摘要】
一种多模态人机交互方法及装置

[0001]本专利技术涉及人机交互领域，尤指一种多模态人机交互方法及装置。

技术介绍

[0002]语音交互一般经过语音识别、语义处理、语音合成等流程环节。虚拟人的人机交互不仅仅只有语音信息，还包含了其他诸如口型、表情、动作等多种模态的信息交互。
[0003]虚拟人的人机交互一般包括三个环节：语音识别(Auto Speech Recgnition,ASR)、语义理解(Natural Language Understanding,NLU)和多模态生成(Multi
‑
Modal Language Generation,MMLG)。语音识别用于获取与用户语音信息对应的交互文本信息。语义理解用于获取与交互文本信息对应的答复文本信息。多模态生成用于生成与答复文本信息对应的多模态内容。其中多模态生成包含了语音合成、口型对齐生成、动作对齐生成等。
[0004]常规的交互流程为：经语音识别、语义理解，确定答复文本信息；再一次性将答复文本信息的多模态内容生成好，再推送给虚拟人，虚拟人按照收到的多模态内容进行响应。若答复容量大，则在多模态生成阶段需要计算的内容较多，处理时间长，导致虚拟人响应回复慢，无法满足顺畅的人机交互体验。
[0005]为了提高虚拟人说话的响应速度，减小多模态生成的处理时间，有一种方法是，对多模态内容进行缓存。将多模态生成的内容进行预先缓存，这样进行交互时，虚拟人直接取缓存中的内容回复即可，从而提高响应速度。但是该方法只能针对预先设定好的答案进行缓...

【技术保护点】

【技术特征摘要】
1.一种多模态人机交互方法，其特征在于，包括：获取来自用户的交互文本信息；根据所述交互文本信息预测过渡语；根据所述过渡语获取对应的多模态内容，将其作为第一回复内容，将所述第一回复内容推送至虚拟人客户端；根据所述交互文本信息的答复文本信息生成对应的多模态内容，将其作为第二回复内容，将所述第二回复内容推送至虚拟人客户端。2.根据权利要求1所述的多模态人机交互方法，其特征在于：在预测过渡语之前，还包括：确定所述交互文本信息的答复文本信息；所述的根据所述交互文本信息预测过渡语包括：若所述答复文本信息不为预设文本，则根据所述交互文本信息和所述答复文本信息，预测与所述交互文本信息相匹配的过渡语。3.根据权利要求2所述的多模态人机交互方法，其特征在于，还包括：若所述答复文本信息为预设文本，则从预设缓存中获取所述预设文本的多模态内容，将其作为第二回复内容，将所述第二回复内容推送至虚拟人客户端。4.根据权利要求1或2所述的多模态人机交互方法，其特征在于：预先设置若干过渡语及每个过渡语对应的多模态内容；所述的根据所述交互文本信息预测过渡语包括：从预先设置的所有过渡语中选择与所述交互文本信息相匹配的过渡语；所述的根据所述过渡语获取对应的多模态内容包括：从预设设置的所有过渡语的多模态内容中获取与所述交互文本信息相匹配的过渡语对应的多模态内容。5.根据权利要求1所述的多模态人机交互方法，其特征在于，所述的根据所述交互文本信息的答复文本信息生成对应的多模态内容，将其作为第二回复内容，将所述第二回复内容推送至虚拟人客户端，包括：若所述答复文本信息的长度超过预设长度，则对所述答复文本信息进行分割，得到依次排列的短内容片段...

【专利技术属性】
技术研发人员：方家挺，顾文元，张雪源，
申请(专利权)人：元梦人文智能国际有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人