一种多模态人机交互方法及装置制造方法及图纸

技术编号:32226515 阅读:10 留言:0更新日期:2022-02-09 17:31
本发明专利技术提供了一种多模态人机交互方法及装置,包括:获取来自用户的交互文本信息;根据交互文本信息预测过渡语;根据过渡语获取对应的多模态内容,将其作为第一回复内容,将第一回复内容推送至虚拟人客户端;根据交互文本信息的答复文本信息生成对应的多模态内容,将其作为第二回复内容,将所述第二回复内容推送至虚拟人客户端。本发明专利技术通过在正式回复内容之前插入过渡语,对答复文本信息分段处理,将一轮回复变成多轮回复,提高了虚拟人的响应速度,实现了顺畅的人机交互体验。实现了顺畅的人机交互体验。实现了顺畅的人机交互体验。

【技术实现步骤摘要】
一种多模态人机交互方法及装置


[0001]本专利技术涉及人机交互领域,尤指一种多模态人机交互方法及装置。

技术介绍

[0002]语音交互一般经过语音识别、语义处理、语音合成等流程环节。虚拟人的人机交互不仅仅只有语音信息,还包含了其他诸如口型、表情、动作等多种模态的信息交互。
[0003]虚拟人的人机交互一般包括三个环节:语音识别(Auto Speech Recgnition,ASR)、语义理解(Natural Language Understanding,NLU)和多模态生成(Multi

Modal Language Generation,MMLG)。语音识别用于获取与用户语音信息对应的交互文本信息。语义理解用于获取与交互文本信息对应的答复文本信息。多模态生成用于生成与答复文本信息对应的多模态内容。其中多模态生成包含了语音合成、口型对齐生成、动作对齐生成等。
[0004]常规的交互流程为:经语音识别、语义理解,确定答复文本信息;再一次性将答复文本信息的多模态内容生成好,再推送给虚拟人,虚拟人按照收到的多模态内容进行响应。若答复容量大,则在多模态生成阶段需要计算的内容较多,处理时间长,导致虚拟人响应回复慢,无法满足顺畅的人机交互体验。
[0005]为了提高虚拟人说话的响应速度,减小多模态生成的处理时间,有一种方法是,对多模态内容进行缓存。将多模态生成的内容进行预先缓存,这样进行交互时,虚拟人直接取缓存中的内容回复即可,从而提高响应速度。但是该方法只能针对预先设定好的答案进行缓存,若是遇到新的答案,还是需要临时生成多模态信息,当答复内容多时,还是会导致虚拟人响应慢。

技术实现思路

[0006]本专利技术的目的之一是为了克服现有技术中存在的至少一种不足,提供一种多模态人机交互方法及装置。
[0007]本专利技术提供的技术方案如下:
[0008]一种多模态人机交互方法,包括:获取来自用户的交互文本信息;根据所述交互文本信息预测过渡语;根据所述过渡语获取对应的多模态内容,将其作为第一回复内容,将所述第一回复内容推送至虚拟人客户端;根据所述交互文本信息的答复文本信息生成对应的多模态内容,将其作为第二回复内容,将所述第二回复内容推送至虚拟人客户端。
[0009]进一步地,在预测过渡语之前,还包括:确定所述交互文本信息的答复文本信息;所述的根据所述交互文本信息预测过渡语包括:若所述答复文本信息不为预设文本,则根据所述交互文本信息和所述答复文本信息,预测与所述交互文本信息相匹配的过渡语。
[0010]进一步地,还包括:若所述答复文本信息为预设文本,则从预设缓存中获取所述预设文本的多模态内容,将其作为第二回复内容,将所述第二回复内容推送至虚拟人客户端。
[0011]进一步地,预先设置若干过渡语及每个过渡语对应的多模态内容;
[0012]所述的根据所述交互文本信息预测过渡语包括:从预先设置的所有过渡语中选择
与所述交互文本信息相匹配的过渡语;所述的根据所述过渡语获取对应的多模态内容包括:从预设设置的所有过渡语的多模态内容中获取与所述交互文本信息相匹配的过渡语对应的多模态内容。
[0013]进一步地,所述的根据所述交互文本信息的答复文本信息生成对应的多模态内容,将其作为第二回复内容,将第二回复内容推送至虚拟人客户端,包括:
[0014]若所述答复文本信息的长度超过预设长度,则对所述答复文本信息进行分割,得到依次排列的短内容片段;按序依次对每个短内容片段生成对应的多模态内容并缓存;按序将每个短内容片段的多模态内容逐次推送至虚拟人客户端。
[0015]进一步地,所述的对所述答复文本信息进行分割,包括:采用神经网络结构的内容分段模型对所述答复文本信息进行分割,所述内容分段模型根据语义间的停顿信息将答复文本信息分割成多个短内容片段。
[0016]进一步地,还包括:当收到来自虚拟人客户端的会话终止指示时,停止后续的多模态内容生成,释放本次会话占用的资源。
[0017]本专利技术还提供一种多模态人机交互装置,包括:交互文本获取模块,用于获取来自用户的交互文本信息;第一回复内容生成模块,用于根据所述交互文本信息预测过渡语;根据所述过渡语获取对应的多模态内容,将其作为第一回复内容;发送模块,用于将所述第一回复内容推送至虚拟人客户端;第二回复内容生成模块,用于根据所述交互文本信息的答复文本信息生成对应的多模态内容,将其作为第二回复内容;所述发送模块,还用于将所述第二回复内容推送至虚拟人客户端。
[0018]进一步地,还包括:答复文本确定模块,用于在预测过渡语之前,确定所述交互文本信息的答复文本信息;所述第一回复内容生成模块,还用于若所述答复文本信息不为预设文本,则根据所述交互文本信息和所述答复文本信息,预测与所述交互文本信息相匹配的过渡语。
[0019]进一步地,所述第二回复内容生成模块,还用于若所述答复文本信息为预设文本,则从预设缓存中获取所述预设文本的多模态内容,将其作为第二回复内容。
[0020]通过本专利技术提供的一种多模态人机交互方法及装置,至少能够带来以下有益效果:
[0021]1、本专利技术通过在正式回复内容之前插入过渡语,不仅提高了虚拟人客户端的响应速度,还对交互信息到正式回复内容之间起到了良好的承上启下的作用。
[0022]2、本专利技术通过在回复内容量大时,将答复文本信息分段处理,利用虚拟人客户端在执行前一部分的动作时,立即生成下一部分的内容,将一轮回复变成多轮回复,从而使虚拟人可以无间断地进行响应,实现顺畅的人机交互体验。
[0023]3、本专利技术针对预设的答复文本信息直接生成第二回复内容,针对非预设的答复文本信息,先生成第一回复内容,再生成第二回复内容,这样不仅加快了虚拟人的响应速度,还提高了人机交互的灵活性。
附图说明
[0024]下面将以明确易懂的方式,结合附图说明优选实施方式,对一种多模态人机交互方法及装置的上述特性、技术特征、优点及其实现方式予以进一步说明。
[0025]图1是本专利技术的一种多模态人机交互方法的一个实施例的流程图;
[0026]图2是本专利技术的一种多模态人机交互方法的另一个实施例的流程图;
[0027]图3是步骤S400的一种流程图;
[0028]图4是本专利技术的一种多模态人机交互装置的一个实施例的结构示意图;
[0029]图5是本专利技术的一种多模态人机交互装置的另一个实施例的结构示意图;
[0030]图6是一种适用于本申请实施例的应用环境的结构示意图。
具体实施方式
[0031]为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对照附图说明本专利技术的具体实施方式。显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图,并获得其他的实施方式。
[0032]为使图面简洁,各图中只示意性地表示出了与本专利技术本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种多模态人机交互方法,其特征在于,包括:获取来自用户的交互文本信息;根据所述交互文本信息预测过渡语;根据所述过渡语获取对应的多模态内容,将其作为第一回复内容,将所述第一回复内容推送至虚拟人客户端;根据所述交互文本信息的答复文本信息生成对应的多模态内容,将其作为第二回复内容,将所述第二回复内容推送至虚拟人客户端。2.根据权利要求1所述的多模态人机交互方法,其特征在于:在预测过渡语之前,还包括:确定所述交互文本信息的答复文本信息;所述的根据所述交互文本信息预测过渡语包括:若所述答复文本信息不为预设文本,则根据所述交互文本信息和所述答复文本信息,预测与所述交互文本信息相匹配的过渡语。3.根据权利要求2所述的多模态人机交互方法,其特征在于,还包括:若所述答复文本信息为预设文本,则从预设缓存中获取所述预设文本的多模态内容,将其作为第二回复内容,将所述第二回复内容推送至虚拟人客户端。4.根据权利要求1或2所述的多模态人机交互方法,其特征在于:预先设置若干过渡语及每个过渡语对应的多模态内容;所述的根据所述交互文本信息预测过渡语包括:从预先设置的所有过渡语中选择与所述交互文本信息相匹配的过渡语;所述的根据所述过渡语获取对应的多模态内容包括:从预设设置的所有过渡语的多模态内容中获取与所述交互文本信息相匹配的过渡语对应的多模态内容。5.根据权利要求1所述的多模态人机交互方法,其特征在于,所述的根据所述交互文本信息的答复文本信息生成对应的多模态内容,将其作为第二回复内容,将所述第二回复内容推送至虚拟人客户端,包括:若所述答复文本信息的长度超过预设长度,则对所述答复文本信息进行分割,得到依次排列的短内容片段...

【专利技术属性】
技术研发人员:方家挺顾文元张雪源
申请(专利权)人:元梦人文智能国际有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1