语音输出方法、装置、存储介质和电子设备制造方法及图纸

技术编号：26381102 阅读：32 留言：0更新日期：2020-11-19 23:49

本公开是关于一种语音输出方法、装置、存储介质、电子设备，该方法包括：通过图像采集单元监测目标对象的动作行为，以获取包含该动作行为的影像信息；根据预先训练后的多模态识别模型和该影像信息确定该动作行为发生的目标场景和该动作行为对应的目标事件；在确定该目标场景和该目标事件后，控制该语音助手系统开启；根据该目标场景和该目标事件从该语音助手系统的语音库中确定目标语音；输出该目标语音，该目标语音对应的语音文本为针对该动作行为的反馈内容文本。能够响应于目标对象的动作行为对语音助手进行唤醒，并对用户动作行为的识别，进而输出针对该动作行为的反馈语音主动与用户进行交互，提高智能语音助手的智能化程度。

全部详细技术资料下载

【技术实现步骤摘要】
语音输出方法、装置、存储介质和电子设备
本公开涉及人工智能领域，尤其涉及一种语音输出方法、装置、存储介质、电子设备。
技术介绍
在苹果公司的智能语音助手Siri开创智能语音助手的先河后，各个科技公司的语音助手系统也如雨后春笋般蓬勃发展。移动终端或智能家电中的语音助手系统能够接收用户的语音指令并根据系统中预先设定的交互逻辑与用户进行语音交流或者辅助用户对移动终端或智能家电进行控制。相关技术中，用户通常需要说出厂商设定的固定的唤醒词开启语音助手系统，并在语音助手系统被唤醒后，输出语音与语音助手进行交互。
技术实现思路
为克服相关技术中存在的问题，本公开提供一种语音输出方法、装置、存储介质、电子设备。根据本公开实施例的第一方面，提供一种语音输出方法，所述方法包括：应用于电子设备，所述电子设备中设置有语音助手系统，所述方法包括：通过图像采集单元监测目标对象的动作行为，以获取包含所述动作行为的影像信息；根据预先训练后的多模态识别模型和所述影像信息确定所述动作行为发生的目标场景和所述动作行为对

【技术保护点】
1.一种语音输出方法，其特征在于，应用于电子设备，所述电子设备中设置有语音助手系统，所述方法包括：/n通过图像采集单元监测目标对象的动作行为，以获取包含所述动作行为的影像信息；/n根据预先训练后的多模态识别模型和所述影像信息确定所述动作行为发生的目标场景和所述动作行为对应的目标事件；/n在确定所述目标场景和所述目标事件后，控制所述语音助手系统开启；/n根据所述目标场景和所述目标事件从所述语音助手系统的语音库中确定目标语音；/n输出所述目标语音，所述目标语音对应的语音文本为针对所述动作行为的反馈内容文本。/n

【技术特征摘要】
1.一种语音输出方法，其特征在于，应用于电子设备，所述电子设备中设置有语音助手系统，所述方法包括：
通过图像采集单元监测目标对象的动作行为，以获取包含所述动作行为的影像信息；
根据预先训练后的多模态识别模型和所述影像信息确定所述动作行为发生的目标场景和所述动作行为对应的目标事件；
在确定所述目标场景和所述目标事件后，控制所述语音助手系统开启；
根据所述目标场景和所述目标事件从所述语音助手系统的语音库中确定目标语音；
输出所述目标语音，所述目标语音对应的语音文本为针对所述动作行为的反馈内容文本。

2.根据权利要求1所述的方法，其特征在于，所述影像信息包括预设时长的视频，所述多模态识别模型包括：场景识别模型和事件识别模型，所述根据预先训练后的多模态识别模型和所述影像信息确定所述动作行为发生的目标场景和所述动作行为对应的目标事件，包括：
从所述影像信息中获取第一图像和多个第二图像，所述第一图像为所述动作行为发生的背景图像，所述第二图像为用于表征所述动作行为的人像；
将所述第一图像作为所述场景识别模型的输入，以获取所述场景识别模型输出的用于表征所述目标场景的目标场景标签；
将所述多个第二图像作为所述事件识别模型的输入，以获取所述事件识别模型输出用于表征所述目标事件的目标事件标签。

3.根据权利要求2所述的方法，其特征在于，所述从所述影像信息中获取第一图像和多个第二图像，包括：
获取所述影像信息中的每一帧的视频图像；
通过预设的图像识别算法将每个所述视频图像分割为非人像部分和人像部分；
通过预设的图像拼接算法对所述影像信息中的多个所述非人像部分进行拼接，以获取所述第一图像；
将所述影像信息中的多个所述人像部分作为所述多个第二图像。

4.根据权利要求2所述的方法，其特征在于，在所述通过信息采集设备监测目标对象的动作行为，以获取包含所述动作行为的影像信息之前，所述方法还包括：
分别通过第一训练数据和第二训练数据对预设分类模型进行训练，以获取所述多模态识别模型，所述第一训练数据包括多个背景图像以及每个背景图像对应的场景标签，所述第二训练数据包括用于表征不同动作行为的多组人像以及每组人像图像对应的事件标签。

5.根据权利要求2所述的方法，其特征在于，所述语音库对应有用于表征场景标签、事件标签和语音标签三者之间的关联关系的标签关联表，所述根据所述目标场景和所述目标事件从所述语音助手系统的语音库中确定目标语音，包括：
在所述语音助手系统开启后，根据所述目标场景标签和所述目标时间标签，从所述标签关联表中确定目标语音标签；
获取所述目标语音标签对应的语音作为所述目标语音。

6.一种语音输出装置，其特征在于，应用于电子设备，所述电子设备中设置有语音助手系统，所述装置包括：
行为监测模块，被配置...

【专利技术属性】
技术研发人员：胡可鑫，魏晨，雷宗，秦斌，王刚，
申请(专利权)人：北京小米松果电子有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人