交互方法、装置、终端、电子设备和存储介质制造方法及图纸

技术编号：36268139 阅读：78 留言：0更新日期：2023-01-07 10:08

本发明专利技术提供一种交互方法、装置、终端、电子设备和存储介质，其中方法包括：获取音视频数据；基于所述音视频数据的声学特征、语义特征和视觉特征中的至少一种，对所述音视频数据进行意图和/或情感识别，得到所述音视频数据的意图和/或情感识别结果；基于所述音视频数据的意图和/或情感识别结果，确定与所述意图和/或情感识别结果相匹配的图像，并基于所述图像进行交互。本发明专利技术提供的交互方法、装置、终端、电子设备和存储介质，可以增强用户的体验感。同时得到的图像符合用户情感和/或意图，更加丰富和多样化的图像也增加了趣味性和娱乐性。丰富和多样化的图像也增加了趣味性和娱乐性。丰富和多样化的图像也增加了趣味性和娱乐性。

全部详细技术资料下载

【技术实现步骤摘要】
交互方法、装置、终端、电子设备和存储介质

[0001]本专利技术涉及人工智能
，尤其涉及一种交互方法、装置、终端、电子设备和存储介质。

技术介绍

[0002]随着互联网技术的发展，移动终端的普及，视频通话技术越来越受到人们的青睐。
[0003]当前的视频通话技术功能比较简单，只能支持麦克风录取的声音和摄像头捕获的环境。虽然现在有一些视频聊天软件中嵌入了变音、虚化背景、更改背景、发送视频外的图像，或者更改当前视频中的人物形象来丰富视频通话的趣味性。但是，目前这些视频通话软件提供的功能都需要手动操作，尤其发送视频外的额外趣味图像时，每次都需要用户手动地从图库中选择再发送。同时图库资源少且较固定，影响用户体验感。
[0004]因此，如何丰富视频通话的趣味性和娱乐性，同时增强用户体验感是亟需解决的问题。

技术实现思路

[0005]本专利技术提供一种交互方法、装置、终端、电子设备和存储介质，用以解决现有技术中视频通话功能简单，且需手动从图库选择操作，影响用户体验感的缺陷。
[0006]本专...

【技术保护点】

【技术特征摘要】
1.一种交互方法，其特征在于，包括：获取音视频数据；基于所述音视频数据的声学特征、语义特征和视觉特征中的至少一种，对所述音视频数据进行意图和/或情感识别，得到所述音视频数据的意图和/或情感识别结果；基于所述音视频数据的意图和/或情感识别结果，确定与所述意图和/或情感识别结果相匹配的图像，并基于所述图像进行交互。2.根据权利要求1所述的交互方法，其特征在于，所述基于所述音视频数据的意图和/或情感识别结果，确定与所述意图和/或情感识别结果相匹配的图像，包括：基于图像预测模块，对所述意图和/或情感识别结果进行图像特征预测，得到所述意图和/或情感识别结果对应的预测图像特征，所述图像预测模块是基于意图和/或情感标签，以及与所述意图和/或情感标签相匹配的样本图像训练得到的；基于预训练图像解码模块，对所述预测图像特征进行特征解码，得到与所述意图和/或情感识别结果相匹配的图像。3.根据权利要求2所述的交互方法，其特征在于，所述图像预测模块的获取步骤包括：获取初始图像预测模块；基于所述初始图像预测模块，对所述意图和/或情感标签进行图像特征预测，得到所述意图和/或情感标签对应的预测图像特征；基于预训练图像编码模块，对所述样本图像进行特征编码，得到所述样本图像的样本图像特征；基于所述样本图像特征和所述预测图像特征之间的相似度，对所述初始图像预测模块进行参数迭代，得到图像预测模块。4.根据权利要求1所述的交互方法，其特征在于，所述基于所述音视频数据的声学特征、语义特征和视觉特征中的至少一种，对所述音视频数据进行意图和/或情感识别，得到所述音视频数据的意图和/或情感识别结果，包括：对所述音视频数据的声学特征、语义特征和视觉特征进行特征融合，得到融合特征；基于所述融合特征，对所述音视频数据进行意图和/或情感识别，得到所述音视频数据的意图和/或情感识别结果。5.根据权利要求4所述的交互方法，其特征在于，所述基于所述融合特征，对所述音视频数据进行意图和/或情感识别，得到所述音视频数据的意图和/或情感识别结果，包括：基于所述融合特征，分别对所述音视频数据进行意图和情感特征提取，得到第一意图特征和第一情感特征；基于所述第一意图特征和第一情感特征之间的相关性，对所述第一意图特征和第一情感特征进行交互，得到第二意图特征和第二情感特征；基于所述第一意图特征和所述第...

【专利技术属性】
技术研发人员：茆廷志，张景宣，万根顺，潘嘉，刘聪，胡国平，刘庆峰，付中华，
申请(专利权)人：西安讯飞超脑信息科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人