音频合成方法、装置、设备及计算机存储介质制造方法及图纸

技术编号:37781947 阅读:11 留言:0更新日期:2023-06-09 09:12
本发明专利技术实施例涉及视听结合技术领域,公开了一种音频合成方法,该方法包括:获取从观影状态切换至听书状态时的视频数据和与所述视频数据对应的小说文本内容;对所述视频数据进行声纹及情感提取处理获取各角色声纹信息和各角色视频情感分类;对所述小说文本内容进行对话及情感提取处理获取各角色对话文本和各角色文本情感分类;根据各所述角色声纹信息、各所述角色视频情感分类、各角色对话文本、各所述角色文本情感分类和外界环境情感分类,对各所述角色对话文本进行音频合成处理,获取所述小说文本内容对应的听书音频。通过上述方式,本发明专利技术实施例实现了在VR观影切换听书时的沉浸式体验,避免了当前技术下VR观影切换听书时产生的违和感。时产生的违和感。时产生的违和感。

【技术实现步骤摘要】
音频合成方法、装置、设备及计算机存储介质


[0001]本专利技术实施例涉及视听结合
,具体涉及一种音频合成方法、装置、设备及计算机存储介质。

技术介绍

[0002]目前虚拟设备中可以正常看VR视频、刷影视剧,而听书更多的使用手机等传统设备。但本申请的专利技术人在实施本专利技术的过程中发现,对于VR看剧和手机听书之间切换目前只能独立并行,无法做到VR观影与听书之间无缝切换。

技术实现思路

[0003]鉴于上述问题,本专利技术实施例提供了一种音频合成方法,用于解决现有技术中存在的VR观影无法与听书之间无缝切换的问题。
[0004]根据本专利技术实施例的一个方面,提供了一种音频合成方法,所述方法包括:
[0005]获取从观影状态切换至听书状态时的视频数据和与所述视频数据对应的小说文本内容;
[0006]对所述视频数据进行声纹及情感提取处理获取各角色声纹信息和各角色视频情感分类;
[0007]对所述小说文本内容进行对话及情感提取处理获取各角色对话文本和各角色文本情感分类;
[0008]根据各所述角色声纹信息、各所述角色视频情感分类、各角色对话文本、各所述角色文本情感分类和外界环境情感分类,对各所述角色对话文本进行音频合成处理,获取所述小说文本内容对应的听书音频。
[0009]在一种可选的方式中,所述获取从观影状态切换至听书状态时的视频数据和与所述视频数据对应的小说文本内容,包括:获取所述观影状态下的所述视频数据和所述听书状态下的小说文本;将所述视频数据输入预设的关键对话文本判别模型,获取目标关键对话文本;将所述目标关键对话文本与所述小说文本中的小说对话进行匹配,得到所述视频数据对应的小说文本内容。
[0010]在一种可选的方式中,所述根据各所述角色声纹信息、各所述角色视频情感分类、各所述角色文本情感分类和外界环境情感分类,对各所述角色对话文本进行音频合成处理,获取所述小说文本内容对应的听书音频,包括:根据所述各所述角色声纹信息与所述小说文本内容中各角色,确定所述小说文本内容中各角色对应的目标声纹信息;将所述各所述角色视频情感分类、各所述角色文本情感分类和外界环境情感分类,输入预设的情感分类融合模型,得到整体情感融合分类;根据所述目标声纹信息及所述整体情感融合分类,合成所述小说文本内容对应的听书音频。
[0011]在一种可选的方式中,所述将各所述角色视频情感分类、各所述角色文本情感分类和所述外界环境情感分类,输入预设的情感分类融合模型,得到整体情感融合分类之前,
所述方法包括:采集各个外界环境因子对应的环境参数;根据各个所述环境参数及对应的分段函数,分别计算各所述外界环境因子的情绪得分;根据各所述情绪得分,确定所述外界环境情感分类。
[0012]在一种可选的方式中,所述根据各所述角色声纹信息、各所述角色视频情感分类、各所述角色文本情感分类和外界环境情感分类,对各所述角色对话文本进行音频合成处理,获取所述小说文本内容对应的听书音频,包括:确定所述视频数据中各角色与所述小说文本内容中各角色是否一致;若所述角色一致,则提取所述视频数据中各角色对应的各所述角色声纹信息作为所述音频合成处理中所述小说文本内容中各角色的角色声纹信息;若所述角色不一致,则根据所述小说文本内容中目标角色的角色信息,确定相似角色,并将所述相似角色对应的声纹信息作为所述音频合成处理中所述小说文本内容中目标角色的声纹信息;所述目标角色为所述小说文本内容中与所述所述视频数据中角色不一致的角色。
[0013]在一种可选的方式中,所述根据各所述角色声纹信息、各所述角色视频情感分类、各所述角色文本情感分类和外界环境情感分类,对各所述角色对话文本进行音频合成处理,获取所述小说文本内容对应的听书音频,包括:确定各所述角色视频情感分类与各所述角色文本情感分类是否一致;若所述情感分类一致,则根据所述各角色视频情感分类和所述外界环境情感分类获取所述音频合成处理中所述小说文本内容中的各角色的情感;若所述情感分类不一致,则根据所述角色文本情感分类和所述外界环境情感分类获取所述音频合成处理中所述小说文本内容中的各角色的情感。
[0014]在一种可选的方式中,所述根据各所述角色声纹信息、各所述角色视频情感分类、各所述角色文本情感分类和外界环境情感分类,对各所述角色对话文本进行音频合成处理,获取所述小说文本内容对应的听书音频之前,所述方法还包括:从所述视频数据中获取各角色语音内容;确定所述视频数据中的所述各角色语音内容与所述小说文本内容中的所述各角色对话文本是否一致;若一致,则提取所述视频数据中各角色当前音频,并将所述各角色当前音频作为所述小说文本内容对应的听书音频;若不一致,则跟据各所述角色声纹信息、各所述角色视频情感分类、各所述角色文本情感分类和外界环境情感分类,对各所述角色对话文本进行音频合成处理,获取所述小说文本内容对应的听书音频。
[0015]根据本专利技术实施例的另一方面,提供了一种音频合成装置,包括:
[0016]获取模块,用于获取从观影状态切换至听书状态时的视频数据和与所述视频数据对应的小说文本内容;
[0017]第一处理模块,用于对所述视频数据进行声纹及情感提取处理获取各角色声纹信息和各角色视频情感分类;
[0018]第二处理模块,用于对所述小说文本内容进行对话及情感提取处理获取各角色对话文本和各角色文本情感分类;
[0019]合成模块,用于根据各所述角色声纹信息、各所述角色视频情感分类、各角色对话文本、各所述角色文本情感分类和外界环境情感分类,对各所述角色对话文本进行音频合成处理,获取所述小说文本内容对应的听书音频。
[0020]根据本专利技术实施例的另一方面,提供了一种音频合成设备,包括:
[0021]处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;
[0022]所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行上述音频合成方法的步骤。
[0023]根据本专利技术实施例的又一方面,提供了一种计算机可读存储介质,所述存储介质中存储有至少一可执行指令,所述可执行指令使所述处理器执行上述音频合成方法的步骤。
[0024]本专利技术实施例通过VR观影时,根据观影视频查找对应小说,通过获取从观影状态切换至听书状态时的视频数据和与所述视频数据对应的小说文本内容;对所述视频数据进行声纹及情感提取处理获取各角色声纹信息和各角色视频情感分类;对所述小说文本内容进行对话及情感提取处理获取各角色对话文本和各角色文本情感分类;根据各所述角色声纹信息、各所述角色视频情感分类、各角色对话文本、各所述角色文本情感分类和外界环境情感分类,对各所述角色对话文本进行音频合成处理,获取所述小说文本内容对应的听书音频,能够使用户从观影状态切换至听书状态时更加流畅,减少状态切换时产生的违和感,使用户在听书状态时也能有观影状态时的体验,增加用户的沉浸感体验。
[0025]上述说明仅是本专利技术实施例技术方案的概本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种音频合成方法,其特征在于,所述方法包括:获取从观影状态切换至听书状态时的视频数据和与所述视频数据对应的小说文本内容;对所述视频数据进行声纹及情感提取处理获取各角色声纹信息和各角色视频情感分类;对所述小说文本内容进行对话及情感提取处理获取各角色对话文本和各角色文本情感分类;根据各所述角色声纹信息、各所述角色视频情感分类、各角色对话文本、各所述角色文本情感分类和外界环境情感分类,对各所述角色对话文本进行音频合成处理,获取所述小说文本内容对应的听书音频。2.根据权利要求1所述的方法,其特征在于,所述获取从观影状态切换至听书状态时的视频数据和与所述视频数据对应的小说文本内容,包括:获取所述观影状态下的所述视频数据和所述听书状态下的小说文本;将所述视频数据输入预设的关键对话文本判别模型,获取目标关键对话文本;将所述目标关键对话文本与所述小说文本中的小说对话进行匹配,得到所述视频数据对应的小说文本内容。3.根据权利要求1所述的方法,其特征在于,所述根据各所述角色声纹信息、各所述角色视频情感分类、各所述角色文本情感分类和外界环境情感分类,对各所述角色对话文本进行音频合成处理,获取所述小说文本内容对应的听书音频,包括:根据所述各所述角色声纹信息与所述小说文本内容中各角色,确定所述小说文本内容中各角色对应的目标声纹信息;将各所述角色视频情感分类、各所述角色文本情感分类和所述外界环境情感分类,输入预设的情感分类融合模型,得到整体情感融合分类;根据所述目标声纹信息及所述整体情感融合分类,合成所述小说文本内容对应的听书音频。4.根据权利要求1

3中任一项所述的方法,其特征在于,所述将各所述角色视频情感分类、各所述角色文本情感分类和所述外界环境情感分类,输入预设的情感分类融合模型,得到整体情感融合分类之前,所述方法包括:采集各个外界环境因子对应的环境参数;根据各个所述环境参数及对应的分段函数,分别计算各所述外界环境因子的情绪得分;根据各所述情绪得分,确定所述外界环境情感分类。5.根据权利要求1

3中任一项所述的方法,其特征在于,所述根据各所述角色声纹信息、各所述角色视频情感分类、各所述角色文本情感分类和外界环境情感分类,对各所述角色对话文本进行音频合成处理,获取所述小说文本内容对应的听书音频,包括:确定所述视频数据中各角色与所述小说文本内容中各角色是否一致;若所述角色一致,则提取所述视频数据中各角色对应的各所述角色声纹信息作为所述音频合成处理中所述小说文本内容中各角色的角色声纹信息;若所述角色不一致,则根据所述小说文本内容中目标角色的角色信息,确定相似角色,
并将所述相似角色对应的声纹信息作为所述音频合成处理中所述小说文本内容中目标角色的声纹信息;所述目标角色...

【专利技术属性】
技术研发人员:奚晓钰刘蕾李波刘永杰
申请(专利权)人:中国移动通信集团有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1