基于虚拟形象的直播互动服务方法及系统技术方案

技术编号:37401866 阅读:13 留言:0更新日期:2023-04-30 09:29
本发明专利技术提供一种基于虚拟形象的直播互动服务方法,预处理互动图像数据;所述互动图像数据包括前景图像、背景图像和音频;获取第一互动数据和第二互动数据;所述第一互动数据包括服务端获取的真人音频、视频及文字数据;所述第二互动数据包括由请求端发起的文字、音频和视频互动请求数据;生成基于第一互动数据的虚拟形象;生成基于第二互动数据的互动图形和互动文本;分词处理互动文本,根据互动文本对应的音素合成互动音频并导入至音频数据内;生成基于互动图形、互动音频和互动文本的索引数据集;从索引数据集中调用生成基于虚拟形象的索引动作、互动图形、互动文本和互动音频反馈至前景图像中。本发明专利技术有效、快速地提升音视频类产品加工能力。类产品加工能力。类产品加工能力。

【技术实现步骤摘要】
基于虚拟形象的直播互动服务方法及系统


[0001]本专利技术属于图像处理
,具体涉及基于虚拟形象的直播互动服务方法。

技术介绍

[0002]现有互动节目的制作主要依赖真人主播的播报水平,较难避免因真人主播生理或心理状况的高低波动等因素而导致的节目错情或低质量视频节目的制作播出。较难达到“0”口误的高品质互动信息服务产品的制作水平。现有节目的制作生产加工能力完全依赖于人工生产,在当今信息快速传播的时代,不能做到有效、快速地提升互动音视频类产品加工能力。
[0003]鉴于此,目前亟待提出一种基于虚拟形象的直播互动服务方法。

技术实现思路

[0004]为此,本专利技术提供一种基于虚拟形象的直播互动服务方法,有效、快速地提升互动音视频类产品加工能力。
[0005]本专利技术的上述目的是通过如下方案实现的:
[0006]预处理互动图像数据;所述互动图像数据包括前景图像、背景图像和音频;
[0007]获取第一互动数据和第二互动数据;所述第一互动数据包括服务端获取的真人音频、视频及文字数据;所述第二互动数据包括由请求端发起的文字、音频和视频互动请求数据;
[0008]生成基于第一互动数据的虚拟形象;
[0009]生成基于第二互动数据的互动图形和互动文本;
[0010]分词处理互动文本,根据互动文本对应的音素合成互动音频并导入至音频数据内;生成基于互动图形、互动音频和互动文本的索引数据集;
[0011]根据第二互动数据从索引数据集中调用生成基于虚拟形象的索引动作、互动图形、互动文本和互动音频反馈至前景图像中。
[0012]进一步的,所述反馈包括第一反馈与第二反馈;
[0013]所述第一反馈具体为,从索引数据集中调用匹配所述第二互动数据的互动图像、互动音频和索引动作替换至前景图像中;
[0014]若在预设的时间内,未执行第一反馈,执行第二反馈;
[0015]服务端根据已分词处理的互动文本生成真人实时互动后实时更新虚拟形象直接反馈至前景图像中。
[0016]进一步的,所述互动数据还包括第三互动数据,所述第三互动数据为预录制的真人动作、视频及音频;
[0017]且所述第三互动数据的预录制时间早于第一互动数据的获取时间;
[0018]所述第三互动数据用于生成预索引数据集;
[0019]将第一互动数据和第二互动数据中的互动图形、互动音频和互动文本补充至预索
引数据集后得到索引数据集。
[0020]进一步的,获取第一互动数据和第三互动数据时,建立基于音频数据的语音数据集用于合成互动音频;
[0021]所述语音数据集的建立过程,具体为:
[0022]采集多个不同播报内容下的音频数据,提取其中的互动词汇;
[0023]生成互动词汇对应的音素单元和声纹波形;
[0024]建立互动词汇和音素单元、声纹波形对应的索引,得到语音数据集。
[0025]进一步的,建立虚拟形象时,同时对真人进行多个机位的图像采集,然后建立真人的虚拟三维模型。
[0026]本专利技术还提供一种基于虚拟形象的直播互动服务系统,包括:
[0027]第一采集模块,获取来自服务端的第一互动数据;
[0028]第二采集模块,获取来自服务端的第二互动数据;
[0029]合成模块,接收第二互动数据并根据预存储的互动词汇库生成互动文本;
[0030]素材生成模块,存储多组包括图像数据和音频数据的素材,接收互动文本后生成互动音频并调用前景图像和后景图像;
[0031]互动图像合成模块,接收互动文本生成互动图形;
[0032]融合模块,以时间轴对齐前景图像、背景图像和音轨,融合后得到虚拟主播互动数据。
[0033]进一步的,还包括存储模块,所述存储模块包括本地存储单元和云端存储单元;
[0034]接收来自融合模块的虚拟主播互动数据,根据需求执行对虚拟主播互动数据的本地存储、云端存储、备份和调用。
[0035]一种电子设备,其特征在于,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时,实现基于虚拟形象的直播互动服务方法。
[0036]一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现基于虚拟形象的直播互动服务方法。
[0037]本专利技术的上述技术方案,相比现有技术具有以下优点:
[0038](1)可以实现形象逼真、比拟真人的互动节目主播播报效果,并可避免口误、低迷播报状态等人为因素带来的节目错情或低质量视频节目。
[0039](2)提升播报效率。没有了真人主播播报前的准备环节,可节省大量日常节目录制时间;对于突发预警、现场报道等直播类节目的响应更及时。
[0040](3)提高视频内容生产效率。可以大批量、长时间、不间断制作大量视频类节目,大幅提升音视频产品加工能力。
附图说明
[0041]图1是本专利技术实施例提供的方法的流程示意图;
[0042]图2是本专利技术实施例提供的装置的模块连接示意图;
[0043]图3是本专利技术实施例提供的电子设备的示意图;
具体实施方式
[0044]为了能够更加详尽地了解本公开实施例的特点与
技术实现思路
,下面结合附图对本公开实施例的实现进行详细阐述,所附附图仅供参考说明之用,并非用来限定本公开实施例。在以下的技术描述中,为方便解释起见,通过多个细节以提供对所披露实施例的充分理解。然而,在没有这些细节的情况下,一个或多个实施例仍然可以实施。在其它情况下,为简化附图,熟知的结构和系统可以简化展示。
[0045]以下描述和附图充分地示出本专利技术的具体实施方案,以使本领域的技术人员能够实践它们。其他实施方案可以包括结构的、逻辑的、电气的、过程的以及其他的改变。实施例仅代表可能的变化。除非明确要求,否则单独的部件和功能是可选的,并且操作的顺序可以变化。一些实施方案的部分和特征可以被包括在或替换其他实施方案的部分和特征。本专利技术的实施方案的范围包括权利要求书的整个范围,以及权利要求书的所有可获得的等同物。在本文中,各实施方案可以被单独地或总地用术语“专利技术”来表示,这仅仅是为了方便,并且如果事实上公开了超过一个的专利技术,不是要自动地限制该应用的范围为任何单个专利技术或专利技术构思。本文中,诸如第一和第二等之类的关系术语仅仅用于将一个实体或者操作与另一个实体或操作区分开来,而不要求或者暗示这些实体或操作之间存在任何实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法或者电子设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法或者电子设备所固有的要素。在没有更多限制的情况下,由语句“包括一个......”限定的要素,并不排除在包括所述要素的过程、方法或者电子设备中还存在另外的相同要素。本文中各个实施例采用递进的方式本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于虚拟形象的直播互动服务方法,其特征在于,包括如下步骤:预处理互动图像数据;所述互动图像数据包括前景图像、背景图像和音频;获取第一互动数据和第二互动数据;所述第一互动数据包括服务端获取的真人音频、视频及文字数据;所述第二互动数据包括由请求端发起的文字、音频和视频互动请求数据;生成基于第一互动数据的虚拟形象;生成基于第二互动数据的互动图形和互动文本;分词处理互动文本,根据互动文本对应的音素合成互动音频并导入至音频数据内;生成基于互动图形、互动音频和互动文本的索引数据集;根据第二互动数据从索引数据集中调用生成基于虚拟形象的索引动作、互动图形、互动文本和互动音频反馈至前景图像中。2.根据权利要求1所述的基于虚拟形象的直播互动服务方法,其特征在于,所述反馈包括第一反馈与第二反馈;所述第一反馈具体为,从索引数据集中调用匹配所述第二互动数据的互动图像、互动音频和索引动作替换至前景图像中;若在预设的时间内,未执行第一反馈,执行第二反馈;服务端根据已分词处理的互动文本生成真人实时互动后实时更新虚拟形象直接反馈至前景图像中。3.根据权利要求2所述的基于虚拟形象的直播互动服务方法,其特征在于,所述互动数据还包括第三互动数据,所述第三互动数据为预录制的真人动作、视频及音频;且所述第三互动数据的预录制时间早于第一互动数据的获取时间;所述第三互动数据用于生成预索引数据集;将第一互动数据和第二互动数据中的互动图形、互动音频和互动文本补充至预索引数据集后得到索引数据集。4.根据权利要求3所述的基于虚拟形象的直播互动服务方法,其特征在于,获取第一互动数据和第三互...

【专利技术属性】
技术研发人员:孙志明陈海涛邱伟仝铮雷铜赵峰
申请(专利权)人:南京汇智互娱网络科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1