一种基于虚拟主播的直播方法与系统技术方案

技术编号：40611225 阅读：2 留言：0更新日期：2024-03-12 22:19

本发明专利技术公开了一种基于虚拟主播的直播方法与系统，先根据虚拟主播的整体概念和形象进行角色设计和3D建模，得到虚拟角色，再通过运动捕捉系统将人类表演者的动作转化为虚拟角色的动作，然后使用语音合成技术给虚拟角色添加语音，再建立实时互动模型，利用机器学习方法训练实时互动模型，并根据训练结果对实时互动模型进行优化，得到虚拟主播，最后利用虚拟主播进行实时直播，在互动时通过对虚拟角色添加的动作和语音以及对观众自然语言的处理以提高虚拟主播形象和表现的真实感和流畅度，通过使用机器学习方法训练实时互动模型来提高实时互动模型的准确性和智能度，提高了虚拟主播与观众之间的实时互动的灵活性和自由性。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于直播，具体涉及一种基于虚拟主播的直播方法与系统。

技术介绍

1、虚拟直播是一种通过虚拟现实技术（vr）或增强现实技术（ar）在虚拟环境中进行的直播活动。它通过计算机生成的虚拟场景和角色，将主持人或表演者呈现给观众，并实现与观众之间的实时互动。

2、经检索，中国专利文件申请号为202310361605.2，公开了虚拟主播的直播方法、装置及系统，该方法包括：实时捕捉现实主播的面部动作数据和语音数据；对所述面部动作数据进行分析，得到所述现实主播的口型数据；对所述语音数据进行分析，得到与所述语音数据对应的文字内容以及语音特征，对所述文字内容进行处理，将处理后的所述文字内容转换为音素序列；基于所述音素序列和所述语音特征，对所述口型数据进行调整，并基于调整后的所述口型数据来生成用于直播的直播视频流，然后将所述直播视频流推流至终端设备。该专利技术解决了虚拟主播口型对不准的问题。

3、但是，由于虚拟主播在模拟人类表情、语言、动作等方面仍存在局限性，在进行实时互动时观众的提问和回应通常需要预设的选项或固定的回答，使得虚拟主播与观众之间的实时互动不够灵活和自由，因此我们需要提出一种基于虚拟主播的直播方法与系统来解决上述存在的问题。

技术实现思路

1、本专利技术的目的在于提供一种基于虚拟主播的直播方法与系统，通过对虚拟角色添加的动作和语音以及对观众自然语言的处理以提高虚拟主播形象和表现的真实感和流畅度，通过使用机器学习方法训练实时互动模型来提高实时互动模型的准确性和

2、为实现上述目的，本专利技术采用了如下技术方案：

3、一种基于虚拟主播的直播方法，包括如下步骤：

4、s1、根据虚拟主播的整体概念和形象进行角色设计和3d建模，得到虚拟角色；其中在3d建模时包括如下步骤：

5、1)、根据现实场景的数据进行场景设计；

6、2）、使用公式pi=（xi，yi，zi）将场景数据转换成点云数据结构，其中pi是点云中的第i个点的坐标；

7、3）、使用滤波算法对点云数据结构进行过滤，去除数据中的噪声，滤波算法的公式为：，其中为标准差，为高斯核；

8、4）、使用公式mij=(pi,pj,pk)构建三角网格，其中pi和pj分别为xi和yi的三维坐标，mij表示由点pi,pj,pk构成的三角网络；

9、5）、将现实场景的纹理映射到三角网络的表面，以建立虚拟角色；

10、s2、通过运动捕捉系统将人类表演者的动作转化为虚拟角色的动作；

11、s3、使用语音合成技术给虚拟角色添加语音；

12、s4、建立实时互动模型，实时互动模型包括实时聊天功能、允许观众通过输入文字与虚拟角色交流功能以及用于识别和理解观众语音提问并根据问题提供相应答案的自然语言处理功能；

13、s5、利用机器学习方法训练实时互动模型，并根据训练结果对实时互动模型进行优化，得到虚拟主播；

14、s6、利用虚拟主播进行实时直播。

15、优选的，步骤s1中，所述虚拟主播的整体概念和形象包括性别、年龄和风格，先确定虚拟主播的整体概念和形象，再使用三维建模软件逐步塑造出角色的身体、头部和面部特征，在头部设置发型、眼睛和嘴唇的特征，在面部添加真实人脸的表情特征，在身体部设置衣着以及衣着的颜色。

16、优选的，步骤s2中，所述运动捕捉系统采用的为光学运动捕捉系统或惯性运动捕捉系统，根据光学运动捕捉系统或惯性运动捕捉系统的要求在捕捉区域安装传感器组件，所述传感器组件包括惯性传感器、压力传感器、磁性传感器和视觉传感器。

17、优选的，在将人类表演者的动作转化为虚拟角色的动作时，先确定需要捕捉的动作类型，再根据动作类型使用运动捕捉系统捕捉人类表演者的动作，人类表演者动作捕捉前，在捕捉区域放置参考物体，并通过获得参考物体的位置和方向来校准运动捕捉系统，请人类表演者穿上配有传感器组件的运动捕捉套装，运动捕捉系统将记录人类表演者的动作数据，并将人类表演者的动作数据转化为虚拟角色的动作，然后再将捕捉到的动作数据导入到动画软件中处理，在处理过程中，对捕捉到的动作数据进行数据清理和修改以移除不需要的噪音和错误，再将清理和处理后的动作数据应用到虚拟角色上，最后通过在表演者的面部放置传感器组件，捕捉面部表情数据，并将捕捉的面部表情数据应用到虚拟角色上。

18、优选的，步骤s3中，所述虚拟角色在添加语音时，先收集并准备好用于训练语音合成模型的语音数据，再对语音数据进行分词和标点符号的预处理，再对预处理后的语音数据训练建立语音合成模型，再对语音合成模型进行声音平滑处理和语音清晰度提升，再根据生成的语音质量和用户反馈对语音合成模型进行优化和调整，最后将优化和调整后的语音合成模型与虚拟角色的动作结合，使其在语言和动作上协调性自然和流畅。

19、优选的，步骤s4中，所述实时互动模型在建立时，包括如下步骤：

20、a1、收集和整理训练所需的数据集；

21、a2、使用循环神经网络对数据集进行训练，得到一个负责理解、生成对话内容以及生成回答观众问题答案的对话模型；

22、a3、将对话模型集成到实时聊天系统中，实时聊天系统包括接收观众输入的文字聊天、然后将文字聊天传递给对话模型生成回答，并将回答实时展示给观众；

23、a4、在实时聊天系统中加入便于观众通过输入文字或与虚拟角色进行交流的输入框或接口；

24、a5、在实时聊天系统中加入语音识别模块，将语音转化为文本或将识别出的文本传递给对话模型造成回答；

25、a6、将生成的回答通转化为语音，并将语音展示给观众。

26、优选的，步骤a1中，所述数据集包括虚拟角色的对话语料、观众输入的文字聊天记录以及与虚拟角色交互的语音训练数据。

27、优选的，步骤a5中，所述语音识别模块包括用于接收观众音频输入的音频输入单元、对音频信号进行预处理和特征提取的前端处理单元、将音频信号和提取的特征进行对应的声学模型建立单元、根据语音识别结果的上下文进行优化和纠错的语言模型建立单元以及将结果输出的结果输出单元。

28、优选的，步骤s5中，所述实时互动模型在训练时先收集用于训练实时互动模型的数据，再对收集到的数据进行预处理，将预处理后的数据进行特征提取，获得人脸特征和声音特征，使用卷积神经网络对实时互动模型进行训练，再将训练后的实时互动模型应用到直播系统中进行互动测试，根据互动测试结果对互动模型进行优化，以获得优化后的虚拟主播。

29、基于以上叙述的一种基于虚拟主播的直播方法，本专利技术还提供一种基于虚拟主播的直播系统，包括用于进行角色设计和3d建模的虚拟角色建立模块、通过运动捕捉系统将人类表演者的动作转化为虚拟角色动作的动作添加模块、使用语音合成技术给虚拟角色添加语音的语音本文档来自技高网...

【技术保护点】

1.一种基于虚拟主播的直播方法，其特征在于：包括如下步骤：

2.根据权利要求1所述的一种基于虚拟主播的直播方法，其特征在于：步骤S1中，所述虚拟主播的整体概念和形象包括性别、年龄和风格，先确定虚拟主播的整体概念和形象，再使用三维建模软件逐步塑造出角色的身体、头部和面部特征，在头部设置发型、眼睛和嘴唇的特征，在面部添加真实人脸的表情特征，在身体部设置衣着以及衣着的颜色。

3.根据权利要求2所述的一种基于虚拟主播的直播方法，其特征在于：步骤S2中，所述运动捕捉系统采用的为光学运动捕捉系统或惯性运动捕捉系统，根据光学运动捕捉系统或惯性运动捕捉系统的要求在捕捉区域安装传感器组件，所述传感器组件包括惯性传感器、压力传感器、磁性传感器和视觉传感器。

5.根据权利要求4所述的一种基于虚拟主播的直播方法，其特征在于：步骤S3中，所述虚拟角色在添加语音时，先收集并准备好用于训练语音合成模型的语音数据，再对语音数据进行分词和标点符号的预处理，再对预处理后的语音数据训练建立语音合成模型，再对语音合成模型进行声音平滑处理和语音清晰度提升，再根据生成的语音质量和用户反馈对语音合成模型进行优化和调整，最后将优化和调整后的语音合成模型与虚拟角色的动作结合，使其在语言和动作上协调性自然和流畅。

6.根据权利要求5所述的一种基于虚拟主播的直播方法，其特征在于：步骤S4中，所述实时互动模型在建立时，包括如下步骤：

7.根据权利要求6所述的一种基于虚拟主播的直播方法，其特征在于：步骤A1中，所述数据集包括虚拟角色的对话语料、观众输入的文字聊天记录以及与虚拟角色交互的语音训练数据。

8.根据权利要求7所述的一种基于虚拟主播的直播方法，其特征在于：步骤A5中，所述语音识别模块包括用于接收观众音频输入的音频输入单元、对音频信号进行预处理和特征提取的前端处理单元、将音频信号和提取的特征进行对应的声学模型建立单元、根据语音识别结果的上下文进行优化和纠错的语言模型建立单元以及将结果输出的结果输出单元。

9.根据权利要求8所述的一种基于虚拟主播的直播方法，其特征在于：步骤S5中，所述实时互动模型在训练时先收集用于训练实时互动模型的数据，再对收集到的数据进行预处理，将预处理后的数据进行特征提取，获得人脸特征和声音特征，使用卷积神经网络对实时互动模型进行训练，再将训练后的实时互动模型应用到直播系统中进行互动测试，根据互动测试结果对互动模型进行优化，以获得优化后的虚拟主播。

10.一种基于虚拟主播的直播系统，基于权利要求1-9任意一项所述的一种基于虚拟主播的直播方法，其特征在于：包括用于进行角色设计和3D建模的虚拟角色建立模块、通过运动捕捉系统将人类表演者的动作转化为虚拟角色动作的动作添加模块、使用语音合成技术给虚拟角色添加语音的语音添加模块、用于实时互动模型建立的实时互动模型建立模块、对实时互动模型进行优化的模型优化模块以及用于实时直播的实时直播模块。

...

【技术特征摘要】

1.一种基于虚拟主播的直播方法，其特征在于：包括如下步骤：

2.根据权利要求1所述的一种基于虚拟主播的直播方法，其特征在于：步骤s1中，所述虚拟主播的整体概念和形象包括性别、年龄和风格，先确定虚拟主播的整体概念和形象，再使用三维建模软件逐步塑造出角色的身体、头部和面部特征，在头部设置发型、眼睛和嘴唇的特征，在面部添加真实人脸的表情特征，在身体部设置衣着以及衣着的颜色。

3.根据权利要求2所述的一种基于虚拟主播的直播方法，其特征在于：步骤s2中，所述运动捕捉系统采用的为光学运动捕捉系统或惯性运动捕捉系统，根据光学运动捕捉系统或惯性运动捕捉系统的要求在捕捉区域安装传感器组件，所述传感器组件包括惯性传感器、压力传感器、磁性传感器和视觉传感器。

4.根据权利要求3所述的一种基于虚拟主播的直播方法，其特征在于：在将人类表演者的动作转化为虚拟角色的动作时，先确定需要捕捉的动作类型，再根据动作类型使用运动捕捉系统捕捉人类表演者的动作，人类表演者动作捕捉前，在捕捉区域放置参考物体，并通过获得参考物体的位置和方向来校准运动捕捉系统，请人类表演者穿上配有传感器组件的运动捕捉套装，运动捕捉系统将记录人类表演者的动作数据，并将人类表演者的动作数据转化为虚拟角色的动作，然后再将捕捉到的动作数据导入到动画软件中处理，在处理过程中，对捕捉到的动作数据进行数据清理和修改以移除不需要的噪音和错误，再将清理和处理后的动作数据应用到虚拟角色上，最后通过在表演者的面部放置传感器组件，捕捉面部表情数据，并将捕捉的面部表情数据应用到虚拟角色上。

5.根据权利要求4所述的一种基于虚拟主播的直播方法，其特征在于：步骤s3中，所述虚拟角色在添加语音时，先收集并准备好用于训练语音合成模型的语音数据，再对语音数据进行分词和标点符号的预处理，再对预处理后的语音数据训练建立语音合成模型，再对语音合...

【专利技术属性】
技术研发人员：史明，周晶璇，
申请(专利权)人：上海瓣鼎网络科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人