虚拟主播的直播方法、装置及系统制造方法及图纸

技术编号：37547277 阅读：11 留言：0更新日期：2023-05-12 16:22

本公开提供了一种虚拟主播的直播方法、装置及系统，该方法包括：实时捕捉现实主播的面部动作数据和语音数据；对所述面部动作数据进行分析，得到所述现实主播的口型数据；对所述语音数据进行分析，得到与所述语音数据对应的文字内容以及语音特征，对所述文字内容进行处理，将处理后的所述文字内容转换为音素序列；基于所述音素序列和所述语音特征，对所述口型数据进行调整，并基于调整后的所述口型数据来生成用于直播的直播视频流，然后将所述直播视频流推流至终端设备。本公开解决了虚拟主播口型对不准的问题。型对不准的问题。型对不准的问题。

全部详细技术资料下载

【技术实现步骤摘要】
虚拟主播的直播方法、装置及系统

[0001]本公开涉及直播
，具体而言，涉及一种虚拟主播的直播方法、装置及系统。

技术介绍

[0002]虚拟主播是一种由人工智能（Artificial Intelligence，AI）技术生成的虚拟人物，可以在现实主播的控制下进行直播，也可以在AI算法的控制下进行直播，还可以在现实主播和AI算法的共同控制下进行直播。
[0003]在现实主播控制下进行直播时，传感器、摄像头、麦克风等设备会获取现实主播的动作信息和语音信息，然后实时应用到虚拟主播身上，从而使虚拟主播的动作和语音与现实主播保持一致。
[0004]虚拟主播的口型的对准通常是通过实时语音识别技术来实现的。该技术可以将现实主播的语音实时转换为文字，并根据文字的内容生成相应的口型动作，使虚拟主播看起来像在准确地模仿现实主播的说话动作。
[0005]尽管现有的语音识别技术已经相当成熟，但仍然难以完全准确地识别所有语音内容。此外，现有的口型动作生成算法也无法完全准确地捕捉到现实主播的口型特征。因此，虚拟主播的口型对准技术仍需进一步的改进和发展，以提高口型动作的准确度。

技术实现思路

[0006]本公开实施例提供了一种虚拟主播的直播方法、装置及系统，以至少解决虚拟主播口型对不准的技术问题。
[0007]根据本公开实施例的一个方面，提供了一种虚拟主播的直播方法，包括：实时捕捉现实主播的面部动作数据和语音数据，对所述面部动作数据进行分析，得到所述现实主播的口型数据；对所述语音数据进行分析，...

【技术保护点】

【技术特征摘要】
1.一种虚拟主播的直播方法，其特征在于，包括：实时捕捉现实主播的面部动作数据和语音数据，对所述面部动作数据进行分析，得到所述现实主播的口型数据；对所述语音数据进行分析，得到与所述语音数据对应的文字内容以及语音特征，对所述文字内容进行处理，将处理后的所述文字内容转换为音素序列；基于所述音素序列和所述语音特征，对所述口型数据进行调整；基于调整后的所述口型数据来生成用于直播的直播视频流，并将所述直播视频流推流至终端设备。2.根据权利要求1所述的方法，其特征在于，对所述语音数据进行分析，得到与所述语音数据对应的文字内容以及语音特征，包括：对所述语音数据进行预处理，通过数字信号处理技术来分析预处理后的所述语音数据，以从预处理后的所述语音数据中提取出所述语音特征，其中，所述语音特征包括所述语音数据的频谱信息、频率信息和语速信息；通过语音识别技术来分析预处理后的所述语音数据，以从预处理后的所述语音数据中提取出对应的所述文字内容。3.根据权利要求2所述的方法，其特征在于，对所述语音数据进行预处理，通过数字信号处理技术来分析预处理后的所述语音数据，包括：对所述语音数据进行去噪处理，并对去噪处理后的所述语音数据进行分帧，得到多帧语音数据片；通过所述数字信号处理技术，对每帧语音数据片进行频域分析，得到所述每帧语音数据片的频谱信息和频率信息，并对所述每帧语音数据片进行时域分析，得到所述每帧语音数据片的语速信息。4.根据权利要求3所述的方法，其特征在于，在对所述口型数据进行调整之前，所述方法还包括：针对所述每帧语音数据片，将所述每帧语音数据片的音素序列和所述每帧语音数据片的语音特征对应，计算所述每帧语音数据片的音素序列和所述每帧语音数据片的语音特征之间的距离，得到帧对齐误差；基于所述帧对齐误差，使用动态规划算法将所述每帧语音数据片的语音特征对齐到所述每帧语音数据片的音素序列中。5.根据权利要求1所述的方法，其特征在于，基于所述音素序列和所述语音特征，对所述口型数据进行调整，包括：将所述音素序列中的每个音素与所述语音特征进行配对，得到所述每个音素对应的语音特征；基于所述每个音素对应的语音特征，计算所述每个音素对应的口型参数，其中，所述口型参数...

【专利技术属性】
技术研发人员：王英，张青辉，
申请(专利权)人：世优北京科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人