虚拟主播的直播方法、装置及系统制造方法及图纸

技术编号:37547277 阅读:11 留言:0更新日期:2023-05-12 16:22
本公开提供了一种虚拟主播的直播方法、装置及系统,该方法包括:实时捕捉现实主播的面部动作数据和语音数据;对所述面部动作数据进行分析,得到所述现实主播的口型数据;对所述语音数据进行分析,得到与所述语音数据对应的文字内容以及语音特征,对所述文字内容进行处理,将处理后的所述文字内容转换为音素序列;基于所述音素序列和所述语音特征,对所述口型数据进行调整,并基于调整后的所述口型数据来生成用于直播的直播视频流,然后将所述直播视频流推流至终端设备。本公开解决了虚拟主播口型对不准的问题。型对不准的问题。型对不准的问题。

【技术实现步骤摘要】
虚拟主播的直播方法、装置及系统


[0001]本公开涉及直播
,具体而言,涉及一种虚拟主播的直播方法、装置及系统。

技术介绍

[0002]虚拟主播是一种由人工智能(Artificial Intelligence,AI)技术生成的虚拟人物,可以在现实主播的控制下进行直播,也可以在AI算法的控制下进行直播,还可以在现实主播和AI算法的共同控制下进行直播。
[0003]在现实主播控制下进行直播时,传感器、摄像头、麦克风等设备会获取现实主播的动作信息和语音信息,然后实时应用到虚拟主播身上,从而使虚拟主播的动作和语音与现实主播保持一致。
[0004]虚拟主播的口型的对准通常是通过实时语音识别技术来实现的。该技术可以将现实主播的语音实时转换为文字,并根据文字的内容生成相应的口型动作,使虚拟主播看起来像在准确地模仿现实主播的说话动作。
[0005]尽管现有的语音识别技术已经相当成熟,但仍然难以完全准确地识别所有语音内容。此外,现有的口型动作生成算法也无法完全准确地捕捉到现实主播的口型特征。因此,虚拟主播的口型对准技术仍需进一步的改进和发展,以提高口型动作的准确度。

技术实现思路

[0006]本公开实施例提供了一种虚拟主播的直播方法、装置及系统,以至少解决虚拟主播口型对不准的技术问题。
[0007]根据本公开实施例的一个方面,提供了一种虚拟主播的直播方法,包括:实时捕捉现实主播的面部动作数据和语音数据,对所述面部动作数据进行分析,得到所述现实主播的口型数据;对所述语音数据进行分析,得到与所述语音数据对应的文字内容以及语音特征,并对所述文字内容进行处理,将处理后的所述文字内容转换为音素序列;基于所述音素序列和所述语音特征,对所述口型数据进行调整;基于调整后的所述口型数据来生成用于直播的直播视频流,并将所述直播视频流推流至终端设备。
[0008]根据本公开实施例的另一个方面,提供了一种虚拟主播的直播装置,包括:获取模块,被配置为实时获取现实主播的面部动作数据和语音数据;面部分析模块,被配置为对所述面部动作数据进行分析,得到所述现实主播的口型数据;语音分析模块,被配置为对所述语音数据进行分析,得到与所述语音数据对应的文字内容以及语音特征,并对所述文字内容进行处理,将处理后的所述文字内容转换为音素序列;调整模块,被配置为基于所述音素序列和所述语音特征,对所述口型数据进行调整;推流模块,被配置为基于调整后的所述口型数据来生成用于直播的直播视频流,并将所述直播视频流推流至终端设备。
[0009]根据本公开实施例的另一个方面,提供了一种虚拟主播的直播系统,包括:如上所述的虚拟主播的直播装置;终端设备,用于播放所述虚拟主播的直播装置推流的直播视频
流。
[0010]在本公开实施例中,基于音素序列和语音特征,对口型数据进行调整,并基于调整后的口型数据来生成用于直播的直播视频流,从而解决了虚拟主播口型对不准的问题,具有提高虚拟主播的逼真度的有益效果。
附图说明
[0011]构成本公开的一部分的说明书附图用来提供对本公开的进一步理解,本公开的示意性实施例及其说明用于解释本公开,并不构成对本公开的不当限定。在附图中:图1是根据本申请实施例的一种虚拟主播的直播系统的架构示意图;图2是根据本申请实施例的一种虚拟主播的直播方法的流程示意图;图3是根据本申请实施例的另一种虚拟主播的直播方法的流程示意图;图4是根据本申请实施例的对语音数据进行预处理的方法的流程示意图;图5是根据本申请实施例的一种基于语音特征、文字内容和面部动作数据生成口型数据的方法的流程示意图;图6是根据本申请实施例的一种计算嘴唇的张合程度的方法的流程示意图;图7是根据本申请实施例的一种虚拟主播的直播装置的结构示意图;图8是根据本申请实施例的一种电子设备的结构示意图。
[0012]其中,上述附图包括以下附图标记:1001、CPU;1002、ROM;1003、RAM;1004、总线;1005、I/O接口;1006、输入部分;1007、输出部分;1008、存储部分;1009、通信部分;1010、驱动器;1011、可拆卸介质;100、虚拟主播的直播系统;101、第一终端设备;102、第二终端设备;103、第三终端设备;104、网络;105、服务器;106、动捕装置;1062、动捕头盔;1064、动捕服;1066、动捕手套;70、获取模块;72、面部分析模块;74、语音分析模块;76、调整模块;78、推流模块。
具体实施方式
[0013]需要说明的是,在不冲突的情况下,本公开中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本公开。
[0014]需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本公开的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
[0015]除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开的范围。同时,应当明白,为了便于描述,附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为授权说明书的一部分。在这里示出和讨论的所有示例中,任何具体值应被解释为仅仅是示例性的,而不是作为限制。因此,示例性实施例的其它示例可以具有不同的值。应注意到 :相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
[0016]实施例1图1示出了根据本公开实施例的一种虚拟主播的直播系统的架构示意图,如图1所示,虚拟主播的直播系统100可以包括终端设备例如第一终端设备101、第二终端设备102、第三终端设备103中的一个或多个、网络104、服务器105和动捕装置106。
[0017]网络104用以在终端设备和服务器105之间、以及动捕装置106和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。终端设备可以是具有显示屏的各种电子设备,包括但不限于台式计算机、便携式计算机、智能手机和平板电脑等等。应该理解,图1中的终端设备、网络、动捕装置和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络、动捕装置和服务器。比如服务器105可以是多个服务器组成的服务器集群等。
[0018]动捕装置106用于实时采集现实主播的动捕数据和语音数据,并经网络104发送给服务器105。其中,动捕装置106可以包括动捕头盔1062、动捕服1064和动捕手套1066中的一个或多个。
[0019]动捕头盔1062设置有摄像头和麦克风,摄像头的拍摄速度高达60帧/秒,能够捕捉快速的唇部动作、眨眼本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种虚拟主播的直播方法,其特征在于,包括:实时捕捉现实主播的面部动作数据和语音数据,对所述面部动作数据进行分析,得到所述现实主播的口型数据;对所述语音数据进行分析,得到与所述语音数据对应的文字内容以及语音特征,对所述文字内容进行处理,将处理后的所述文字内容转换为音素序列;基于所述音素序列和所述语音特征,对所述口型数据进行调整;基于调整后的所述口型数据来生成用于直播的直播视频流,并将所述直播视频流推流至终端设备。2.根据权利要求1所述的方法,其特征在于,对所述语音数据进行分析,得到与所述语音数据对应的文字内容以及语音特征,包括:对所述语音数据进行预处理,通过数字信号处理技术来分析预处理后的所述语音数据,以从预处理后的所述语音数据中提取出所述语音特征,其中,所述语音特征包括所述语音数据的频谱信息、频率信息和语速信息;通过语音识别技术来分析预处理后的所述语音数据,以从预处理后的所述语音数据中提取出对应的所述文字内容。3.根据权利要求2所述的方法,其特征在于,对所述语音数据进行预处理,通过数字信号处理技术来分析预处理后的所述语音数据,包括:对所述语音数据进行去噪处理,并对去噪处理后的所述语音数据进行分帧,得到多帧语音数据片;通过所述数字信号处理技术,对每帧语音数据片进行频域分析,得到所述每帧语音数据片的频谱信息和频率信息,并对所述每帧语音数据片进行时域分析,得到所述每帧语音数据片的语速信息。4.根据权利要求3所述的方法,其特征在于,在对所述口型数据进行调整之前,所述方法还包括:针对所述每帧语音数据片,将所述每帧语音数据片的音素序列和所述每帧语音数据片的语音特征对应,计算所述每帧语音数据片的音素序列和所述每帧语音数据片的语音特征之间的距离,得到帧对齐误差;基于所述帧对齐误差,使用动态规划算法将所述每帧语音数据片的语音特征对齐到所述每帧语音数据片的音素序列中。5.根据权利要求1所述的方法,其特征在于,基于所述音素序列和所述语音特征,对所述口型数据进行调整,包括:将所述音素序列中的每个音素与所述语音特征进行配对,得到所述每个音素对应的语音特征;基于所述每个音素对应的语音特征,计算所述每个音素对应的口型参数,其中,所述口型参数...

【专利技术属性】
技术研发人员:王英张青辉
申请(专利权)人:世优北京科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1