基于中之人和人工智能的直播方法、装置及系统制造方法及图纸

技术编号:38084816 阅读:13 留言:0更新日期:2023-07-06 08:52
本公开提供了一种基于中之人和人工智能的直播方法、装置及系统,该方法包括:响应于于所接收到的用户输入数据,判断响应所述用户输入数据的响应级别或响应难度,并基于所述响应级别或所述响应难度,确定用于响应所述用户输入数据的响应方式;在所确定的响应方式为人工智能模式的情况下,采用人工智能算法来控制虚拟主播进行直播;在所确定的响应方式为中之人模式的情况下,通过实时获取所述中之人的面部动作数据和语音数据来控制所述虚拟主播进行直播;其中,所述中之人是用于控制所述虚拟主播的现实主播。本公开解决了现有技术中虚拟主播和用户交互不顺畅、用户体验不好的问题。播和用户交互不顺畅、用户体验不好的问题。播和用户交互不顺畅、用户体验不好的问题。

【技术实现步骤摘要】
基于中之人和人工智能的直播方法、装置及系统


[0001]本公开涉及直播
,具体而言,涉及一种基于中之人和人工智能的直播方法、装置及系统。

技术介绍

[0002]虚拟主播是一种由人工智能(Artificial Intelligence,AI)技术生成的虚拟人物,可以在现实主播的控制下进行直播,也可以在AI算法的控制下进行直播。
[0003]在现实主播控制下进行直播时,传感器、摄像头、麦克风等设备会获取现实主播的动作信息和语音信息,然后实时应用到虚拟主播身上,从而使虚拟主播的动作和语音与现实主播保持一致。在AI智能算法的控制下,直接基于AI智能算法,生成动捕数据、面部数据和语音数据等。
[0004]虽然在某些情况下,人工智能算法可以控制虚拟主播,但在复杂情况下,它们可能无法满足用户的所有需求和意愿,导致交互不流畅、用户体验差。
[0005]针对上述虚拟主播和用户交互不顺畅、用户体验差的技术问题,目前尚未提出有效的解决方案。

技术实现思路

[0006]本公开实施例提供了一种基于中之人和人工智能的直播方法、装置及系统,以至少解决虚拟主播和用户交互不顺畅、用户体验差的技术问题。
[0007]根据本公开实施例的一个方面,提供了一种基于中之人和人工智能的直播方法,包括:基于所接收到的用户输入数据,判断响应所述用户输入数据的响应级别或响应难度,并基于所述响应级别或所述响应难度,确定用于响应所述用户输入数据的响应方式;在所确定的响应方式为人工智能模式的情况下,采用人工智能算法来控制虚拟主播进行直播;在所确定的响应方式为中之人模式的情况下,通过实时获取所述中之人的面部动作数据和语音数据来控制所述虚拟主播进行直播;其中,所述中之人是用于控制所述虚拟主播的现实主播。
[0008]根据本公开实施例的另一个方面,提供了一种基于中之人和人工智能的直播装置,包括:确定模块,被配置为基于所接收到的用户输入数据,判断响应所述用户输入数据的响应级别或响应难度,并基于所述响应级别或所述响应难度,确定用于响应所述用户输入数据的响应方式;控制模块,被配置为在所确定的响应方式为人工智能模式的情况下,采用人工智能算法来控制虚拟主播进行直播;在所确定的响应方式为中之人模式的情况下,通过实时获取所述中之人的面部动作数据和语音数据来控制所述虚拟主播进行直播;其中,所述中之人是用于控制所述虚拟主播的现实主播。
[0009]根据本公开实施例的另一个方面,提供了一种基于中之人和人工智能的直播系统,包括:如上所述的基于中之人和人工智能的直播装置;终端设备,用于播放所述基于中之人和人工智能的直播装置推流的直播视频流。
[0010]本公开实施例通过上述方案,解决了现有技术中虚拟主播和用户交互不顺畅、用户体验不好的问题。
附图说明
[0011]构成本公开的一部分的说明书附图用来提供对本公开的进一步理解,本公开的示意性实施例及其说明用于解释本公开,并不构成对本公开的不当限定。在附图中:
[0012]图1是根据本申请实施例的一种基于中之人和人工智能的直播系统的架构示意图;
[0013]图2是根据本申请实施例的一种基于中之人和人工智能的直播方法的流程示意图;
[0014]图3是根据本申请实施例的另一种基于中之人和人工智能的直播方法的流程示意图;
[0015]图4是根据本申请实施例的对语音数据进行预处理的方法的流程示意图;
[0016]图5是根据本申请实施例的一种基于语音特征、文字内容和面部动作数据生成口型数据的方法的流程示意图;
[0017]图6是根据本申请实施例的一种计算嘴唇的张合程度的方法的流程示意图;
[0018]图7是根据本申请实施例的一种基于中之人和人工智能的直播装置的结构示意图;
[0019]图8是根据本申请实施例的一种电子设备的结构示意图。
[0020]其中,上述附图包括以下附图标记:
[0021]1001、CPU;1002、ROM;1003、RAM;1004、总线;1005、I/O接口;1006、输入部分;1007、输出部分;1008、存储部分;1009、通信部分;1010、驱动器;1011、可拆卸介质;100、基于中之人和人工智能的直播系统;101、第一终端设备;102、第二终端设备;103、第三终端设备;104、网络;105、服务器;106、动捕装置;1062、动捕头盔;1064、动捕服;1066、动捕手套;70、获取模块;72、面部分析模块;74、语音分析模块;76、调整模块;78、推流模块。
具体实施方式
[0022]需要说明的是,在不冲突的情况下,本公开中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本公开。
[0023]需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本公开的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
[0024]除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开的范围。同时,应当明白,为了便于描述,附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为授权说明书的一部分。在这里示出和讨论的所有示例中,任何具体值应被解释为仅仅是示例性的,而不是作为限制。因此,示例性实施例的其它示例可以具有不同的值。应注意到:相似的标号
和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
[0025]实施例1
[0026]图1示出了根据本公开实施例的一种基于中之人和人工智能的直播系统的架构示意图,如图1所示,基于中之人和人工智能的直播系统100可以包括终端设备例如第一终端设备101、第二终端设备102、第三终端设备103中的一个或多个、网络104、服务器105和动捕装置106。
[0027]网络104用以在终端设备和服务器105之间、以及动捕装置106和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。终端设备可以是具有显示屏的各种电子设备,包括但不限于台式计算机、便携式计算机、智能手机和平板电脑等等。应该理解,图1中的终端设备、网络、动捕装置和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络、动捕装置和服务器。比如服务器105可以是多个服务器组成的服务器集群等。
[0028]动捕装置106用于实时采集现实主播的动捕数据和语音数据,并经网络104发送给服务器105。其中,动捕装置106可以包括动捕头盔1062、动捕服1064和动捕手套1本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于中之人和人工智能的直播方法,其特征在于,包括:基于所接收到的用户输入数据,判断响应所述用户输入数据的响应级别或响应难度,并基于所述响应级别或所述响应难度,确定用于响应所述用户输入数据的响应方式;在所确定的响应方式为人工智能模式的情况下,采用人工智能算法来控制虚拟主播进行直播;在所确定的响应方式为中之人模式的情况下,通过实时获取所述中之人的面部动作数据和语音数据来控制所述虚拟主播进行直播;其中,所述中之人是用于控制所述虚拟主播的现实主播。2.根据权利要求1所述的方法,其特征在于,在采用人工智能算法来控制虚拟主播进行直播之后,所述方法还包括:在使用所述人工智能算法无法响应所述用户输入数据的情况下,将所述响应方式从人工智能模式切换为所述中之人模式。3.根据权利要求1所述的方法,其特征在于,采用人工智能算法来控制虚拟主播进行直播包括:对预设的文字内容进行处理,将处理后的所述文字内容转换为音素序列;基于所述音素序列,生成口型数据,基于所述口型数据来生成用于直播的直播视频流,并将所述直播视频流推流至终端设备。4.根据权利要求1所述的方法,其特征在于,通过实时获取所述中之人的面部动作数据和语音数据来控制所述虚拟主播进行直播,包括:实时捕捉所述中之人的面部动作数据和语音数据,对所述面部动作数据进行分析,得到所述中之人的第一口型数据;对所述语音数据进行分析,得到与所述语音数据对应的文字内容以及语音特征,对所述文字内容进行处理,将处理后的所述文字内容转换为音素序列;基于所述音素序列和所述语音特征,生成基于语音的第二口型数据,并利用所述第二口型数据对所述第一口型数据进行调整;基于调整后的所述第一口型数据来生成用于直播的直播视频流,并将所述直播视频流推流至终端设备。5.根据权利要求4所述的方法,其特征在于,基于所述音素序列和所述语音特征,生成基于语音的第二口型数据,并利用所述第二口型数据对所述第一口型数据进行调整,包括:将所述音素序列中的每个音素与所述语音特征进行配对,得到所述每个音素对应的语音特征;基于所述每个音素对应的语音特征,计算所述每个音素对应的口型参数,其中,所述口型参数包括以...

【专利技术属性】
技术研发人员:王英张青辉
申请(专利权)人:世优北京科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1