【技术实现步骤摘要】
基于中之人和人工智能的直播方法、装置及系统
[0001]本公开涉及直播
,具体而言,涉及一种基于中之人和人工智能的直播方法、装置及系统。
技术介绍
[0002]虚拟主播是一种由人工智能(Artificial Intelligence,AI)技术生成的虚拟人物,可以在现实主播的控制下进行直播,也可以在AI算法的控制下进行直播。
[0003]在现实主播控制下进行直播时,传感器、摄像头、麦克风等设备会获取现实主播的动作信息和语音信息,然后实时应用到虚拟主播身上,从而使虚拟主播的动作和语音与现实主播保持一致。在AI智能算法的控制下,直接基于AI智能算法,生成动捕数据、面部数据和语音数据等。
[0004]虽然在某些情况下,人工智能算法可以控制虚拟主播,但在复杂情况下,它们可能无法满足用户的所有需求和意愿,导致交互不流畅、用户体验差。
[0005]针对上述虚拟主播和用户交互不顺畅、用户体验差的技术问题,目前尚未提出有效的解决方案。
技术实现思路
[0006]本公开实施例提供了一种基于中之人和 ...
【技术保护点】
【技术特征摘要】
1.一种基于中之人和人工智能的直播方法,其特征在于,包括:基于所接收到的用户输入数据,判断响应所述用户输入数据的响应级别或响应难度,并基于所述响应级别或所述响应难度,确定用于响应所述用户输入数据的响应方式;在所确定的响应方式为人工智能模式的情况下,采用人工智能算法来控制虚拟主播进行直播;在所确定的响应方式为中之人模式的情况下,通过实时获取所述中之人的面部动作数据和语音数据来控制所述虚拟主播进行直播;其中,所述中之人是用于控制所述虚拟主播的现实主播。2.根据权利要求1所述的方法,其特征在于,在采用人工智能算法来控制虚拟主播进行直播之后,所述方法还包括:在使用所述人工智能算法无法响应所述用户输入数据的情况下,将所述响应方式从人工智能模式切换为所述中之人模式。3.根据权利要求1所述的方法,其特征在于,采用人工智能算法来控制虚拟主播进行直播包括:对预设的文字内容进行处理,将处理后的所述文字内容转换为音素序列;基于所述音素序列,生成口型数据,基于所述口型数据来生成用于直播的直播视频流,并将所述直播视频流推流至终端设备。4.根据权利要求1所述的方法,其特征在于,通过实时获取所述中之人的面部动作数据和语音数据来控制所述虚拟主播进行直播,包括:实时捕捉所述中之人的面部动作数据和语音数据,对所述面部动作数据进行分析,得到所述中之人的第一口型数据;对所述语音数据进行分析,得到与所述语音数据对应的文字内容以及语音特征,对所述文字内容进行处理,将处理后的所述文字内容转换为音素序列;基于所述音素序列和所述语音特征,生成基于语音的第二口型数据,并利用所述第二口型数据对所述第一口型数据进行调整;基于调整后的所述第一口型数据来生成用于直播的直播视频流,并将所述直播视频流推流至终端设备。5.根据权利要求4所述的方法,其特征在于,基于所述音素序列和所述语音特征,生成基于语音的第二口型数据,并利用所述第二口型数据对所述第一口型数据进行调整,包括:将所述音素序列中的每个音素与所述语音特征进行配对,得到所述每个音素对应的语音特征;基于所述每个音素对应的语音特征,计算所述每个音素对应的口型参数,其中,所述口型参数包括以...
【专利技术属性】
技术研发人员:王英,张青辉,
申请(专利权)人:世优北京科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。