System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术属于人工智能领域,具体涉及一种基于语音驱动的可控相似关键帧虚拟人脸视频生成方法以及交互装置。
技术介绍
1、随着人工智能和计算机图形学的飞速发展,虚拟人技术能够创造逼真的人物形象,使其表现出与真实人类类似的动作、情感和互动能力。虚拟人作为链接现实世界和虚拟世界的主要接口之一,在各行业逐渐成为一名优秀的员工,其中代言虚拟人和直播虚拟人很好地满足全天在线、不会人设崩塌、忠诚度高的条件,成为这个行业的最优解决方案。目前主要流行的建模方式是扫描重建和建模绑定,前者成本较高,后者精细程度较差,但随着人工智能的发展,后者逐渐成为一种趋势。
2、作为新兴的科技产品,它依旧存在着一些问题。产品定制成本较高,一个优质的虚拟人产品一般需要支付形象定制、软件服务、动捕设备的费用;虚拟人生命周期短,代言、直播行业的虚拟人更多是基于规则或者通过动捕设备进行驱动的,同时这样也带来交互性差、创新能力弱、运营成本高等问题,导致更多的虚拟人“出道即巅峰”。
技术实现思路
0、
技术实现思路
:
1、本申请提供基于语音驱动的可控相似关键帧虚拟人脸视频生成及交互方法,以解决虚拟人建模及交互驱动的问题。通过一张精致的人像图像实现3d模型的建立和渲染,将其通过语音进行驱动生成起始帧和结束帧被约束为人像图像的虚拟人脸视频。通过将多段视频衔接起来,并在期间插入静默状态以获取下次交互的输入,以此达到交互效果。
2、本申请提供一种基于语音驱动的可控相似关键帧虚拟人脸视频生成方法,包括:
...【技术保护点】
1.一种基于语音驱动的可控相似关键帧虚拟人脸视频生成方法以及交互装置。主要包括以下步骤:
2.根据权利要求1所述的一种基于语音驱动的可控相似关键帧虚拟人脸视频生成方法以及交互装置,其特征在于:所描述的步骤(1)中,具有输入接口的特征,与外部设备具有接口特性,确保能够接收待输入的图像信息;具有采集方法特征,采集图像信息的方法可以包括涉及传感器、摄像头、扫描设备等;具有实时性特征,对当前图像信息的实时获取能力,以确保系统对信息的及时响应;具有数据处理特征,对获得的图像信息进行的任何预处理、滤波或其他数据处理步骤;具有形象克隆特征,包括克隆面部特征、头部、纹理映射、处理细节等。
3.根据权利要求1所述的一种基于语音驱动的可控相似关键帧虚拟人脸视频生成方法以及交互装置,其特征在于:所描述的步骤(2)中,具有输入接口的特征,与外部设备具有接口特性,确保能够接收待输入的语音信息;具有采集方法特征,采集语音信息的方法可以包括麦克风、语音文件导入等;具有实时性特征,对当前语音信息的实时获取能力,以确保系统对信息的及时响应;具有数据处理特征,对获得的语音信息进行的任何预处理
4.根据权利要求1所述的一种基于语音驱动的可控相似关键帧虚拟人脸视频生成方法以及交互装置,其特征在于:所描述的步骤(3)中,具有输入多样性特征,能够接收多种输入形式,不限于语音和文本;具有语音识别特征,对语音输入的识别方法,涉及语音识别算法和模型;具有文本处理特征,描对文本输入的处理方法,包括文本分析、关键词提取等;具有实时交互特征,对实时输入的获取和响应能力确保系统的即时性;具有自然语言处理特征,使用自然语言处理技术以提高对文本信息的理解和处理能力。
5.根据权利要求1所述的一种基于语音驱动的可控相似关键帧虚拟人脸视频生成方法以及交互装置,其特征在于:所描述的步骤(4)中,具有语音驱动特征,通过语音来驱动虚拟人脸视频生成和交互的;具有关键帧控制特征,可以生成可控的关键帧,以控制虚拟人脸视频的终结帧外观和动作;具有虚拟人脸视频生成特征,程序的生成算法包括三维建模、动画渲染等技术,以确保虚拟人脸视频的逼真性;具有交互处理特征,与用户进行交互包括语音命令的识别、实时响应等;具有存储与读取特征,程序存储于存储器中,当被生成处理器或交互处理器读取时执行的方式,确保程序在必要时能够有效执行。
6.根据权利要求1所述的一种基于语音驱动的可控相似关键帧虚拟人脸视频生成方法以及交互装置,其特征在于:所描述的步骤(5)中,具有多模态信息处理特征,同时处理图像和音频信息,以提供更综合的虚拟人脸视频生成;具有图像处理特征,对图像信息进行的处理方式包括三维建模、纹理映射等技术;具有音频处理特征,处理音频信息包括语音识别、音频合成等技术,以实现虚拟人脸视频的语音同步;具有实时生成特征,具有实时处理能力,确保在处理图像和音频信息时能够迅速输出虚拟人脸视频。
7.根据权利要求1所述的一种基于语音驱动的可控相似关键帧虚拟人脸视频生成方法以及交互装置,其特征在于:所描述的步骤(6)中,具有多模态信息处理特征,同时处理视频和交互信息,以实现综合的虚拟人交互;具有视频处理特征,对视频信息进行的处理方式包括图像识别、动作识别等技术;具有交互信息处理特征,处理用户的交互信息涉及语音识别、文本分析等技术;具有实时交互特征,实时处理能力,确保在处理视频和交互信息时能够迅速完成虚拟人交互过程。
8.根据权利要求1所述的一种基于语音驱动的可控相似关键帧虚拟人脸视频生成方法以及交互装置,其特征在于:所描述的步骤(7)中,具有多模态交互特征,支持多种交互方式,包括语音、手势、触摸等;具有用户界面设计特征,交互界面的设计包括布局、图标、颜色等,以提高用户体验和交互效率;具有实时交互特征,交互界面具有实时响应能力,确保在用户进行交互时能够迅速提供反馈;具有个性化交互特征,交互界面具有个性化定制的功能,以适应不同用户的交互偏好和需求。
...【技术特征摘要】
1.一种基于语音驱动的可控相似关键帧虚拟人脸视频生成方法以及交互装置。主要包括以下步骤:
2.根据权利要求1所述的一种基于语音驱动的可控相似关键帧虚拟人脸视频生成方法以及交互装置,其特征在于:所描述的步骤(1)中,具有输入接口的特征,与外部设备具有接口特性,确保能够接收待输入的图像信息;具有采集方法特征,采集图像信息的方法可以包括涉及传感器、摄像头、扫描设备等;具有实时性特征,对当前图像信息的实时获取能力,以确保系统对信息的及时响应;具有数据处理特征,对获得的图像信息进行的任何预处理、滤波或其他数据处理步骤;具有形象克隆特征,包括克隆面部特征、头部、纹理映射、处理细节等。
3.根据权利要求1所述的一种基于语音驱动的可控相似关键帧虚拟人脸视频生成方法以及交互装置,其特征在于:所描述的步骤(2)中,具有输入接口的特征,与外部设备具有接口特性,确保能够接收待输入的语音信息;具有采集方法特征,采集语音信息的方法可以包括麦克风、语音文件导入等;具有实时性特征,对当前语音信息的实时获取能力,以确保系统对信息的及时响应;具有数据处理特征,对获得的语音信息进行的任何预处理、滤波或其他数据处理步骤;具有声音克隆特征,包括克隆发音方式、语调、音调、音质等。
4.根据权利要求1所述的一种基于语音驱动的可控相似关键帧虚拟人脸视频生成方法以及交互装置,其特征在于:所描述的步骤(3)中,具有输入多样性特征,能够接收多种输入形式,不限于语音和文本;具有语音识别特征,对语音输入的识别方法,涉及语音识别算法和模型;具有文本处理特征,描对文本输入的处理方法,包括文本分析、关键词提取等;具有实时交互特征,对实时输入的获取和响应能力确保系统的即时性;具有自然语言处理特征,使用自然语言处理技术以提高对文本信息的理解和处理能力。
5.根据权利要求1所述的一种基于语音驱动的可控相似关键帧虚拟人脸视频生成方法以及交互装置,其特征在于:所描述的步骤(4)中,具有语音驱动特征,通过语音来驱动虚拟人脸视频...
【专利技术属性】
技术研发人员:李鹏,李响,刘鑫淼,顾恒文,尹莉莉,
申请(专利权)人:哈尔滨理工大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。