基于人脸识别的数字人客服模拟方法及数字人客服系统技术方案

技术编号：40951632 阅读：2 留言：0更新日期：2024-04-18 20:26

本发明专利技术公开了基于人脸识别的数字人客服模拟方法,包括以下步骤：获取客服人员的视频信息并从视频信息中捕捉客服人员的面部动作和肢体动作，并生成相关的动作数据；然后采用BlendShape算法将动作数据、虚拟人模型和预设的BlendShape动画进行拟合，渲染出带有客服人员面部动作和肢体动作的虚拟人动画；再将虚拟人动画与预设的数字场景进行结合，并加入客服人员的语音信息，形成完整的视频流；最后将视频流推送至用户端的应用程序。本发明专利技术能够有效提高对虚拟人物的嘴部动作拟真度，并减少虚拟人物动画的不规则表情。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及一种虚拟客服生成方法，特别是一种基于人脸识别的数字人客服模拟方法及数字人客服系统。

技术介绍

1、目前的客服系统主要使用语音的呼叫中心技术，可以对接电话、传真、信函web、email、wap、短信、视频等多种方式，其中视频接入则是由客服人员以视频的方式直接面对客户。但由于真人面对客户的方式，对客服人员的样貌、表情、着装等要求较高，使其很难展示统一的企业形象。另一方面，视频通话的方式还容易受到客服人员的情绪影响，从而造成不必要的问题。

2、针对上述问题，目前有企业采用虚拟人物形象代替真人出镜的方式进行视频通话，具体如专利202010146975.0所示，通过摄像头和麦克风采集客服人员的语音、面部表情和嘴型动作，然后通过blendshape动画技术渲染出对应的虚拟人形象。但该虚拟人形象的缺陷在于，由于客服人员在交流时的嘴型变化幅度较大且变化速度较快，使得blendshape动画技术很难准确的根据视频图像渲染出高拟真度的嘴部动作，并容易因前后嘴部动作的变化幅度差异过大导致出现虚拟人物的不规则表情，影响其展示效果。

3、另一方面，由于lipsync动画插件的嘴部动作生成方式是通过分析客服人员的音频信号，提取出音频中的语音特征，再根据语音特征和嘴部运动的关系推算出对应的嘴部动作；导致若是采用lipsync动画插件来代替blendshape动画技术生成虚拟人物的嘴部动作，一方面会存在虚拟人物的嘴部动作与客服人员的真实口型互不对应的情况，从而造成拟真度的下降；另一方面当客服人员的语速较快且前后两个嘴部动作

4、因此，现有对客服人员虚拟人物的生成方式存在嘴部动作拟真度差、虚拟人物容易出现不规则表情的问题。

技术实现思路

1、本专利技术的目的在于，提供一种基于人脸识别的数字人客服模拟方法及数字人客服系统。它能够有效提高对虚拟人物的嘴部动作拟真度，并减少虚拟人物动画的不规则表情。

2、本专利技术的技术方案：基于人脸识别的数字人客服模拟方法，包括以下步骤：

3、①获取客服人员的视频信息并从视频信息中捕捉客服人员的面部动作和肢体动作，并生成相关的动作数据；

4、②采用blendshape算法将动作数据、虚拟人模型和预设的blendshape动画进行拟合，渲染出带有客服人员面部动作和肢体动作的虚拟人动画；

5、③将虚拟人动画与预设的数字场景进行结合，并加入客服人员的语音信息，形成完整的视频流；

6、④将视频流推送至用户端的应用程序。

7、前述的基于人脸识别的数字人客服模拟方法中，所述步骤①中客服人员的面部动作包括客服人员的眉毛动作、嘴部动作和眼睛动作。

8、前述的基于人脸识别的数字人客服模拟方法中，所述步骤②中虚拟人动画在渲染时，将动作数据、虚拟人模型和及对应的blendshape动画传输至服务器，并由服务器进行渲染生成虚拟人动画。

9、前述的基于人脸识别的数字人客服模拟方法中，所述客服人员的嘴部动作和blendshape动画在拟合时，由lipsync插件根据客服人员的语音信息获取客服人员的音频口型数据，并由深度学习模型获取客服人员的人脸口型数据，然后对音频口型数据和人脸口型数据进行拟合，计算出对应的blendshape嘴部动画，再将该blendshape嘴部动画与虚拟人模型进行拟合，生成带有嘴部动作的虚拟人动画。

10、前述的基于人脸识别的数字人客服模拟方法中，所述音频口型数据的获取方法包括以下步骤：

11、a1.通过lipsync插件的声学特征识别数据对元音和预设的blen dshape嘴部动画进行匹配，使每个元音分别对应一个blendshape嘴部动画；

12、a2.对预设的blendshape嘴部动画的口型开合度进行赋值，使每个blendshape嘴部动画均对应一个口型开合度数值；

13、a3.由lipsync插件对客服人员语音信息中的元音进行获取，并根据获取到的元音推算出对应的blendshape嘴部动画及其口型开合度数值，该口型开合度数值即为客服人员的音频口型数据。

14、前述的基于人脸识别的数字人客服模拟方法中，所述人脸口型数据的获取方法包括以下步骤：

15、b1.对不同人脸图像中的开口嘴型的口型开合度进行赋值，并基于人脸图像和口型开合度数值对深度学习模型进行训练，使得深度学习模型能够基于人脸图像中不同开口大小的嘴型推算出对应的口型开合度数值；

16、b2.对客服人员的视频信息进行分解获得客服人员的人脸图像，然后由深度学习模型对人脸图像中的人脸进行识别，得到该人脸图像的口型开合度数值，该型开合度数值即为客服人员的人脸口型数据。

17、前述的基于人脸识别的数字人客服模拟方法中，所述音频口型数据和人脸口型数据的拟合方法包括以下步骤：

18、c1.对预设的blendshape嘴部动画的口型开合度进行数值限定，使blendshape嘴部动画的口型大小随口型开合度的数值进行变化，且各blendshape嘴部动画的口型开合度数值均在拟合范围内；

19、c2.对音频口型数据和人脸口型数据进行拟合，得到口型开合度的拟合值；

20、c3.基于拟合值对预设的blendshape嘴部动画进行选取，选择口型开合度数值与拟合值相同的blendshape嘴部动画作为对应的blendshape嘴部动画。

21、前述的基于人脸识别的数字人客服模拟方法中，所述步骤c2中音频口型数据和人脸口型数据的拟合方法具体为：

22、当音频口型数据和人脸口型数据的口型开合度均在拟合范围内，则口型开合度的拟合值为音频口型数据和人脸口型数据的均值；

23、当音频口型数据和人脸口型数据中任一个的口型开合度在拟合范围内，则以口型开合度在拟合范围内的音频口型数据或人脸口型数据作为口型开合度的拟合值；

24、当音频口型数据和人脸口型数据的口型开合度均不在拟合范围内，则对比拟合范围的端值和音频口型数据、人脸口型数据之间的数值差异度，选择数值差异度更小的拟合范围的端值作为口型开合度的拟合值。

25、基于人脸识别的数字人客服系统，包括呼叫中心模块、文字应答模块、语音应答模块、视频应答模块、视频采集模块、音频采集模块和人脸识别驱动数字人模块；所述人脸识别驱动数字人模块包括人脸识别模块、数据通信模块、表情动作驱动模块、数字人渲染模块、视频推流模块和基础客服模块；

26、其中视频采集模块用于对客服人员的视频信息进行获取；

27、音频采集模块用于对客服人员的语音信息进行获取；

28、人脸识别模块用于对视频信息中的面部动作和肢体动作进行捕捉，生成相关的动作数据；

29、表情动作驱动模块用于对获取到的语音信本文档来自技高网...

【技术保护点】

1.基于人脸识别的数字人客服模拟方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于人脸识别的数字人客服模拟方法，其特征在于：所述步骤①中客服人员的面部动作包括客服人员的眉毛动作、嘴部动作和眼睛动作。

3.根据权利要求1所述的基于人脸识别的数字人客服模拟方法，其特征在于：所述步骤②中虚拟人动画在渲染时，将动作数据、虚拟人模型和及对应的BlendShape动画传输至服务器，并由服务器进行渲染生成虚拟人动画。

4.根据权利要求2所述的基于人脸识别的数字人客服模拟方法，其特征在于：所述客服人员的嘴部动作和BlendShape动画在拟合时，由Lipsync插件根据客服人员的语音信息获取客服人员的音频口型数据，并由深度学习模型获取客服人员的人脸口型数据，然后对音频口型数据和人脸口型数据进行拟合，计算出对应的BlendShape嘴部动画，再将该BlendShape嘴部动画与虚拟人模型进行拟合，生成带有嘴部动作的虚拟人动画。

5.根据权利要求4所述的基于人脸识别的数字人客服模拟方法，其特征在于,所述音频口型数据的获取方法包括以下步骤：</p>

6.根据权利要求5所述的基于人脸识别的数字人客服模拟方法，其特征在于,所述人脸口型数据的获取方法包括以下步骤：

7.根据权利要求6所述的基于人脸识别的数字人客服模拟方法，其特征在于,所述音频口型数据和人脸口型数据的拟合方法包括以下步骤：

8.根据权利要求7所述的基于人脸识别的数字人客服模拟方法，其特征在于：所述步骤C2中音频口型数据和人脸口型数据的拟合方法具体为：

9.基于人脸识别的数字人客服系统，其特征在于：包括呼叫中心模块、文字应答模块、语音应答模块、视频应答模块、视频采集模块、音频采集模块和人脸识别驱动数字人模块；所述人脸识别驱动数字人模块包括人脸识别模块、数据通信模块、表情动作驱动模块、数字人渲染模块、视频推流模块和基础客服模块；

...

【技术特征摘要】

1.基于人脸识别的数字人客服模拟方法，其特征在于，包括以下步骤：

3.根据权利要求1所述的基于人脸识别的数字人客服模拟方法，其特征在于：所述步骤②中虚拟人动画在渲染时，将动作数据、虚拟人模型和及对应的blendshape动画传输至服务器，并由服务器进行渲染生成虚拟人动画。

4.根据权利要求2所述的基于人脸识别的数字人客服模拟方法，其特征在于：所述客服人员的嘴部动作和blendshape动画在拟合时，由lipsync插件根据客服人员的语音信息获取客服人员的音频口型数据，并由深度学习模型获取客服人员的人脸口型数据，然后对音频口型数据和人脸口型数据进行拟合，计算出对应的blendshape嘴部动画，再将该blendshape嘴部动画与虚拟人模型进行拟合，生成带...

【专利技术属性】
技术研发人员：危明，李民，刘凡，
申请(专利权)人：易视腾科技股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人