一种应用于3D数字人的远程音频通话服务的实现方法技术

技术编号：41255113 阅读：8 留言：0更新日期：2024-05-11 09:15

本发明专利技术提供一种应用于3D数字人的远程音频通话服务的实现方法，属于语音处理技术领域，本发明专利技术在现有方案的基础上升级，引入RTC服务方案。能够实现与客户进行一对一的交流，并让服务端为用户提供答复。对于具有特殊口音或方言的用户群体，将配备相应地区的人工服务，以确保客户能够得到满意的服务体验。这使得数字人口型能够栩栩如生地呈现远程音频所传达的情感和内容。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及语音处理，尤其涉及一种应用于3d数字人的远程音频通话服务的实现方法。

技术介绍

1、目前市面上存在的虚拟数字人大可按技术实现方式分为两类：2d以及3d数字人。不论数字人端使用哪种技术路线，后台大多数接入的是gpt大模型、知识库、闲聊等方案进行智能问答，涉及到专业领域或特殊群体无法给予清晰又准确的答复。或许可以使用数字人+rtc音频通话的方式，实现工作人员通过扮演数字人角色，与客户群体进行一对一的实时交互。既然要以虚拟数字人的身份，交谈过程中带给用户的视觉体验一定要真实，那么最起码要进行数字人口型的驱动，需要对输出的声音及数字人口型进行精准匹配。

2、受asr技术和nlp技术发展限制，我们面临着系统难以准确识别特殊用户群体(如方言和口音)所表达内容的挑战。由此带来的影响包括系统无法准确查找对应答案，以及在特定领域和高深度问题上的理解能力有限，导致无法提供准确答案。这使得现有虚拟数字人方案难以高效地满足部分用户群体的需求。

技术实现思路

1、为了解决以上技术问题，本专利技术提供了一种应用于3d数字人的远程音频通话服务的实现方法。

2、本专利技术的技术方案是：

3、一种应用于3d数字人的远程音频通话服务的实现方法，包括如下步骤：

4、(1)客户端应用在启动时连接websocket坐席服务，并在连接成功时上报基础信息，并预先初始化rtc服务相关内容，后续仅需进行加入房间/退出房间操作即可；

5、座席端加载完成时连接websocket坐席服务；

6、(2)客户端在正常使用时处于问答模式；若对回答内容存在疑问，希望进一步寻求服务时可主动转接至人工服务；根据用户话术，可转接至指定座席端；

7、(3)当客户端发起转人工指令后，调用问答接口识别出用户意图为转人工服务后，向websocket服务获取在线坐席列表，根据用户话术判断出其意向转向的坐席id，由websocket服务转发给指座席端人员；座席端将弹出通话请求，等待坐席人员接听；

8、(4)坐席人员可以选择挂断或接听；

9、(5)待用户的疑问得到解决后，进行主动挂断；挂断后，websocket服务端将通知客户端退出房间。

10、进一步的，

11、可将数字人客户端和座席端可打包成安卓应用、ios应用、windows应用。

12、进一步的，

13、websocket消息交互格式及内容可自行定义

14、再进一步的，

15、如果坐席人员挂断或无在线坐席人员，则websocket服务端将向客户端返回相应提示；

16、如果坐席人员选择接听，则websocket服务端将分发房间号，邀请双方进入通话房间，即可开始通话。

17、再进一步的，

18、搭建时

19、(1)unity导入第三方unityrtc资源包；

20、(2)新建场景，导入数字人模型并挂载口型插件。

21、口型插件：口型插件基于unity里的audiosource，读取audiosource内部容器audioclip，播放时进行实时音素匹配，调整模型相应的blendshape从而达到口型驱动。

22、初始化配置时屏蔽sdk内部音频源，远端回调会定频回传远端人员音频源数据；加入房间后获得远端第一帧音频回调时创建audioclip，赋值给audiosource并调用play()开始播放，后续接收到的每一帧数据往audioclip里添加,边添加边播放，从而达到流式播放的效果。

23、(3)使用rtc-api，进行初始化引擎，加入房间操作，声明加入房间后获取远端音频回调，并挂载到数字人模型上。

24、(4)待客户端加入后通知座席端加入房间双方即可进行通话。

25、座席端可以制作成网页或手机app形式。

26、本专利技术的有益效果是

27、(1)沟通更生动:通过让座席端的语音内容以数字人口型式表达出来，可以使远程音频通话更加生动和亲切。这有助于增强用户体验，使通话更具互动性。

28、(2)多样性和个性化:你的应用可以允许客户选择不同的数字人口型来代表他们自己，或者让座席选择不同的数字人口型来增加个性化。这可以为用户提供更多的选择和自定义选项。

29、(3)跨语言通信:如果数字人口型能够以多种语言表达，这将有助于跨语言通信。这对于国际业务或多语种客户群体来说可能非常有用。

30、(4)节省成本:通过使用数字人口型，可以减少需要实际座席参与的数量，从而降低成本。这对于企业来说可能是一项经济效益。

31、(5)增强品牌形象:如果应用能够以独特和创新的方式提供远程音频通话服务，有助于增强品牌形象，并吸引更多用户。

本文档来自技高网...

【技术保护点】

1.一种应用于3D数字人的远程音频通话服务的实现方法，其特征在于，

2.根据权利要求1所述的方法，其特征在于，

3.根据权利要求1所述的方法，其特征在于，

4.根据权利要求1所述的方法，其特征在于，

5.根据权利要求1所述的方法，其特征在于，

6.根据权利要求5所述的方法，其特征在于，

7.根据权利要求6所述的方法，其特征在于，

8.根据权利要求5所述的方法，其特征在于，

【技术特征摘要】

1.一种应用于3d数字人的远程音频通话服务的实现方法，其特征在于，

2.根据权利要求1所述的方法，其特征在于，

3.根据权利要求1所述的方法，其特征在于，

4.根据权利要求1所述的方法，其特征在...

【专利技术属性】
技术研发人员：赵鹏飞，王元强，王培元，修志远，王茂帅，房兰涛，
申请(专利权)人：浪潮智能终端有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人