一种基于大模型的5G视频营销实时互动系统及方法技术方案

技术编号：41198638 阅读：3 留言：0更新日期：2024-05-07 22:26

本发明专利技术公开了一种基于大模型的5G视频营销实时互动系统，包括：接听模块，用于实时接听用户的语音电话，并记录语音内容；语音转文本模块，用于通过ASR技术将语音内容转成文本内容；大语言模型模块，用于建立大语言模型，对文本内容进行分析，生成互动内容；文本转语音模块，用于通过TTS技术将互动内容转成语音数据；人物动画生成模块，用于将语音数据匹配到视频素材中；互动模块，用于向用户播放将语音数据匹配到视频素材后的实时视频。还公开了一种基于大模型的5G视频营销实时互动方法。当用户主动拨打电话进来时，达到和用户实时互动的功能。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及一种基于大模型的5g视频营销实时互动系统及方法。

技术介绍

1、5g新通话除高清音视频之外，还将为用户提供更丰富的实时交互业务，并以多媒体实时通信平台为中心，基于统一开放的网络架构，实现创新业务的敏捷开发和快速部署。

2、随着通信技术的迅速发展，自动外呼服务被广泛应用于各个领域：在教育培训行业，利用自动外呼可将相关课程信息迅速有效地传播给客户；在金融行业，自动外呼可用于电话催收、还款提醒、银行业务外呼等场景。自动外呼是指自动往外拨打客户电话，将录制好的语音播放给客户，以此由机器代替人工完成信息提醒、确认、交互操作，自动外呼通过对历史数据分析，能够有计划、有针对性地对客户进行外呼，从而有效的了解客户情况、意见及需求。但未存在当有客户主动打电话过来寻求帮助时，根据客户的需求，回答问题，且无法准确的理解客户的问答的意思，无法由机器代替人工完成回答问题、交互操作；因此，提供一种基于大模型的5g视频营销实时互动系统及方法。

技术实现思路

1、本专利技术的目的在于克服现有的缺陷而提供的一种基于大模型的5g视频营销实时互动系统及方法，当用户主动拨打电话进来时，达到和用户实时互动的功能。

2、实现上述目的的技术方案是：

3、本专利技术之一的一种基于大模型的5g视频营销实时互动系统，包括：

4、接听模块，用于实时接听用户的语音电话，并记录语音内容；

5、语音转文本模块，用于通过asr(自动语音识别技术)技术将语音内容转成文本内容；

6、大语言模型模块，用于建立大语言模型，对文本内容进行分析，生成互动内容；

7、文本转语音模块，用于通过tts(语音合成技术)技术将互动内容转成语音数据；

8、人物动画生成模块，用于将语音数据匹配到视频素材中；

9、互动模块，用于向用户播放将语音数据匹配到视频素材后的实时视频。

10、优选的，还包括：

11、资料库，用于存放内部数据及资料；

12、数据库，用于存放视频素材。

13、优选的，所述大语言模型模块包括：

14、训练单元，用于通过之前客户的提问的问题以及内部数据及资料训练大语言模型；

15、生成单元，用于通过训练好的大语言模型结合内部数据及资料对文本内容进行分析，生成互动内容。

16、优选的，所述文本转语音模块包括：

17、内容分析单元，用于对生成的互动内容进行文本分析；

18、决策单元，用于对分析后的文本内容进行上下文相关序列决策，生成语音参数；

19、合成单元，用于将生成的语音参数合成整条语音。

20、优选的，所述人物动画生成模块包括：

21、视频获取单元，用于根据语音数据在所述数据库提取相对应的视频素材；

22、音频匹配单元，用于将语音数据与提取的视频中的动画人像进行匹配，通过动画人像对语音数据进行实时播报。

23、优选的，所述音频匹配单元中，卷积神经网络首先提取驱动语音数据的特征以及视频中人像面部特征；依据驱动语音数据特征，为每一帧生成符合该帧的嘴部运动系数，运动系数结合人像面部特征模拟动画人物说话。

24、本专利技术之二的一种基于大模型的5g视频营销实时互动方法，包括：

25、步骤s1，接听用户的语音电话，并记录语音内容；

26、步骤s2，通过asr技术将语音内容转成文本内容；

27、步骤s3，通过大语言模型，对文本内容进行分析，生成互动内容；

28、步骤s4，通过tts技术将互动内容转成语音数据；

29、步骤s5，将语音数据于提取的视频中的动画人物嘴型进行匹配，生成音视频；

30、步骤s6，将音视频实时播放给用户。

31、优选的，所述步骤s5包括：

32、步骤s51，通过语音数据提取对应的视频素材；

33、步骤s52，通过卷积神经网络提取驱动语音数据的特征以及视频中人像面部特征；

34、步骤s53，依据驱动语音数据特征，为每一帧生成符合该帧的嘴部运动系数；

35、步骤s54，运动系数结合人像面部特征模拟动画人物说话，生成音视频。

36、本专利技术的有益效果是：本专利技术通过视频电话的通信功能，可以实时接收到接听电话的用户语音，再将语音通过asr技术转成文本内容后，通过大语言模型生成对用户的具体互动内容，最后通过tts技术生成语音数据，配合其他视频素材一起播放到用户端，达到和用户实时互动的功能。

本文档来自技高网...

【技术保护点】

1.一种基于大模型的5G视频营销实时互动系统，其特征在于，包括：

2.根据权利要求1所述的一种基于大模型的5G视频营销实时互动系统，其特征在于，还包括：

3.根据权利要求2所述的一种基于大模型的5G视频营销实时互动系统，其特征在于，所述大语言模型模块包括：

4.根据权利要求1所述的一种基于大模型的5G视频营销实时互动系统，其特征在于，所述文本转语音模块包括：

5.根据权利要求2所述的一种基于大模型的5G视频营销实时互动系统，其特征在于，所述人物动画生成模块包括：

6.根据权利要求5所述的一种基于大模型的5G视频营销实时互动系统，其特征在于，所述音频匹配单元中，卷积神经网络首先提取驱动语音数据的特征以及视频中人像面部特征；依据驱动语音数据特征，为每一帧生成符合该帧的嘴部运动系数，运动系数结合人像面部特征模拟动画人物说话。

7.一种基于大模型的5G视频营销实时互动方法，其特征在于，包括：

8.根据权利要求7所述的一种基于大模型的5G视频营销实时互动方法，其特征在于，所述步骤S5包括：

【技术特征摘要】

1.一种基于大模型的5g视频营销实时互动系统，其特征在于，包括：

2.根据权利要求1所述的一种基于大模型的5g视频营销实时互动系统，其特征在于，还包括：

3.根据权利要求2所述的一种基于大模型的5g视频营销实时互动系统，其特征在于，所述大语言模型模块包括：

4.根据权利要求1所述的一种基于大模型的5g视频营销实时互动系统，其特征在于，所述文本转语音模块包括：

5.根据权利要求2所述的一种基于大模型的5g视频营销实时互动系统，其特征在于，...

【专利技术属性】
技术研发人员：李少渤，李鹏，林木森，
申请(专利权)人：甜新科技上海有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人