一种基于制造技术

技术编号:39667350 阅读:7 留言:0更新日期:2023-12-11 18:31
本发明专利技术提供一种基于

【技术实现步骤摘要】
一种基于AI的音视频传输方法及装置


[0001]本专利技术属于通信
,具体而言属于一种基于
AI
的音视频传输方法及装置


技术介绍

[0002]音视频传输在软件应用上是一项非常重要的传输形式,但目前音视频基本通过压缩传输,压缩传输不仅会导致画质和音质受损,同时,音视频文件的信息容量较大,通过压缩传输时间较长

[0003]有鉴于此,特提出本专利技术


技术实现思路

[0004]有鉴于此,本专利技术公开了一种基于
AI
的音视频传输方法及装置,用以解决现有音视频传输时间长,音视频画质和音质受损的问题

[0005]具体的,本专利技术是通过以下技术方案实现的:
[0006]第一方面,本专利技术公开了一种基于
AI
的音视频传输方法,包括如下步骤:
[0007]采集音视频数据,通过智能
AI
识别引擎将所述音视频数据生成对应的信息描述文本;
[0008]在相同带宽下传输所述信息描述文本;
[0009]智能
AI
生成引擎根据神经网络模型将所述信息描述文本转换为语音和视频并输出

[0010]进一步地,所述信息描述文本包括语言描述文本和图像描述文本

[0011]进一步地,所述语言描述文本转换为语音的方法包括:
[0012]将所述信息描述文本输入至文本分析器中,形成音素序列;
[0013]将所述音素序列输出至所述预生成的神经网络语言和
/
或自定义神经网络语言中,预测定义语音信号的声学特征;
[0014]神经网络声码器将所述声学特征转化为可听见的波形,进而合成语音;
[0015]其中,对于
10
分钟以上的所述语言描述文本,使用批量合成
API
进行异步合成

[0016]进一步地,所述图像描述文本转换为视频的方法包括:
[0017]将所述图像描述文本输入至文本特征提取器内,转换为高维向量;
[0018]根据所述高维向量训练视频生成器并生成对应的视频

[0019]进一步地,所述神经网络模型包括文本特征提取子网络

文本特征向视频潜空间扩散模型和视频潜空间到视频视觉空间

[0020]进一步地,所述音视频数据包括音频数据和视频数据;
[0021]所述音频数据包括音频文件的
URL、
用于转录的语言模型

输出格式

音频文件的语言代码

音频文件的采样率和音频文件的通道数;
[0022]所述视频数据包括视频对象

地理位置和动作捕获分析数据

[0023]进一步地,所述信息描述文本的生成方法包括:
[0024]对于视频文件进行帧级别

镜头级别和视频级别识别视频元数据采集,根据流式视频和对象的事件触发实时获取洞察数据

[0025]第二方面,本专利技术公开了一种基于
AI
的音视频传输装置,包括:
[0026]描述文本模块:采集音视频数据,通过智能
AI
识别引擎将所述音视频数据生成对应的信息描述文本;
[0027]数据传输模块:在相同带宽下传输所述信息描述文本;
[0028]音视频生成模块:智能
AI
生成引擎根据神经网络模型将所述信息描述文本转换为语音和视频并输出

[0029]第三方面,本专利技术公开了一种计算机可读存储介质,其上存储有计算机程序所述程序被处理器执行时实现如第一方面所述基于
AI
的音视频传输方法的步骤

[0030]第四方面,本专利技术公开了一种计算机设备,包括存储器,处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如第一方面所述基于
AI
的音视频传输方法的步骤

[0031]与现有技术相比,本专利技术的有益效果在于:
[0032]本专利技术提出的基于
AI
的音视频传输方法及装置,通过将音视频数据转化为文本数据进行传输的方式,不受音视频数据大小的限制,同时,本专利技术的音视频传输方法对于音视频的画质和音质没有损耗;传输快,传输时间较传统压缩方式的传输时间少,延迟时间能够降低至一次网络往返时间与语音合成服务的第一个音频区块延迟时间之和

附图说明
[0033]通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了

附图仅用于示出优选实施方式的目的,而并不认为是对本专利技术的限制

而且在整个附图中,用相同的参考符号表示相同的部件

在附图中:
[0034]图1为本专利技术实施例提供的一种
AI
的音视频传输方法流程图;
[0035]图2为本专利技术实施例提供的一种
AI
的音视频传输方法操作流程图;
[0036]图3为本专利技术实施例提供的一种
AI
的音视频传输装置示意图;
[0037]图4为本专利技术实施例提供的一种计算机设备的结构示意图

具体实施方式
[0038]下面将结合附图和具体实施方式对本专利技术的技术方案进行清楚

完整地描述,但是本领域技术人员将会理解,下列所描述的实施例是本专利技术一部分实施例,而不是全部的实施例,仅用于说明本专利技术,而不应视为限制本专利技术的范围

基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围

[0039]为了更加清晰的对本专利技术中的技术方案进行阐述,下面以具体实施例的形式进行说明

[0040]实施例
[0041]参照图1所示,本专利技术公开了一种基于
AI
的音视频传输方法,包括如下步骤:
[0042]采集音视频数据,通过智能
AI
识别引擎将所述音视频数据生成对应的信息描述文
本;
[0043]在相同带宽下传输所述信息描述文本;
[0044]智能
AI
生成引擎根据神经网络模型将所述信息描述文本转换为语音和视频并输出

[0045]本专利技术实际操作按照如下流程,参阅图2所示,具体表现为:
[0046]通过
AV
设备采集音频数据和视频数据;
[0047]通过
OpenAI

TranscriptionAPI

Google Cloud
的视频智能
API本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种基于
AI
的音视频传输方法,其特征在于,包括以下步骤:采集音视频数据,通过智能
AI
识别引擎将所述音视频数据生成对应的信息描述文本;在相同带宽下传输所述信息描述文本;智能
AI
生成引擎根据神经网络模型将所述信息描述文本转换为语音和视频并输出
。2.
根据权利要求1所述的音视频传输方法,其特征在于,所述信息描述文本包括语言描述文本和图像描述文本
。3.
根据权利要求2所述的音视频传输方法,其特征在于,所述语言描述文本转换为语音的方法包括:将所述信息描述文本输入至文本分析器中,形成音素序列;将所述音素序列输出至所述预生成的神经网络语言和
/
或自定义神经网络语言中,预测定义语音信号的声学特征;神经网络声码器将所述声学特征转化为可听见的波形,进而合成语音;其中,对于
10
分钟以上的所述语言描述文本,使用批量合成
API
进行异步合成
。4.
根据权利要求2所述的音视频传输方法,其特征在于,所述图像描述文本转换为视频的方法包括:将所述图像描述文本输入至文本特征提取器内,转换为高维向量;根据所述高维向量训练视频生成器并生成对应的视频
。5.
根据权利要求1所述的音视频传输方法,其特征在于,所述神经网络模型包括文本特征提取子网络

文本特征向视频潜空间扩散模型和视频潜空间到视频视觉空间
。6.
根据权利要求1所述的音视频传输方法,其特征在于,所述音视频数据包括音频数据...

【专利技术属性】
技术研发人员:陈亚刚封昌俊胡爽邵雪娇
申请(专利权)人:上海金桥信息股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1