一种基于视频大数据的音频转视频的方法技术

技术编号：24456169 阅读：23 留言：0更新日期：2020-06-10 15:37

本发明专利技术公开了一种基于视频大数据的音频转视频的方法，具体步骤为：用户输入一段音频信息；使用语音识别技术将语音提取为文本信息；利用人工智能自然语言处理技术，对提取的文本信息进行关键字识别与提取；使用深度学习技术识别音频信息；利用深度学习技术，基于视频理解，对视频大数据集自动打标签；在视频大数据集标签系统中，进行标签检索匹配，输出匹配度高的视频数据；将提取出的文本信息生成为字幕信息；将视频、字幕、音频合并，生成推荐视频；本发明专利技术能够将用户输入的音频转化成相应的视频内容，极大地减少人工合成视频的时间成本，提高内容创作效率。

A method of audio to video based on video big data

全部详细技术资料下载

【技术实现步骤摘要】
一种基于视频大数据的音频转视频的方法
本专利技术涉及媒资管理
，具体涉及一种基于视频大数据的音频转视频的方法。
技术介绍
对于内容生产者来说，音频信息由于其语音特性，无法向用户提供直观的画面信息，不利于用户对于信息内容的理解接受，而传统的人工转视频方法需要人为收集、浏览、标记大量的视频数据，再从中选出一些跟音频信息相匹配的片段来，耗费了巨大的时间与精力。
技术实现思路
本专利技术的目的在于针对现有技术的缺陷和不足，提供一种基于视频大数据的音频转视频的方法，可以从海量的已有视频数据中，自动匹配选取合适的视频片段，将音频快速转换为相应的视频内容，给用户更强的视觉冲击力和听觉体验，将作者表示的信息以更生动、丰满、直观的形象传达给用户。为实现上述目的，本专利技术采用的技术方案是：它包含如下步骤：一、用户输入一段音频信息；二、使用语音识别技术将音频内容提取为文本信息；三、利用人工智能自然语言处理技术，对提取的文本信息进行关键字识别与提取；四、使用深度学习技术识别音频信息；五、利用深度学习技术，基于视频理解，对视频大数据集自动打标签；六、在视频大数据集标签系统中，进行标签检索匹配，输出匹配度高的视频数据；七、将步骤二提取出的文本信息生成为视频字幕；八、将视频、字幕、音频合并渲染，生成推荐视频。进一步地，步骤二中的语音识别技术采用深度神经网络技术；进一步地，步骤三的具体方法是：通过embedding层技术得到字或者词向...

【技术保护点】
1.一种基于视频大数据的音频转视频的方法，其特征在于它包含如下步骤：/n一、用户输入一段音频信息；/n二、使用语音识别技术将音频内容提取为文本信息；/n三、利用人工智能自然语言处理技术，对提取的文本信息进行关键字识别与提取；/n四、使用深度学习技术识别音频信息；/n五、利用深度学习技术，基于视频理解，对视频大数据集自动打标签；/n六、在视频大数据集标签系统中，进行标签检索匹配，输出匹配度高的视频数据；/n七、将步骤二提取出的文本信息生成为视频字幕；/n八、将视频、字幕、音频合并渲染，生成推荐视频。/n

【技术特征摘要】
1.一种基于视频大数据的音频转视频的方法，其特征在于它包含如下步骤：
一、用户输入一段音频信息；
二、使用语音识别技术将音频内容提取为文本信息；
三、利用人工智能自然语言处理技术，对提取的文本信息进行关键字识别与提取；
四、使用深度学习技术识别音频信息；
五、利用深度学习技术，基于视频理解，对视频大数据集自动打标签；
六、在视频大数据集标签系统中，进行标签检索匹配，输出匹配度高的视频数据；
七、将步骤二提取出的文本信息生成为视频字幕；
八、将视频、字幕、音频合并渲染，生成推荐视频。

2.根据权利要求1所述的一种基于视频大数据的音频转视频的方法，其特征在于步骤二中的语音识别技术采用深度神经网络技术。

3.根据权利要求1所述的一种基于视频大数据的音频转视频的方法，其特征在于步骤三的具体方法是：通过embedding层技术得到字或者词向量，输入双向LSTM，经由SoftMax隐藏层计...

【专利技术属性】
技术研发人员：康洪文，
申请(专利权)人：杭州慧川智能科技有限公司，
类型：发明
国别省市：浙江;33

全部详细技术资料下载我是这个专利的主人