基于人工智能的字幕生成方法、装置、设备及存储介质制造方法及图纸

技术编号:26376497 阅读:22 留言:0更新日期:2020-11-19 23:45
本发明专利技术涉及人工智能领域,公开了一种基于人工智能的字幕生成方法、装置、设备及存储介质。该方法包括:获取待生成字幕的视频数据,其中,视频数据包括:时间序列、时间序列对应的语音数据、时间序列对应的图像数据;读取语音语言种类和目标语言种类,以及调取语音语言种类对应的机器学习转换算法,对语音数据进行转换处理,生成目标语言种类的字符串数据,其中,字符串数据包括:文字字符串、文字字符串对应的声纹标签序列;根据声纹标签序列中的标签种类,对文字字符串进行染色处理,生成声纹标签序列对应的目标语言染色字幕;根据时间序列,将目标语言染色字幕与图像数据进行合并处理,生成附带字幕的视频数据。

【技术实现步骤摘要】
基于人工智能的字幕生成方法、装置、设备及存储介质
本专利技术涉及人工智能领域,尤其涉及一种基于人工智能的字幕生成方法、装置、设备及存储介质。
技术介绍
自人工智能在最后的棋牌领域围棋战胜了人类的最强选手以来,人工智能就不断受到人们的关注,从最开始的CNN神经网络到SSD神经网络,再到GAN神经网络。人工智能的技术在各种细分场景下不断应用,不同的神经网络涌现了各种不同的技术,各种改进算法给人工智能领域添砖加瓦。在移动支付领域,人脸识别的精准度和速度不断提高,人脸识别技术已经在高精度情况下迁移至安全防护领域比现有的虹膜识别有更广阔的应用场景。在自动驾驶领域,人工智能不断刷新人们对智能驾驶的认知,一幅幅科幻场景正在变成现实,传统基于统计学与分类的驾驶辅助技术正在被基于线性代数的人工智能辅助技术不断代替。然而在字幕领域中,现有的字幕生成技术还是基于传统的统计学与概率对声纹进行处理,生成字幕。不仅导致字幕的生成准确度不够,而且处理方式上,是直接将声纹转换成文字,然后将文字翻译为需要的文字。目前,也存在一些基于人工智能的字幕生成技术,但是处理上也是本文档来自技高网...

【技术保护点】
1.一种基于人工智能的字幕生成方法,其特征在于,包括步骤:/n获取待生成字幕的视频数据,其中,所述视频数据包括:时间序列、所述时间序列对应的语音数据、所述时间序列对应的图像数据;/n读取语音语言种类和目标语言种类,以及调取所述语音语言种类和所述目标语言种类对应的机器学习转换算法,对所述语音数据进行转换处理,生成所述目标语言种类的字符串数据,其中,所述字符串数据包括:文字字符串、所述文字字符串对应的声纹标签序列;/n根据所述声纹标签序列中的标签种类,对所述文字字符串进行染色处理,生成所述声纹标签序列对应的目标语言染色字幕;/n根据所述时间序列,将所述目标语言染色字幕与所述图像数据进行合并处理,生...

【技术特征摘要】
1.一种基于人工智能的字幕生成方法,其特征在于,包括步骤:
获取待生成字幕的视频数据,其中,所述视频数据包括:时间序列、所述时间序列对应的语音数据、所述时间序列对应的图像数据;
读取语音语言种类和目标语言种类,以及调取所述语音语言种类和所述目标语言种类对应的机器学习转换算法,对所述语音数据进行转换处理,生成所述目标语言种类的字符串数据,其中,所述字符串数据包括:文字字符串、所述文字字符串对应的声纹标签序列;
根据所述声纹标签序列中的标签种类,对所述文字字符串进行染色处理,生成所述声纹标签序列对应的目标语言染色字幕;
根据所述时间序列,将所述目标语言染色字幕与所述图像数据进行合并处理,生成附带字幕的视频数据。


2.根据权利要求1所述的基于人工智能的字幕生成方法,其特征在于,所述调取所述语音语言种类对应的机器学习转换算法,对所述语音数据进行转换处理,生成所述目标语言种类的字符串数据包括:
对所述语音数据的声纹特征进行提取,生成所述语音数据对应的特征矩阵;
根据所述语音语言种类,调取所述语音语言种类对应的识别算法,以及根据所述识别算法,对所述特征矩阵进行识别处理,得到文字字符串;
根据所述时间序列,将所述文字字符串与所述特征矩阵进行嵌入处理,得到标签特征矩阵;
根据所述语音语言种类,调取所述语音语言种类对应的声纹分类算法,以及根据所述声纹分类算法,对所述标签特征矩阵进行分类标记处理,得到所述文字字符串对应的声纹标签序列;
将所述声纹标签序列与所述文字字符串进行组合处理,得到字符串数据。


3.根据权利要求2所述的基于人工智能的字幕生成方法,其特征在于,所述根据所述识别算法,对所述特征矩阵进行识别处理,得到文字字符串包括:
将所述特征矩阵与预置初始矩阵进行卷积处理,得到第一识别矩阵;
对所述第一识别矩阵进行分批归一化处理,得到第二识别矩阵;
对所述第二识别矩阵进行映射转换处理,得到第三识别矩阵;
将所述第三识别矩阵与预置深度矩阵进行卷积处理,得到第四识别矩阵;
根据预置激活函数,对所述第四识别矩阵进行激活判定,得到文字字符串。


4.根据权利要求2所述的基于人工智能的字幕生成方法,其特征在于,所述根据所述声纹分类算法,对所述标签特征矩阵进行分类标记处理,得到所述文字字符串对应的声纹标签序列包括:
将所述标签特征矩阵代入预置第一期望函数中,得到第一期望值集,并将所述标签特征矩阵代入预置第二期望函数中,得到第二期望值集;
根据所述文字字符串的排序,对所述第一期望值集和所述第二期望值集进行极大极小运算,得到极大极小值集;
依次将所述极大极小值集中的数值与预置分类区间进行比对,得到所述文字字符串对应的声纹标签序列。


5.根据权利要求4所述的基于人工智能的字幕生成方法,其特征在于,所述依次将所述极大极小值集中的数值与预置分类区间进行比对,得到所述文字字符串对应的声纹标签序列包括:
将所述极大极...

【专利技术属性】
技术研发人员:冯奕然冯英林
申请(专利权)人:深圳前海知行科技有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1