基于人工智能的字幕提取方法、装置、设备和存储介质制造方法及图纸

技术编号:33134755 阅读:17 留言:0更新日期:2022-04-17 00:58
本发明专利技术提供了一种基于人工智能的字幕提取方法、装置、设备和存储介质,包括:获取目标文本框图像;将目标文本框图像输入至训练好的识别模型,以识别得到目标文本框图像中的目标文本,识别模型包括文本图像信息提取网络、语言模型信息提取网络和联合前馈神经网络,文本图像信息提取网络由样本文本框图像预训练得到,语言模型信息提取网络由样本视频文本预训练得到,联合前馈神经网络用于将两者提取网络在预训练之后的权重参数进行结合。本发明专利技术能够将文本图像信息提取和语言模型信息提取的结果通过联合前馈神经网络将二者结合,弥补CTC条件独立性假设带来的问题,在预测时能够利用图像纹理特征和语言特征,减少了替换错误,提高了文字识别准确度。高了文字识别准确度。高了文字识别准确度。

【技术实现步骤摘要】
基于人工智能的字幕提取方法、装置、设备和存储介质


[0001]本专利技术实施例涉及但不限于人工智能
,尤其涉及一种基于人工智能的字幕提取方法、字幕提取装置、计算机设备和计算机可读存储介质。

技术介绍

[0002]对于视频字幕的提取过程,主要包括文本框位置提取和文本框内的文字识别。其中,对于文本框位置提取,可以通过DB算法来实现;另外,对于文本框内的文字识别,当前文字检测识别的方法通常采用较为普遍的CRNN和CTC的方法。由于CTC会假设当前的输出与历史输出之间的条件独立性,从而没有很好的挖掘字幕语句中的上下文关系,因此有可能会导致文字识别出错,影响文字识别的准确度。

技术实现思路

[0003]以下是对本文详细描述的主题的概述。本概述并非是为了限制权利要求的保护范围。
[0004]本专利技术实施例提供了一种基于人工智能的字幕提取方法、字幕提取装置、计算机设备和计算机可读存储介质,能够弥补CTC这种条件独立性假设带来的问题,提高视频字幕文字识别的准确度。
[0005]第一方面,本专利技术实施例提供了一种基于人工智能的字幕提取方法,包括:
[0006]获取目标文本框图像;
[0007]将所述目标文本框图像输入至训练好的识别模型,其中,训练好的所述识别模型包括文本图像信息提取网络、语言模型信息提取网络和联合前馈神经网络,所述文本图像信息提取网络由样本文本框图像预训练得到,所述语言模型信息提取网络由样本视频文本预训练得到,所述联合前馈神经网络用于将所述文本图像信息提取网络和所述语言模型信息提取网络在预训练之后的权重参数进行结合,所述权重参数包括所述文本图像信息提取网络的图像纹理特征信息以及所述语言模型信息提取网络的语言特征信息;
[0008]通过所述识别模型基于所述图像纹理特征信息和所述语言特征信息对所述目标文本框图像进行识别,以输出得到所述目标文本框图像中的目标文本。
[0009]在一些实施例中,所述获取目标文本框图像,包括:
[0010]获取目标视频,并从所述目标视频中提取出若干帧目标图像;
[0011]基于DB算法对所述目标图像进行文本框提取,以提取得到所述目标图像中的目标文本框图像。
[0012]在一些实施例中,所述文本图像信息提取网络包括第一LSTM网络、第二LSTM网络和第三LSTM网络,其中,所述第一LSTM网络、所述第二LSTM网络、所述第三LSTM网络和所述联合前馈神经网络依次连接,所述第一LSTM网络和所述第二LSTM网络的层数均为六层,所述第三LSTM网络的层数为两层。
[0013]在一些实施例中,所述语言模型信息提取网络包括Google Bert网络和第四LSTM
网络,其中,所述Google Bert网络、所述第四LSTM网络和所述联合前馈神经网络依次连接,所述第四LSTM网络的层数为两层。
[0014]在一些实施例中,当目标文本框图像为多个,所述目标文本对应为多个,在所述通过所述识别模型基于所述图像纹理特征信息和所述语言特征信息对所述目标文本框图像进行识别,以输出得到所述目标文本框图像中的目标文本之后,所述字幕提取方法还包括:
[0015]获取所述目标文本框图像在目标视频中的时间信息;
[0016]根据所述时间信息,按照时间先后顺序对多个所述目标文本进行排序;
[0017]当相邻的两个所述目标文本的内容一致并且相邻的两个所述目标文本之间的间隔时间小于预设间隔时,删去相邻的两个所述目标文本中的其中一个。
[0018]第二方面,本专利技术实施例还提供了一种字幕提取装置,包括:
[0019]图像获取单元,用于获取目标文本框图像;
[0020]图像输入单元,用于将所述目标文本框图像输入至训练好的识别模型,其中,训练好的所述识别模型包括文本图像信息提取网络、语言模型信息提取网络和联合前馈神经网络,所述文本图像信息提取网络由样本文本框图像预训练得到,所述语言模型信息提取网络由样本视频文本预训练得到,所述联合前馈神经网络用于将所述文本图像信息提取网络和所述语言模型信息提取网络在预训练之后的权重参数进行结合,所述权重参数包括所述文本图像信息提取网络的图像纹理特征信息以及所述语言模型信息提取网络的语言特征信息;
[0021]文本识别单元,用于通过所述识别模型基于所述图像纹理特征信息和所述语言特征信息对所述目标文本框图像进行识别,以输出得到所述目标文本框图像中的目标文本。
[0022]在一些实施例中,所述图像获取单元还用于获取目标视频,并从所述目标视频中提取出若干帧目标图像,且基于DB算法对所述目标图像进行文本框提取,以提取得到所述目标图像中的目标文本框图像。
[0023]在一些实施例中,当目标文本框图像为多个,所述目标文本对应为多个,所述字幕提取装置还包括文本去重单元,用于获取所述目标文本框图像在目标视频中的时间信息,根据所述时间信息,按照时间先后顺序对多个所述目标文本进行排序,当相邻的两个所述目标文本的内容一致并且相邻的两个所述目标文本之间的间隔时间小于预设间隔时间,删去相邻的两个所述目标文本中的其中一个。
[0024]第三方面,本专利技术实施例还提供了一种计算机设备,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述第一方面所述的字幕提取方法。
[0025]第四方面,本专利技术实施例还提供了一种计算机可读存储介质,存储有计算机可执行指令,所述计算机可执行指令用于执行如上述第一方面所述的字幕提取方法。
[0026]本专利技术实施例包括:首先,获取目标文本框图像;接着,将所述目标文本框图像输入至训练好的识别模型,其中,训练好的所述识别模型包括文本图像信息提取网络、语言模型信息提取网络和联合前馈神经网络,所述文本图像信息提取网络由样本文本框图像预训练得到,所述语言模型信息提取网络由样本视频文本预训练得到,所述联合前馈神经网络用于将所述文本图像信息提取网络和所述语言模型信息提取网络在预训练之后的权重参数进行结合,所述权重参数包括所述文本图像信息提取网络的图像纹理特征信息以及所述
语言模型信息提取网络的语言特征信息;最后,通过所述识别模型基于所述图像纹理特征信息和所述语言特征信息对所述目标文本框图像进行识别,以输出得到所述目标文本框图像中的目标文本。根据本专利技术实施例的技术方案,由于本专利技术实施例能够将文本图像信息提取和语言模型信息提取的结果通过联合前馈神经网络将二者结合,即能够将文本图像信息提取网络的图像纹理特征信息以及语言模型信息提取网络的语言特征信息进行结合,从而可以使得识别模型能够基于图像纹理特征信息和语言特征信息对目标文本框图像进行识别,依据图像纹理特征和语言特征来实现文本识别,类似于RNN

T,通过RNN

T引入预测网络来弥补CTC这种条件独立性假设带来的问题,在预测最终输出时能够同时利用图像纹理特征和语言特征信息,有效地减少了替换错误,提高视频字幕文本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于人工智能的字幕提取方法,其特征在于,包括:获取目标文本框图像;将所述目标文本框图像输入至训练好的识别模型,其中,训练好的所述识别模型包括文本图像信息提取网络、语言模型信息提取网络和联合前馈神经网络,所述文本图像信息提取网络由样本文本框图像预训练得到,所述语言模型信息提取网络由样本视频文本预训练得到,所述联合前馈神经网络用于将所述文本图像信息提取网络和所述语言模型信息提取网络在预训练之后的权重参数进行结合,所述权重参数包括所述文本图像信息提取网络的图像纹理特征信息以及所述语言模型信息提取网络的语言特征信息;通过所述识别模型基于所述图像纹理特征信息和所述语言特征信息对所述目标文本框图像进行识别,以输出得到所述目标文本框图像中的目标文本。2.根据权利要求1所述的字幕提取方法,其特征在于,所述获取目标文本框图像,包括:获取目标视频,并从所述目标视频中提取出若干帧目标图像;基于DB算法对所述目标图像进行文本框提取,以提取得到所述目标图像中的目标文本框图像。3.根据权利要求1所述的字幕提取方法,其特征在于,所述文本图像信息提取网络包括第一LSTM网络、第二LSTM网络和第三LSTM网络,其中,所述第一LSTM网络、所述第二LSTM网络、所述第三LSTM网络和所述联合前馈神经网络依次连接,所述第一LSTM网络和所述第二LSTM网络的层数均为六层,所述第三LSTM网络的层数为两层。4.根据权利要求1所述的字幕提取方法,其特征在于,所述语言模型信息提取网络包括Google Bert网络和第四LSTM网络,其中,所述Google Bert网络、所述第四LSTM网络和所述联合前馈神经网络依次连接,所述第四LSTM网络的层数为两层。5.根据权利要求1所述的字幕提取方法,其特征在于,当目标文本框图像为多个,所述目标文本对应为多个,在所述通过所述识别模型基于所述图像纹理特征信息和所述语言特征信息对所述目标文本框图像进行识别,以输出得到所述目标文本框图像中的目标文本之后,所述字幕提取方法还包括:获取所述目标文本框图像在目标视频中的时间信息;根据所述时间信息,按照时间先后顺序对多个...

【专利技术属性】
技术研发人员:庞烨高欣建韩茂琨刘玉宇肖京
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1