用于视频的文字分类方法、文字分类模型训练方法和装置制造方法及图纸

技术编号:39730185 阅读:7 留言:0更新日期:2023-12-17 23:34
本申请提供了一种用于视频的文字分类方法、文字分类模型训练的方法和装置,涉及人工智能领域。该文字分类方法包括:利用字符识别模块,提取视频帧序列中的N个文字对象的文字内容和轨迹信息;N为正整数;利用M个第一表征模块对该N个文字对象中的每个文字对象的文字内容和轨迹信息进行表征,得到每个文字对象的M个模态信息;将每个文字对象的M个模态信息输入神经网络模块,得到每个文字对象的融合特征;将每个文字对象的融合特征输入分类头,得到每个文字对象的类型。本申请实施例能够作为一种通用方案对视频中各种类型的文字对象进行提取并输出文字对象的类型。行提取并输出文字对象的类型。行提取并输出文字对象的类型。

【技术实现步骤摘要】
用于视频的文字分类方法、文字分类模型训练方法和装置


[0001]本申请实施例涉及人工智能
,尤其涉及一种用于视频的文字分类方法、文字分类模型训练方法和装置。

技术介绍

[0002]随着互联网技术的快速发展,多媒体的应用越来越广泛,视频数量也急剧增长,用户需要了解海量的视频内容。通常视频中包含多种类型的文字对象。视频中特定文字的提取对视频内容的理解有着重要的作用。视频中常见的文字类型包括字幕文字、标题文字、台标水印文字,以及被摄像机拍摄到的场景文字等。
[0003]一般情况下,针对每种文字类型会根据该文字类型本身的特性设计对应的文字检测和提取方法。例如,对于字幕的提取,通常会首先检测字幕在视频中的区域,再对字幕区域中的文字进行识别得到字幕信息。又例如,一种方案可以使用已知的水印模板与图像进行匹配,比如使用卷积技术得到待检测视频中的水印;另一种方案使用一致台标水印训练水印检测网络,使得网络根据视频前后帧的差异得到水印。又例如,对于标题的提取,可以在人工确定标题出现的区域后,通过对字幕的特征进行判断,得到字幕标题。但是,目前还没有通用的对视频中多种类型的文字进行提取和分类方法。

技术实现思路

[0004]本申请提供一种用于视频的文字分类方法、文字分类模型训练方法和装置,能够作为一种通用方案对视频中各种类型的文字对象进行提取并输出文字对象的类型。
[0005]第一方面,本申请实施例提供一种用于视频的文字分类方法,包括:
[0006]利用字符识别模块,提取视频帧序列中的N个文字对象的文字内容和轨迹信息;
[0007]利用M个第一表征模块对所述N个文字对象中的每个文字对象的所述文字内容和所述轨迹信息进行表征,得到所述每个文字对象的M个模态信息;所述M个模态信息包括语义表征、视觉表征和轨迹表征中的至少一种;其中,N、M为正整数;
[0008]将所述每个文字对象的M个模态信息输入神经网络模块,得到所述每个文字对象的融合特征;
[0009]将所述每个文字对象的融合特征输入分类头,得到所述每个文字对象的类型。
[0010]第二方面,本申请实施例提供一种文字分类模型训练方法,所述文字分类模型包括M个第一表征模块、神经网络模块和分类头,所述方法包括:
[0011]获取训练样本集,所述训练样本集包括多个文字对象的文字内容、轨迹信息和类型标签,其中,所述轨迹信息是根据文字对象在视频帧序列中的位置标注得到的;
[0012]利用所述M个第一表征模块对每个所述文字对象的所述文字内容和所述轨迹信息进行表征,得到所述每个文字对象的M个模态信息;所述M个模态信息包括语义表征、视觉表征和轨迹表征中的至少一种;M为正整数;
[0013]将所述每个文字对象的M个模态信息输入所述神经网络模块,得到所述每个文字
对象的融合特征;
[0014]将所述每个文字对象的融合特征输入所述分类头,得到所述每个文字对象的类型;
[0015]根据所述每个文字对象的类型和所述每个文字对象的类型标签,确定损失函数,并根据所述损失函数对所述M个第一表征模块、所述神经网络模块和所述分类头中的至少一个模块进行参数更新,得到训练后的文字分类模型。
[0016]第三方面,本申请实施例提供了一种用于视频的文字分类装置,包括:
[0017]字符识别模块,用于提取视频帧序列中的N个文字对象的文字内容和轨迹信息;
[0018]M个第一表征模块,用于对所述N个文字对象中的每个文字对象的所述文字内容和所述轨迹信息进行表征,得到所述每个文字对象的M个模态信息;所述M个模态信息包括语义表征、视觉表征和轨迹表征中的至少一种;其中,N、M为正整数;
[0019]神经网络模块,用于输入所述每个文字对象的M个模态信息,得到所述每个文字对象的融合特征;
[0020]分类头,用于输入所述每个文字对象的融合特征,得到所述每个文字对象的类型。
[0021]第四方面,本申请实施例提供了一种文字分类模型训练装置,所述文字分类模型包括M个第一表征模块、神经网络模块和分类头,所述装置包括:
[0022]获取单元,用于获取训练样本集,所述训练样本集包括多个文字对象的文字内容、轨迹信息和类型标签,其中,所述轨迹信息是根据文字对象在视频帧序列中的位置标注得到的;
[0023]所述M个第一表征模块,用于对每个所述文字对象的所述文字内容和所述轨迹信息进行表征,得到所述每个文字对象的M个模态信息;所述M个模态信息包括语义表征、视觉表征和轨迹表征中的至少一种;M为正整数;
[0024]所述神经网络模块,用于输入所述每个文字对象的M个模态信息,得到所述每个文字对象的融合特征;
[0025]所述分类头,用于输入所述每个文字对象的融合特征,得到所述每个文字对象的类型;
[0026]参数更新单元,用于根据所述每个文字对象的类型和所述每个文字对象的类型标签,确定损失函数,并根据所述损失函数对所述M个第一表征模块、所述神经网络模块和所述分类头中的至少一个模块进行参数更新,得到训练后的文字分类模型。
[0027]第五方面,本申请实施例提供一种电子设备,包括:处理器和存储器,该存储器用于存储计算机程序,该处理器用于调用并运行该存储器中存储的计算机程序,执行如第一方面或第二方面中的方法。
[0028]第六方面,本申请实施例提供一种计算机可读存储介质,包括指令,当其在计算机上运行时使得计算机执行如第一方面或第二方面中的方法。
[0029]第七方面,本申请实施例提供一种计算机程序产品,包括计算机程序指令,该计算机程序指令使得计算机执行如第一方面或第二方面中的方法。
[0030]第八方面,本申请实施例提供一种计算机程序,计算机程序使得计算机执行如第一方面或第二方面中的方法。
[0031]通过上述技术方案,通过根据文字对象的文字内容和文字对象在视频中的轨迹信
息得到文字对象的多个模态信息,能够表征文字对象更加丰富的特征,进一步通过对文字对象的多个模态信息进行融合得到文字对象的融合特征,能够表征文字对象以及文字对象的模态信息之间的相关性,因此基于该融合特征对文字对象进行分类,能够得到更加准确的文字对象类型。由于本申请实施例的方案并未根据不同的文字类型特性设计对应的文字提取和检测方法,本申请实施例适用于视频中的各种文字类型的文字对象的提取和分类,因此本申请实施例能够作为一种通用方案对视频中各种类型的文字对象进行提取并输出文字对象的类型。
附图说明
[0032]图1为本申请实施例的方案的应用场景的一个示意图;
[0033]图2为根据本申请实施例的一种用于视频的文字分类方法的示意性流程图;
[0034]图3为根据本申请实施例的一种网络架构的示意图;
[0035]图4为文字对象在视频帧中的轨迹的一个示意图;
[0036]图5为根据本申请实施例的另一种网络架构的示意图;
[0037]图6为根据本申请实施例本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种用于视频的文字分类方法,其特征在于,包括:利用字符识别模块,提取视频帧序列中的N个文字对象的文字内容和轨迹信息;利用M个第一表征模块对所述N个文字对象中的每个文字对象的所述文字内容和所述轨迹信息进行表征,得到所述每个文字对象的M个模态信息;所述M个模态信息包括语义表征、视觉表征和轨迹表征中的至少一种;其中,N、M为正整数;将所述每个文字对象的M个模态信息输入神经网络模块,得到所述每个文字对象的融合特征;将所述每个文字对象的融合特征输入分类头,得到所述每个文字对象的类型。2.根据权利要求1所述的方法,其特征在于,所述利用M个第一表征模块对所述N个文字对象中的每个文字对象的所述文字内容和所述轨迹信息进行表征,得到所述每个文字对象的M个模态信息,包括:利用语义表征模块对所述N个文字对象中的每个文字对象的所述文字内容进行表征,得到所述每个文字对象的语义表征。3.根据权利要求1所述的方法,其特征在于,所述利用M个第一表征模块对所述N个文字对象中的每个文字对象的所述文字内容和所述轨迹信息进行表征,得到所述每个文字对象的M个模态信息,包括:利用视觉表征模块对所述视频帧序列中包含所述每个文字对象的至少一个视频帧进行特征提取,得到所述至少一个视频帧的视觉特征;根据所述每个文字对象的所述轨迹信息,从所述至少一个视频帧的视觉特征中得到所述每个文字对象的视觉表征。4.根据权利要求1所述的方法,其特征在于,所述利用M个第一表征模块对所述N个文字对象中的每个文字对象的所述文字内容和所述轨迹信息进行表征,得到所述每个文字对象的M个模态信息,包括:利用轨迹表征模块对所每个文字对象的所述轨迹信息进行表征,得到所述每个文字对象的轨迹表征。5.根据权利要求1所述的方法,其特征在于,还包括:利用时序表征模块对所述每个文字对象的时序信息进行表征,得到所述每个文字对象的时序表征;其中,所述时序信息根据所述文字对象的文本框在视频帧序列中出现的时间顺序、位置变化、大小变化、位移变化中的至少一种确定;其中,所述将所述每个文字对象的M个模态信息输入神经网络模块,得到所述每个文字对象的融合特征,包括:将所述每个文字对象的M个模态信息和所述每个文字对象的时序表征输入神经网络模块,得到所述每个文字对象的融合特征。6.根据权利要求1所述的方法,其特征在于,还包括:利用类型表征模块获取所述M个模态信息中每个模态信息对应的类型表征;其中,所述将所述每个文字对象的M个模态信息输入神经网络模块,得到所述每个文字对象的融合特征,包括:将所述每个文字对象的M个模态信息和所述每个模态信息对应的类型表征输入所述神经网络模块,得到所述每个文字对象的融合特征。
7.根据权利要求1所述的方法,其特征在于,还包括:利用视频表征模块对所述视频帧序列进行表征,得到所述视频帧序列的视频表征;其中,所述将所述每个文字对象的M个模态信息输入神经网络模块,得到所述每个文字对象的的融合特征,包括:将所述每个文字对象的M个模态信息和所述视频表征输入所述神经网络模块,得到所述每个文字对象的融合特征。8.根据权利要求1

7任一项所述的方法,其特征在于,所述神经网络模块包括多头注意力模块。9.根据权利要求1

7任一项所述的方法,其特征在于,所述文字对象的类型包括字幕文字、标题文字、水印文字、台标文字、场景文字和自定义类型文字中的至少一种。10.一种文字分类模型训练方法,其特征在于,所述文字分类模型包括M个第一表征模块、神经网络模块和分类头,所述方法包括:获取训练样本集,所述训练样本集包括多个文字对象的文字内容、轨迹信息和类型标签,其中,所述轨迹信息是根据文字对象在视频帧序列中的位置标注得到的;利用所述M个第一表征模块对每个所述文字对象的所述文字内容和所述轨迹信息进行表征,得到所述每个文字对象的M个模态信息;所述M个模态信息包括语义表征、视觉表征和轨迹表征中的至少一种;M为正整数;将所述每个文字对象的M个模态信息输入所述神经网络模块,得到所述每个文字对象的融合特征;将所述每个文字对象的融合特征输入所述分类头,得到所述每个文字对象的类型;根据所述每个文字对象的类型和所述每个文字对象的类型标签,确定损失函数,并根据所述损失函数对所述M个第一表征模块、所述神经网络模块和所述分类头中的至少一个模块进行参数更新,得到训练后的文字分类模型。11.根据权利要求10所述的方法,其特征在于,所述文字分类模型还包括时序表征模块,所述方法还包括:利用时序表征模块对所述每个文字对象的时序信息进行表征,得到所述每...

【专利技术属性】
技术研发人员:赵宇轩谢泽华祁仲昂罗雨康秋生
申请(专利权)人:北京搜狗网络技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1