用于视频的文字分类方法、文字分类模型训练方法和装置制造方法及图纸

技术编号：39730185 阅读：7 留言：0更新日期：2023-12-17 23:34

本申请提供了一种用于视频的文字分类方法、文字分类模型训练的方法和装置，涉及人工智能领域。该文字分类方法包括：利用字符识别模块，提取视频帧序列中的N个文字对象的文字内容和轨迹信息；N为正整数；利用M个第一表征模块对该N个文字对象中的每个文字对象的文字内容和轨迹信息进行表征，得到每个文字对象的M个模态信息；将每个文字对象的M个模态信息输入神经网络模块，得到每个文字对象的融合特征；将每个文字对象的融合特征输入分类头，得到每个文字对象的类型。本申请实施例能够作为一种通用方案对视频中各种类型的文字对象进行提取并输出文字对象的类型。行提取并输出文字对象的类型。行提取并输出文字对象的类型。

全部详细技术资料下载

【技术实现步骤摘要】
用于视频的文字分类方法、文字分类模型训练方法和装置

[0001]本申请实施例涉及人工智能
，尤其涉及一种用于视频的文字分类方法、文字分类模型训练方法和装置。

技术介绍

[0002]随着互联网技术的快速发展，多媒体的应用越来越广泛，视频数量也急剧增长，用户需要了解海量的视频内容。通常视频中包含多种类型的文字对象。视频中特定文字的提取对视频内容的理解有着重要的作用。视频中常见的文字类型包括字幕文字、标题文字、台标水印文字，以及被摄像机拍摄到的场景文字等。
[0003]一般情况下，针对每种文字类型会根据该文字类型本身的特性设计对应的文字检测和提取方法。例如，对于字幕的提取，通常会首先检测字幕在视频中的区域，再对字幕区域中的文字进行识别得到字幕信息。又例如，一种方案可以使用已知的水印模板与图像进行匹配，比如使用卷积技术得到待检测视频中的水印；另一种方案使用一致台标水印训练水印检测网络，使得网络根据视频前后帧的差异得到水印。又例如，对于标题的提取，可以在人工确定标题出现的区域后，通过对字幕的特征进行判断，得到字幕标题。但是，目前还没有通用的对视频中多种类型的文字进行提取和分类方法。

技术实现思路

[0004]本申请提供一种用于视频的文字分类方法、文字分类模型训练方法和装置，能够作为一种通用方案对视频中各种类型的文字对象进行提取并输出文字对象的类型。
[0005]第一方面，本申请实施例提供一种用于视频的文字分类方法，包括：
[0006]利用字符识别模块，提取视频帧序列中的N个文字对象...

【技术保护点】

【技术特征摘要】
1.一种用于视频的文字分类方法，其特征在于，包括：利用字符识别模块，提取视频帧序列中的N个文字对象的文字内容和轨迹信息；利用M个第一表征模块对所述N个文字对象中的每个文字对象的所述文字内容和所述轨迹信息进行表征，得到所述每个文字对象的M个模态信息；所述M个模态信息包括语义表征、视觉表征和轨迹表征中的至少一种；其中，N、M为正整数；将所述每个文字对象的M个模态信息输入神经网络模块，得到所述每个文字对象的融合特征；将所述每个文字对象的融合特征输入分类头，得到所述每个文字对象的类型。2.根据权利要求1所述的方法，其特征在于，所述利用M个第一表征模块对所述N个文字对象中的每个文字对象的所述文字内容和所述轨迹信息进行表征，得到所述每个文字对象的M个模态信息，包括：利用语义表征模块对所述N个文字对象中的每个文字对象的所述文字内容进行表征，得到所述每个文字对象的语义表征。3.根据权利要求1所述的方法，其特征在于，所述利用M个第一表征模块对所述N个文字对象中的每个文字对象的所述文字内容和所述轨迹信息进行表征，得到所述每个文字对象的M个模态信息，包括：利用视觉表征模块对所述视频帧序列中包含所述每个文字对象的至少一个视频帧进行特征提取，得到所述至少一个视频帧的视觉特征；根据所述每个文字对象的所述轨迹信息，从所述至少一个视频帧的视觉特征中得到所述每个文字对象的视觉表征。4.根据权利要求1所述的方法，其特征在于，所述利用M个第一表征模块对所述N个文字对象中的每个文字对象的所述文字内容和所述轨迹信息进行表征，得到所述每个文字对象的M个模态信息，包括：利用轨迹表征模块对所每个文字对象的所述轨迹信息进行表征，得到所述每个文字对象的轨迹表征。5.根据权利要求1所述的方法，其特征在于，还包括：利用时序表征模块对所述每个文字对象的时序信息进行表征，得到所述每个文字对象的时序表征；其中，所述时序信息根据所述文字对象的文本框在视频帧序列中出现的时间顺序、位置变化、大小变化、位移变化中的至少一种确定；其中，所述将所述每个文字对象的M个模态信息输入神经网络模块，得到所述每个文字对象的融合特征，包括：将所述每个文字对象的M个模态信息和所述每个文字对象的时序表征输入神经网络模块，得到所述每个文字对象的融合特征。6.根据权利要求1所述的方法，其特征在于，还包括：利用类型表征模块获取所述M个模态信息中每个模态信息对应的类型表征；其中，所述将所述每个文字对象的M个模态信息输入神经网络模块，得到所述每个文字对象的融合特征，包括：将所述每个文字对象的M个模态信息和所述每个模态信息对应的类型表征输入所述神经网络模块，得到所述每个文字对象的融合特征。
7.根据权利要求1所述的方法，其特征在于，还包括：利用视频表征模块对所述视频帧序列进行表征，得到所述视频帧序列的视频表征；其中，所述将所述每个文字对象的M个模态信息输入神经网络模块，得到所述每个文字对象的的融合特征，包括：将所述每个文字对象的M个模态信息和所述视频表征输入所述神经网络模块，得到所述每个文字对象的融合特征。8.根据权利要求1
‑
7任一项所述的方法，其特征在于，所述神经网络模块包括多头注意力模块。9.根据权利要求1
‑
7任一项所述的方法，其特征在于，所述文字对象的类型包括字幕文字、标题文字、水印文字、台标文字、场景文字和自定义类型文字中的至少一种。10.一种文字分类模型训练方法，其特征在于，所述文字分类模型包括M个第一表征模块、神经网络模块和分类头，所述方法包括：获取训练样本集，所述训练样本集包括多个文字对象的文字内容、轨迹信息和类型标签，其中，所述轨迹信息是根据文字对象在视频帧序列中的位置标注得到的；利用所述M个第一表征模块对每个所述文字对象的所述文字内容和所述轨迹信息进行表征，得到所述每个文字对象的M个模态信息；所述M个模态信息包括语义表征、视觉表征和轨迹表征中的至少一种；M为正整数；将所述每个文字对象的M个模态信息输入所述神经网络模块，得到所述每个文字对象的融合特征；将所述每个文字对象的融合特征输入所述分类头，得到所述每个文字对象的类型；根据所述每个文字对象的类型和所述每个文字对象的类型标签，确定损失函数，并根据所述损失函数对所述M个第一表征模块、所述神经网络模块和所述分类头中的至少一个模块进行参数更新，得到训练后的文字分类模型。11.根据权利要求10所述的方法，其特征在于，所述文字分类模型还包括时序表征模块，所述方法还包括：利用时序表征模块对所述每个文字对象的时序信息进行表征，得到所述每...

【专利技术属性】
技术研发人员：赵宇轩，谢泽华，祁仲昂，罗雨，康秋生，
申请(专利权)人：北京搜狗网络技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人