识别课堂教学视频中行为的方法及装置制造方法及图纸

技术编号:32356456 阅读:29 留言:0更新日期:2022-02-20 03:17
本申请公开一种识别课堂教学视频中行为的方法及装置,用以解决现有独立的AI技术无法直接生成与教学场景相匹配的数据的问题。其中,一种识别课堂教学视频中行为的方法,包括:调用多媒体AI数据接口处理输入的待识别多媒体视频,得到分别按视频时间记录的视频人脸数据和语音转文字数据;匹配视频人脸数据与预设的基础人脸数据,得到标记出镜时间的人物身份信息;匹配语音转文字数据的视频时间与人物身份信息的出镜时间,得到语音转文字数据中的发言人身份信息;确定语音转文字数据中的文字内容表征的行为类别;根据发言人身份信息和行为类别,得到行为统计结果。通过有效关联视频中的人脸信息与语音数据信息,生成与教学场景相匹配的行为统计数据。匹配的行为统计数据。匹配的行为统计数据。

【技术实现步骤摘要】
识别课堂教学视频中行为的方法及装置


[0001]本申请视频识别
,尤其涉及一种识别课堂教学视频中行为的方法及装置。

技术介绍

[0002]随着AI技术的持续发展和普及,市场上出现了很多成熟的AI模块,比如阿里多媒体AI。这些AI模块有些是视觉AI,有些是语音AI,还有些是视觉和语音简单结合的AI。在视频处理过程中,可以直接调用这些AI模块处理相应的视频,从而得到对该视频的分析数据。
[0003]在实现现有技术的过程中,专利技术人发现:
[0004]阿里多媒体AI以及市场中其他厂家公开出来的相对成熟的AI模块,能进行多媒体视频的数据结构化处理,但针对复杂业务场景下的教学行为识别效果较差,无法直接生成与教学场景相匹配的数据。
[0005]因此,需要提供一种识别课堂教学视频中行为的方法及装置,用以解决现有独立的AI技术无法直接生成与教学场景相匹配的数据的技术问题。

技术实现思路

[0006]本申请实施例提供一种识别课堂教学视频中行为的方法及装置,用以解决现有独立的AI技术无法直接生成与教学场景相匹配的数据的技术问题。
[0007]具体的,一种识别课堂教学视频中行为的方法,包括以下具体步骤:
[0008]输入待识别多媒体视频;
[0009]调用多媒体AI数据接口处理所述待识别多媒体视频,得到分别按视频时间记录的视频人脸数据和语音转文字数据;
[0010]匹配所述视频人脸数据与预设的基础人脸数据,得到标记出镜时间的人物身份信息;
[0011]匹配所述语音转文字数据的视频时间与所述人物身份信息的出镜时间,得到所述语音转文字数据中每一个句子的发言人身份信息;
[0012]处理所述语音转文字数据中每一个句子的文字内容,确定所述文字内容表征的行为类别;
[0013]根据所述发言人身份信息和所述行为类别,得到所述待识别多媒体视频的行为统计结果。
[0014]进一步的,匹配所述语音转文字数据的视频时间与所述人物身份信息的出镜时间,得到所述语音转文字数据中每一个句子的发言人身份信息,包括以下具体步骤:
[0015]按照句子格式标记所述语音转文字数据的视频时间,得到所述语音转文字数据中每一个句子的语音时间段;
[0016]匹配所述语音时间段与所述人物身份信息的出镜时间,得到时间匹配结果;
[0017]根据所述时间匹配结果,得到所述语音时间段的语音身份;
[0018]根据所述语音身份,得到所述语音转文字数据中每一个句子的发言人身份信息。
[0019]进一步的,根据所述时间匹配结果,得到所述语音时间段的语音身份,包括以下具体步骤:
[0020]当所述时间匹配结果为唯一匹配时,选择与所述语音时间段匹配的出镜时间,得到唯一匹配时间;
[0021]选择所述人物身份信息中与所述唯一匹配时间对应的具体人物身份信息,得到所述语音时间段的语音身份。
[0022]进一步的,根据所述时间匹配结果,得到所述语音时间段的语音身份,包括以下具体步骤:
[0023]当所述时间匹配结果为存在匹配数据但不是唯一匹配时,选择与所述语音时间段匹配的出镜时间,得到匹配时间组;
[0024]选择所述人物身份信息中与所述匹配时间组对应的具体人物身份信息,得到待确认语音身份组;
[0025]获取与所述匹配时间组对应的所述视频人脸数据中人脸的坐标数据,得到待确认脸部坐标数据组;
[0026]选取所述待确认脸部坐标数据组中符合预设条件的脸部坐标数据作为有效发言坐标;
[0027]根据所述有效发言坐标,在所述匹配时间组中选取有效匹配时间;
[0028]在所述待确认语音身份组中选取与所述有效匹配时间对应的具体人物身份信息,得到所述语音时间段的语音身份。
[0029]进一步的,处理所述语音转文字数据中每一个句子的文字内容,确定所述文字内容表征的行为类别,包括以下具体步骤:
[0030]分别获取所述语音转文字数据中每一个句子的文字内容;
[0031]根据所述文字内容中标点符号的类型,确定所述文字内容表征的第一行为类型;
[0032]匹配所述文字内容与预设的关键字,确定所述文字内容表征的第二行为类型;
[0033]根据所述文字内容的语句依存关系,确定所述文字内容表征的第三行为类型;
[0034]根据所述文字内容表征的第一行为类型、第二行为类型和第三行为类型,确定所述文字内容表征的行为类别。
[0035]本申请还提供一种识别课堂教学视频中行为的装置,包括:
[0036]输入模块,用于输入待识别多媒体视频;
[0037]第一处理模块,用于调用多媒体AI数据接口处理所述待识别多媒体视频,得到分别按视频时间记录的视频人脸数据和语音转文字数据;
[0038]第二处理模块,用于匹配所述视频人脸数据与预设的基础人脸数据,得到标记出镜时间的人物身份信息;还用于匹配所述语音转文字数据的视频时间与所述人物身份信息的出镜时间,得到所述语音转文字数据中每一个句子的发言人身份信息;还用于处理所述语音转文字数据中每一个句子的文字内容,确定所述文字内容表征的行为类别;
[0039]输出模块,用于根据所述发言人身份信息和所述行为类别,得到所述待识别多媒体视频的行为统计结果。
[0040]进一步的,所述第二处理模块,还用于匹配所述语音转文字数据的视频时间与所
述人物身份信息的出镜时间,得到所述语音转文字数据中每一个句子的发言人身份信息,具体用于:
[0041]按照句子格式标记所述语音转文字数据的视频时间,得到所述语音转文字数据中每一个句子的语音时间段;
[0042]匹配所述语音时间段与所述人物身份信息的出镜时间,得到时间匹配结果;
[0043]根据所述时间匹配结果,得到所述语音时间段的语音身份;
[0044]根据所述语音身份,得到所述语音转文字数据中每一个句子的发言人身份信息。
[0045]进一步的,根据所述时间匹配结果,得到所述语音时间段的语音身份,具体包括:
[0046]当所述时间匹配结果为唯一匹配时,选择与所述语音时间段匹配的出镜时间,得到唯一匹配时间;
[0047]选择所述人物身份信息中与所述唯一匹配时间对应的具体人物身份信息,得到所述语音时间段的语音身份。
[0048]进一步的,根据所述时间匹配结果,得到所述语音时间段的语音身份,具体包括:
[0049]当所述时间匹配结果为存在匹配数据但不是唯一匹配时,选择与所述语音时间段匹配的出镜时间,得到匹配时间组;
[0050]选择所述人物身份信息中与所述匹配时间组对应的具体人物身份信息,得到待确认语音身份组;
[0051]获取与所述匹配时间组对应的所述视频人脸数据中人脸的坐标数据,得到待确认脸部坐标数据组;
[0052]选取所述待确认脸部坐标数据组中符合预设条件的脸部坐标数据作为有效发言坐标;
[本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种识别课堂教学视频中行为的方法,其特征在于,包括以下具体步骤:输入待识别多媒体视频;调用多媒体AI数据接口处理所述待识别多媒体视频,得到分别按视频时间记录的视频人脸数据和语音转文字数据;匹配所述视频人脸数据与预设的基础人脸数据,得到标记出镜时间的人物身份信息;匹配所述语音转文字数据的视频时间与所述人物身份信息的出镜时间,得到所述语音转文字数据中每一个句子的发言人身份信息;处理所述语音转文字数据中每一个句子的文字内容,确定所述文字内容表征的行为类别;根据所述发言人身份信息和所述行为类别,得到所述待识别多媒体视频的行为统计结果。2.根据权利要求1所述的方法,其特征在于,匹配所述语音转文字数据的视频时间与所述人物身份信息的出镜时间,得到所述语音转文字数据中每一个句子的发言人身份信息,包括以下具体步骤:按照句子格式标记所述语音转文字数据的视频时间,得到所述语音转文字数据中每一个句子的语音时间段;匹配所述语音时间段与所述人物身份信息的出镜时间,得到时间匹配结果;根据所述时间匹配结果,得到所述语音时间段的语音身份;根据所述语音身份,得到所述语音转文字数据中每一个句子的发言人身份信息。3.根据权利要求2所述的方法,其特征在于,根据所述时间匹配结果,得到所述语音时间段的语音身份,包括以下具体步骤:当所述时间匹配结果为唯一匹配时,选择与所述语音时间段匹配的出镜时间,得到唯一匹配时间;选择所述人物身份信息中与所述唯一匹配时间对应的具体人物身份信息,得到所述语音时间段的语音身份。4.根据权利要求2所述的方法,其特征在于,根据所述时间匹配结果,得到所述语音时间段的语音身份,包括以下具体步骤:当所述时间匹配结果为存在匹配数据但不是唯一匹配时,选择与所述语音时间段匹配的出镜时间,得到匹配时间组;选择所述人物身份信息中与所述匹配时间组对应的具体人物身份信息,得到待确认语音身份组;获取与所述匹配时间组对应的所述视频人脸数据中人脸的坐标数据,得到待确认脸部坐标数据组;选取所述待确认脸部坐标数据组中符合预设条件的脸部坐标数据作为有效发言坐标;根据所述有效发言坐标,在所述匹配时间组中选取有效匹配时间;在所述待确认语音身份组中选取与所述有效匹配时间对应的具体人物身份信息,得到所述语音时间段的语音身份。5.根据权利要求1所述的方法,其特征在于,处理所述语音转文字数据中每一个句子的文字内容,确定所述文字内容表征的行为类别,包括以下具体步骤:
分别获取所述语音转文字数据中每一个句子的文字内容;根据所述文字内容中标点符号的类型,确定所述文字内容表征的第一行为类型;匹配所述文字内容与预设的关键字,确定所述文字内容表征的第二行为类型;根据所述文字内容的语句依存关系,确定所述文字内容表征的第三行为类型;根据所述文字内容表征的第一行为类型、第二行为类型和第三行为类型,确定所述文字内容表征的行为类别。6.一种识别课堂教学视频中行为的装置,其特征在于...

【专利技术属性】
技术研发人员:赵悦汐程红兵鞠剑伟昝晨辉
申请(专利权)人:北京金茂教育科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1