基于多模态的导播方法和系统以及计算机程序产品技术方案

技术编号:37668887 阅读:31 留言:0更新日期:2023-05-26 04:29
提供一种基于多模态的导播方法和系统以及计算机程序产品,涉及人工智能导播领域,用以解决自动生成导播脚本命令。该导播方法包括:从基于导播场景中的同一事件或过程产生的多模态数据分别识别对应该导播场景预设的导播关键词表中的关键词;将识别出的关键词输入基于机器学习的作为导播脚本识别模型的序列模型,利用该序列模型从输入的关键词组成的文本序列预测用于导播的脚本命令的文本序列输出以生成导播脚本命令。通过该导播方法,不但可以自动生成脚本命令从而完成自动导播,还能实现脚本命令生成的高正确率。实现脚本命令生成的高正确率。实现脚本命令生成的高正确率。

【技术实现步骤摘要】
基于多模态的导播方法和系统以及计算机程序产品
[0001]本申请为申请号202211023488.0、申请日2022年08月25日、专利技术名称“基于多模态的导播方法和系统以及计算机程序产品”的分案申请。


[0002]本专利技术涉及人工智能导播领域,特别涉及基于多模态的导播方法和系统以及计算机程序产品。

技术介绍

[0003]以往的直播活动中,常布设多个摄像头拍摄视频,由导播人员对多路实时采集的视频信号以及提前准备好的素材、字幕、特效模板进行现场信号制作,按照一定的导播规则以及导播对现场状态的理解进行剪辑播出。这时,往往需要导播、编辑、摄像师等众多人员协作才能完成,并且不可避免人工操作疏忽导致的错误。
[0004]目前存在一些自动化导播方式,但基本停留于在获得脚本后按照已有的脚本命令,或者按照预设的规则,例如专利文献1,自动合成视频和/或控制机位的方案,虽然代替了部分人工工作,对脚本的生成仍依赖于人力。
[0005]专利文献2提成一种导播切换方法,通过搭建神经网络学习音视频的匹配度,从而实现基于训练好的识别模型,自动切换与现场统一的音频相匹配的视频信号。但这种方法仅能完成一般的镜头切换任务,对于更复杂的例如回放、特写跟踪、切入画中画、声音叠加等多任务导播,完全没有办法。并且,这种方法依赖于活跃音频对象与包含该对象的画面的匹配,实际上限制了切换导播的规则。
[0006]为实现更复杂的自动导播任务,有提出智能识别场景的做法,这种做法直接对视频图像进行内容识别,通过场景标注和训练给出模型。这种方法标注难度大,训练难度也大,从实际效果看识别正确率很低。还有提出动作识别的方案,但由于不同场景里类似动作很多,会导致大量的误判。
[0007]因此,现有技术中亟待一种可以全智能化、适应于各种导播规则并且正确率高的智能导播方案。
[0008]专利文献1:中国专利公开CN110166651A
[0009]专利文献2:中国专利公开CN110996021A

技术实现思路

[0010]本专利技术鉴于以上问题进行了研发,目的在于提供一种能够自动生成脚本命令的导播方法。
[0011]本专利技术第一方面提供一种基于多模态的导播方法,该导播方法包括:将识别出的关键词输入基于机器学习的作为导播脚本识别模型的序列模型,利用该序列模型从输入的关键词组成的文本序列预测用于导播的脚本命令的文本序列输出以生成导播脚本命令。
[0012]根据本专利技术提供的导播方法,从可能存在不同形式的多模态数据识别统一的词文
本输入序列模型,能够以关键词的文本形式为中介为序列模型赋以多模态数据的融合功能。
[0013]不同模态数据识别出的关键词存在一定的误率,根据本专利技术提供的导播方法,具有多模态融合能力的序列模型利用多模态数据间的一致性和补充性,提高预测结果的准确性。
[0014]本专利技术的导播方法仅将含在预设导播关键词表中的关键词识别结果作为序列模型的输入,可以节约计算资源,在此导播关键词表为复杂稀疏的背景样本提供了语义窗口,并能够根据场景改变窗口规模。
[0015]关键词本身来源于上一层的识别预测,即使出现相同的文本序列也只能代表关键词的概率相同,根据本专利技术的导播方法,基于来源于更复杂数据背景的概率结果进行多模态融合,能够更好地利用复杂背景数据中的小概率特征。
[0016]当各模态关键词的识别途径确定下来的情况下,结合这些确定的途径,当进行序列模型的训练和预测时,可以使序列模型反映出前后整个系统的模型融合效果。
[0017]进一步地,所述基于机器学习的序列模型通过针对该导播场景预先构建的训练样本集训练得到,所述训练样本集中每个样本包含从基于该导播场景中的同一事件或过程产生的多模态数据分别识别的所述导播关键词表中的关键词和对应该同一事件或过程的真实导播脚本命令。
[0018]优选地,输入序列模型的关键词和训练样本中的关键词都以按照一定规则排序的结构化数据提供,由此可以为输入关键词组赋予语句特性。
[0019]进一步优选地,输入序列模型的关键词和训练样本中的关键词都按照多模态的固定顺序进行排序,由此可以使序列模型理解多模态之间的影响。
[0020]进一步地,所述基于机器学习的序列模型是transformer模型。
[0021]这种情况下,将识别出的关键词分别转换为词向量,并根据关键词在输入中的位置为各关键词生成位置向量,将各关键词的位置向量和词向量相加得到各关键词的词特征向量,将各关键词的词特征向量通过transformer模型进行编码解码以预测出导播脚本命令。
[0022]transformer模型可以很好的完成文本任务,将多模态信息统一成文本特征后可以很好的起到多模态融合作用,但是transformer模型受于句长的限制,不能更好的捕捉长距离文本的关联性。本专利技术将关键词设计和transformer结合,缩短了背景数据中特征间的距离,transformer可以更好捕捉远距离关联信息的影响。
[0023]优选地,输入序列模型的关键词和训练样本中的关键词按照多模态的固定顺序进行排序,并且所述transformer模型的多头注意力层采用12头结构,transform encoder层和transform decoder层分别采用8层结构。
[0024]当关键词按照多模态的固定顺序进行排序的情况下,会使关键词组合成的语句在反映意外特征的能力上出现惰性。将transformer模型的注意力头提高到12头,容易保证离群头的出现频率,从而提高模型的冗余性。另外还将transformer模型的编码层和解码层都提高到8层,从而耗尽离群头的出现机率。
[0025]优选地,所述将识别出的关键词输入基于机器学习的序列模型以生成导播脚本命令包括:所述基于机器学习的序列模型采用transformer模型;将识别出的关键词分别转换
为词向量,将关键词的词向量分别乘以对应的导播系数生成风格加权向量,并根据关键词在输入中的位置为各关键词生成位置向量,将各关键词的位置向量和风格加权向量相加得到各关键词的词特征向量;将各关键词的词特征向量通过所述transformer模型进行编码解码以预测出导播脚本命令。
[0026]所述导播系数通过下式计算:
[0027]k=KeywordType
×
DirectorType
T

[0028]其中,k是导播系数,KeywordType是表示当前关键词导播风格的导播风格向量,DirectorType是表示当前导播阶段导播风格的导播风格向量,所述导播风格向量是根据导播风格预设的多维向量,向量的各维数值用来表示不同导播风格的程度。
[0029]根据本专利技术,通过将关键词的词向量乘以各自对应的导播系数,可以丰富模型输入文本的语义特征,并且使输入的数据序列更富有结构化特性,从而进一步提高脚本生成的正确率。
[0030]优选地,所述导播风格向量的各维数值是[0,1本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于多模态的导播方法,其特征在于,该导播方法包括:从基于导播场景中的同一事件或过程产生的多模态数据分别识别对应该导播场景预设的导播关键词表中的关键词;将识别出的关键词输入基于机器学习的作为导播脚本识别模型的序列模型,利用该序列模型从输入的关键词组成的文本序列预测用于导播的脚本命令的文本序列输出以生成导播脚本命令。2.如权利要求1所述的导播方法,其中,所述基于机器学习的序列模型通过针对该导播场景预先构建的训练样本集训练得到,所述训练样本集中每个样本包含从基于该导播场景中的同一事件或过程产生的多模态数据分别识别的所述导播关键词表中的关键词和对应该同一事件或过程的真实导播脚本命令。3.如权利要求2所述的导播方法,其中,输入序列模型的关键词和训练样本中的关键词都以按照一定规则排序的结构化数据提供。4.如权利要求2所述的导播方法,其中,所述基于机器学习的序列模型是transformer模型。5.如权利要求4所述的导播方法,其中,输入序列模型的关键词和训练样本中的关键词按照多模态的固定顺序进行排序,并且所述transformer模型的多头注意力层采用12头结构,transform encoder层和transform decoder层分别采用8层结构。6.如权利要求2所述的导播方法,其中,所述将识别出的关键词输入基于机器学习的序列模型以生成导播脚本命令包括:所述基于机器学习的序列模型采用trans...

【专利技术属性】
技术研发人员:余刚刘建宏贾艳军
申请(专利权)人:北京凯利时科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1