当前位置: 首页 > 专利查询>兰州大学专利>正文

一种基于多智能体强化学习的视频摘要生成方法技术

技术编号:37293864 阅读:22 留言:0更新日期:2023-04-21 22:41
本发明专利技术公开一种基于多智能体强化学习的视频摘要生成方法。视频摘要生成是通过对原有视频的简化和压缩并保留其中的关键信息,在视频监控领域应用前景广阔,可以极大地减轻存储压力并提高工作效率。传统的视频摘要生成方法通过对整体视频进行时间分割,得到每一帧的关键性分数之后,根据分值大小以及所需要的关键帧的数量合成摘要。本发明专利技术提出的基于多智能强化学习的视频摘要生成方法利用多个智能体之间的协同合作特点,对视频的关键帧进行优先级投票选择,模拟人类制作视频摘要数据集关键帧标注的过程,采用多智能体深度确定性策略梯度的方法进行参数的更新,利用Actor

【技术实现步骤摘要】
一种基于多智能体强化学习的视频摘要生成方法


[0001]本专利技术属于多智能体强化学习和视频摘要
,具体涉及一种基于多智能体强化学习的视频摘要生成方法。

技术介绍

[0002]公共区域的摄像头一般都是全天性工作,这给视频存储与关键信息的读取会带来很大的压力。视频摘要技术就是将原本的视频内容进行简化和压缩,只保留其中的有用信息,对视频内容进行全面的总结,因此,高效地处理海量的视频数据,去除其中的冗余信息可以极大地提升工作效率,减轻视频的存储压力。
[0003]现有的视频摘要公开数据集都是通过人工进行标注,对关键帧和关键镜头进行打分,计算几十个人对同一个视频帧的评分,然后对分数进行平均以减少人为标注的主观性。视频摘要的生成模型通过预测帧的评分和关键镜头的选择来生成摘要。由于不同的视频场景,视频关键帧的差异性比较大,通常情况下,要在特定场景下生成视频摘要则需要特定的视频摘要数据集,这种摘要生成方法缺少泛化性,不能很好地应用到其他视频场景中。本专利技术提出的一种基于多智能体强化学习的视频摘要生成方法通过训练多个智能体进行打分,和人一样对视频的关键帧进行决策,就可以减少视频标注过程和数据集的构建过程。现有的视频摘要生成模型大多通过预训练的卷积神经网络提取视频帧的特征,然后通过LSTM(长短期记忆模型)、 self

attention(自注意力机制)或者Transformer提取长范围特征,计算视频帧的重要性分数,通过关键帧的选择和关键镜头生成视频摘要。
[0004]智能体和环境进行交互,根据环境的状态得到的局部观测采取行为,目的是最大化得到的奖励。若存在多个智能体与环境进行交互,整个系统就是一个多智能体系统。在视频摘要生成领域,智能体之间通过完全合作决策的方法,并采用少数服从多数的“Top

K原则”进行关键帧的选择,可以有效的实现视频摘要的生成。

技术实现思路

[0005]为了克服现有技术的不足,本专利技术提供了一种基于多智能体强化学习的视频摘要生成方法,通过多个智能体之间的决策,使得生成的摘要更加的客观,近似人类选择摘要的过程,其保证了生成视频摘要的质量。
[0006]一种基于多智能体强化学习的视频摘要生成方法,包括以下步骤:
[0007]步骤1:通过视频帧提取方法将原视频文件按照视频帧率分解成帧序列图片,按照视频帧的时间顺序使用神经网络模型提取图片特征,并使用自注意力机制提取长范围序列特征。
[0008]步骤2:使用多智能体强化学习的方法对视频进行摘要提取,过程主要包括环境、多智能体、奖励获取和智能体协同四部分;所述的智能体的协同模型建模为:G=<S,A,P,R,O,Z,n,γ>,其中,S是环境的真实状态信息空间;A是智能体的动作空间,每个智能体各自选择一个动作共同组成一个联合动作;P是状态转移函数,表示在前一个状态下执行联合动作
后转移到下一个状态的转移概率;R是全局的回报值,根据之前智能体做出的动作,环境会反馈给智能体相应的奖励;O是局部观测函数,单个智能体根据环境状态S,通过O函数计算得到局部观测;Z是局部观测集,就是智能体在某个时刻接受的是一个独立的部分可观测状态Z;n表示多智能体的个数;γ表示折扣因子,折扣因子与时间范围有关,相较于短期内的奖励更在乎将来的奖励,否则会陷入局部最优解。
[0009]步骤3:设置多智能体强化学习摘要生成过程中的奖励函数:R={R1,R2,

,Rn},其中的R1表示为第一个智能体根据局部观测得到的奖励,R2表示第二个智能体根据局部观测得到的奖励,以此类推,Rn 是第n个智能体得到的全局奖励。
[0010]步骤4:多智能体之间采用完全合作的策略,根据提取到的图片特征和长范围序列特征,选择出视频的关键帧,并利用“Top

K原则”,即少数服从多数,选择视频关键信息帧。
[0011]步骤5:采用策略集成的方法,对K个不同智能体生成的子策略进行汇总,每个回合的决策中,单个智能体随机地选择一个特定的子策略进行迭代更新。
[0012]步骤6:采用多智能体深度确定性策略梯度方法进行参数的更新,θ=(θ1,θ2,...,θ
n
)表示n个智能体策略的参数,策略π=(π1,π2...,π
n
),策略π和状态信息s
t
构建联合动作状态值函数态值函数第t个智能体的累积期望奖励是J(θ
t
)=E[R
t
]。
[0013]步骤7:构建多智能体Actor

Critic框架,智能体想要学习到最优策略,需要考虑联合策略的动作状态值函数,采用集中式训练、分布式执行的方式,允许智能体在训练的过程中获取其他智能体的数据。
[0014]所述的步骤3中的累积期望奖励为其中x表示此时智能体此时选择的关键帧信息。
[0015]所述的步骤5中的策略集成方法为每个智能体学习多条策略,改进时利用所有策略的整体效果进行优化,以提高算法的稳定性和鲁棒性。
[0016]所述的步骤7中的多智能Actor

Critic框架,采取集中式的Critic,训练过程中可以获取其他智能体的数据信息;通过训练得到最优策略,应用的时候仅需要利用智能体的观测得到的局部信息就能输出最优动作,利用所有策略整体效果进行优化,提高算法的稳定性。
附图说明
[0017]图1是多智能体强化学习视频摘要生成方法中的Actor

Critic框架图。
[0018]图2是多智能体强化学习视频摘要生成方法的网络结构图。
[0019]图3是多智能体强化学习视频摘要生成方法的流程图。
具体实施方式
[0020]下面结合实例和附图对本专利技术的一种基于多智能体强化学习视频摘要生成方法做出详细说明。
[0021]本专利技术的一种基于多智能体强化学习视频摘要生成方法,涉及特征提取、多智能体强化学习、协同决策等领域。视频摘要技术主要是对原始视频中的冗余部分进行简化和压缩,保留其中的具有代表性的信息,摘要视频因为只保留了其中的关键信息,可以很好地
提高存储效率,而且方便工作人员的查询。本专利技术采用多智能体强化学习的方法去生成视频摘要,利用了多智能体协同合作决策的特点,很好地模拟了人类做视频摘要数据集的关键帧标注过程。
[0022]本专利技术的一种基于多智能体强化学习视频摘要生成方法,包括以下步骤:
[0023]步骤1:利用视频帧提取技术将原视频文件分解成帧序列图片,按照时间序列进行图片的排序,利用在ImageNet数据集上预训练的卷积神经网络模型提取图片特征向量x

,然后使用自注意力机制,提取长范围特征向量x

,进行向量加得到帧序列特征x=x

+x


[0024]步骤2:根据多智能体强化学习方法,构建多智能本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于多智能体强化学习的视频摘要生成方法,其特征在于:包括以下步骤:步骤1:通过视频帧提取方法将原视频文件按照视频帧率分解成帧序列图片,按照视频帧的时间顺序使用神经网络模型提取图片特征,并使用自注意力机制提取长范围序列特征;步骤2:使用多智能体强化学习方法对视频进行摘要提取,过程主要包括环境、多智能体、奖励获取和智能体协同四部分;所述的多智能体的协同模型建模为:G=<S,A,P,R,O,Z,n,γ>,其中,S是环境的真实状态信息空间;A是智能体的动作空间,每个智能体各自选择一个动作共同组成一个联合动作;P是状态转移函数,表示在前一个状态下执行联合动作后转移到下一个状态的转移概率;R是全局的回报值,根据之前智能体做出的动作,环境会反馈给智能体相应的奖励;O是局部观测函数,单个智能体根据环境状态S,通过O函数计算得到局部观测;Z是局部观测集,就是智能体在某个时刻接受的是一个独立的部分可观测状态Z;n表示多智能体的个数;γ表示折扣因子,折扣因子与时间范围有关,相较于短期内的奖励更在乎将来的奖励,否则会陷入局部最优解;步骤3:设置多智能体强化学习视频摘要生成过程中的奖励函数为:R={R1,R2,

,Rn},其中的R1表示为第一个智能体根据局部观测得到的奖励,R2表示第二个智能体根据局部观测得到的奖励,以此类推,Rn表示第n个智能体得到的全局奖励;步骤4:多智能体之间采用完全合作的策略,根据提取到的视频帧图片特征和长范围序列特征,选择出视频的关键帧,并利用“Top

K原则”,即少数服从多数,选择视频关键信息帧;步骤5:采用策略集成的方法,对K个不同智能体生成的子策略进行汇总,每个回...

【专利技术属性】
技术研发人员:周睿方家璇王金强周庆国雍宾宾
申请(专利权)人:兰州大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1