微创手术视频摘要生成方法技术

技术编号:38470684 阅读:11 留言:0更新日期:2023-08-11 14:47
本发明专利技术提供了一种微创手术视频摘要生成方法,涉及视频摘要生成技术领域。本发明专利技术提出了基于手术行为语义标签的帧级重要性估计,根据微创手术视频相邻帧手术行为的语义标签变化,估计帧级重要性分数,捕捉视频中包含更多有价值的手术信息,突破了现有方法提取手术视频关键内容的局限性。同时本发明专利技术基于变化点检测的镜头切分方法,以手术器械的消失或出现为原则对手术视频进行切分镜头,克服了视觉上手术视频没有镜头边界的缺陷。且多目标0,1规划方法选择镜头能保证生成的微创手术视频摘要具有较好的手术阶段完整性,更能满足医生对手术过程的需求。术过程的需求。术过程的需求。

【技术实现步骤摘要】
微创手术视频摘要生成方法


[0001]本专利技术涉及视频摘要生成
,具体涉及一种微创手术视频摘要生成方法。

技术介绍

[0002]微创手术视频摘生成要是提取微创手术中的关键内容,让医生快速了解微创手术过程以及加速微创手术知识分享,有助于医生快速了解微创手术过程,节省了观看微创手术视频的时间成本。
[0003]现有的微创手术视频摘要生成大多是仅针对视频的图像特征(色彩、亮度等)进行重要性评估,进而得到视频摘要。
[0004]因此,现有的视频摘要生成方法未考虑到微创手术阶段等先验信息的约束,会使得视频摘要缺失部分微创手术阶段信息,无法保证视频摘要中微创手术阶段的完整性。

技术实现思路

[0005](一)解决的技术问题
[0006]针对现有技术的不足,本专利技术提供了一种微创手术视频摘要生成方法,解决了现有技术生成的视频摘要无法保证微创手术阶段的完整性的问题。
[0007](二)技术方案
[0008]为实现以上目的,本专利技术通过以下技术方案予以实现:
[0009]一种微创手术视频摘要生成方法,该方法包括:
[0010]基于微创手术视频获取每一帧的微创手术行为语义标签以及微创手术阶段标签;其中,所述微创手术行为语义标签包括器械标签、动作标签、目标标签;
[0011]基于微创手术行为语义标签获取微创手术视频每一帧的重要性分数;
[0012]基于微创手术阶段标签将微创手术视频拆分为对应的多个视频片段,并根据器械的消失或出现将每个视频片段切分成若干镜头;所述镜头包括若干微创手术视频帧;
[0013]基于微创手术行为语义标签获取镜头之间的语义相似度;
[0014]基于镜头之间的语义相似度和微创手术视频每一帧的重要性分数选择若干镜头组成微创手术视频摘要。
[0015]进一步的,所述基于微创手术视频获取每一帧的微创手术行为语义标签以及微创手术阶段标签,包括:
[0016]对微创手术视频进行预处理获取微创手术图像;
[0017]基于预训练的卷积神经网络,提取微创手术图像的视频帧图像特征;
[0018]将视频帧图像特征分别输入器械分类网络、动作分类网络、目标分类网络、微创手术阶段分类网络,得到微创手术行为语义标签以及微创手术阶段标签。
[0019]进一步的,所述基于微创手术行为语义标签获取微创手术视频每一帧的重要性分数,包括:
[0020]通过相邻两帧的微创手术行为语义标签的欧式距离加权和计算每一帧的重要性
分数。
[0021]进一步的,所述基于微创手术阶段标签将微创手术视频拆分为对应的多个视频片段,并根据器械的消失或出现将每个视频片段切分成若干镜头,包括:
[0022]基于微创手术阶段标签将微创手术视频拆分为对应的多个视频片段;
[0023]对每一帧器械语义标签中所有器械类别出现概率求均值得到帧级器械存在平均概率;
[0024]将各个视频片段内所有帧的器械存在平均概率输入到变化点检测模型中得到各个视频片段的镜头边界集合;
[0025]基于镜头边界集合将各个视频片段划分为若干个镜头。
[0026]进一步的,所述镜头之间的语义相似度的计算方法为:
[0027][0028][0029]其中,l(M
α
,N
β
)表示镜头M=[M1,

,M
α


,M
m
]和镜头N=[N1,

,N
β


,N
n
]的语义相似度;m和n分别表示镜头M和N包含的帧的数量;
[0030]表示镜头M中第α帧的微创手术行为语义标签;
[0031]N
β
表示镜头N中第β帧的微创手术行为语义标签。
[0032]进一步的,所述基于镜头之间的语义相似度和微创手术视频每一帧的重要性分数选择若干镜头组成微创手术视频摘要,包括:
[0033]获取以最大化选择镜头的重要性分数之和以及最小化选择镜头语义标签的余弦相似度为目标的多目标规划模型;
[0034]求解所述多目标规划模型筛选出若干个镜头组合成为视频摘要。
[0035]进一步的,所述多目标规划模型的目标函数包括:
[0036][0037]minf2(x)=XBX
T
[0038]且约束条件包括:
[0039][0040]其中,maxf1(x)表示最大化选择镜头的重要性分数之和;
[0041]minf2(x)表示最小化选择镜头语义标签的余弦相似度;
[0042]E表示按阶段切分的视频片段数量;
[0043]N
a
表示第a个视频片段的镜头数量;
[0044]s
ab
表示第a个视频片段第b个镜头的重要性分数,且s
ab
由该镜头内所有帧的重要性分数si的均值得到;
[0045]l
ab
表示第a个视频片段第b个镜头的长度;
[0046]B表示镜头间微创手术行为的相似度矩阵,且B中的每个元素都是通过相似度计算得到;
[0047]x
ab
∈{0,1}表示是否选择镜头,1表示选择该镜头,0表示不选择;
[0048]X表示关于x
ab
的向量,X=[x
00
,x
01


,x
ab


];
[0049]β表示摘要长度占原视频长度的比例。
[0050]进一步的,将视频帧图像特征分别输入器械分类网络、动作分类网络、目标分类网络得到微创手术行为语义标签,包括:
[0051]将视频帧图像特征分别输入到预训练的器械卷积网络、动作卷积网络、目标分类网络得到对应的器械卷积特征、动作卷积特征和目标卷积特征;
[0052]将器械卷积特征、动作卷积特征和目标卷积特征拼接,再输入到transformer模型中与标签嵌入向量进行匹配,得到微创手术行为语义标签。
[0053]进一步的,将视频帧图像特征输入微创手术阶段分类网络,得到微创手术阶段标签,包括:
[0054]将视频帧图像特征输入到预训练的长短期记忆网络中捕获时序特征,再通过两层全连接层得到初步识别结果;
[0055]再将全连接层的输出结果输入到条件随机场,修正不合理的微创手术阶段识别结果,得到最终的识别结果。
[0056](三)有益效果
[0057]本专利技术提供了一种微创手术视频摘要生成方法。与现有技术相比,具备以下有益效果:
[0058]1、本专利技术提出了基于手术行为语义标签的帧级重要性估计,根据微创手术视频相邻帧手术行为的语义标签变化,估计帧级重要性分数,捕捉视频中包含更多有价值的手术信息,突破了现有方法提取手术视频关键内容的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种微创手术视频摘要生成方法,其特征在于,该方法包括:基于微创手术视频获取每一帧的微创手术行为语义标签以及微创手术阶段标签;其中,所述微创手术行为语义标签包括器械标签、动作标签、目标标签;基于微创手术行为语义标签获取微创手术视频每一帧的重要性分数;基于微创手术阶段标签将微创手术视频拆分为对应的多个视频片段,并根据器械的消失或出现将每个视频片段切分成若干镜头;所述镜头包括若干微创手术视频帧;基于微创手术行为语义标签获取镜头之间的语义相似度;基于镜头之间的语义相似度和微创手术视频每一帧的重要性分数选择若干镜头组成微创手术视频摘要。2.如权利要求1所述的一种微创手术视频摘要生成方法,其特征在于,所述基于微创手术视频获取每一帧的微创手术行为语义标签以及微创手术阶段标签,包括:对微创手术视频进行预处理获取微创手术图像;基于预训练的卷积神经网络,提取微创手术图像的视频帧图像特征;将视频帧图像特征分别输入器械分类网络、动作分类网络、目标分类网络、微创手术阶段分类网络,得到微创手术行为语义标签以及微创手术阶段标签。3.如权利要求1所述的一种微创手术视频摘要生成方法,其特征在于,所述基于微创手术行为语义标签获取微创手术视频每一帧的重要性分数,包括:通过相邻两帧的微创手术行为语义标签的欧式距离加权和计算每一帧的重要性分数。4.如权利要求1所述的一种微创手术视频摘要生成方法,其特征在于,所述基于微创手术阶段标签将微创手术视频拆分为对应的多个视频片段,并根据器械的消失或出现将每个视频片段切分成若干镜头,包括:基于微创手术阶段标签将微创手术视频拆分为对应的多个视频片段;对每一帧器械语义标签中所有器械类别出现概率求均值得到帧级器械存在平均概率;将各个视频片段内所有帧的器械存在平均概率输入到变化点检测模型中得到各个视频片段的镜头边界集合;基于镜头边界集合将各个视频片段划分为若干个镜头。5.如权利要求3所述的一种微创手术视频摘要生成方法,其特征在于,所述镜头之间的语义相似度的计算方法为:语义相似度的计算方法为:其中,l(M
α
,N
β
)表示镜头M=[M1,

,M
α
,

,M
m
]和镜头N=[N1,

,N
β
,

,N
n
]的语义相似度;m和n分别表示镜头M和N包含的帧的数量;表示镜头M中第α帧的微创手术行为语义标签;N
β
...

【专利技术属性】
技术研发人员:苏伊阳王浩丁帅李诗惠朱源波
申请(专利权)人:合肥工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1