当前位置: 首页 > 专利查询>中国科学院香港创新研究院人工智能与机器人创新中心有限公司专利>正文

手术视频描述方法、装置、电子设备和存储介质制造方法及图纸

技术编号：41273019 阅读：18 留言：0更新日期：2024-05-11 09:26

本发明专利技术涉及医疗技术领域，提供一种手术视频描述方法、装置、电子设备和存储介质，方法包括：获取待描述的手术视频；基于视觉编码器，提取手术视频的空间和时间特征，得到视觉令牌特征；基于文本编码器，提取上一次解码文本的文本特征，得到文本令牌特征；基于二分图融合器，将视觉令牌特征和文本令牌特征进行融合，得到融合特征；基于解码器，对视觉令牌特征、文本令牌特征和融合特征进行解码，得到当前次解码文本，并将最终解码文本作为手术视频的描述文本。本发明专利技术提供的手术视频描述方法、装置、电子设备和存储介质，能够实现自动化端到端的手术视频的描述文本生成，提高描述文本的生成效率和质量。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及医疗，尤其涉及一种手术视频描述方法、装置、电子设备和存储介质。

技术介绍

1、在当今医疗领域，自动化的手术视频描述技术正成为一个重要的研究领域。该技术能够解析复杂的手术步骤并自动生成自然语言描述，有望显著减轻医生在手术过程中的工作负担，如实时提供手术指导、编写术后报告，甚至有助于医学生和初级医生的培训。

2、目前关于手术视频自动描述的研究主要依赖于视觉编码器和文本解码器。视觉编码器负责提取视频中的视觉要素，而文本解码器则将这些要素转换为文字描述。在一些研究中，使用预先训练好的物体检测器作为视觉编码器来捕捉关键的视觉信息，这些信息随后被用于文本生成。但这种方法通常需要额外的注释信息(如物体边界框)来预训练视觉编码器，并且难以对整个描述网络进行端到端的训练。为了提升效率和性能，部分研究探索了无检测器策略，促进了视觉编码器与文本解码器之间的联合优化。

3、尽管该领域已取得显著进展，但现有方法仍有改进空间。首先，这些方法未能充分考虑到手术的固有模式对于生成准确描述的重要性。手术视频中的视觉内容通常复杂多变，直接从视觉到文本的映射学习面临重大挑战。其次，现有方法多是线性处理视觉与文本信息，忽视了两种模态间可能存在的语义差异，这限制了模态间知识的有效融合，并可能影响最终的描述质量。

4、因此，亟需提供一种针对手术视频能够生成准确文本描述的方案。

技术实现思路

1、本专利技术提供一种手术视频描述方法、装置、电子设备和存储介质，用以解决现有技术中手

2、本专利技术提供一种手术视频描述方法，包括：

3、获取待描述的手术视频；

4、基于视觉编码器，提取所述手术视频的空间和时间特征，得到视觉令牌特征；

5、基于文本编码器，提取上一次解码文本的文本特征，得到文本令牌特征；

6、基于二分图融合器，将所述视觉令牌特征和所述文本令牌特征进行融合，得到融合特征；

7、基于解码器，对所述视觉令牌特征、所述文本令牌特征和融合特征进行解码，得到当前次解码文本，并将最终解码文本作为所述手术视频的描述文本；

8、其中，所述视觉编码器、所述文本编码器、所述二分图融合器和所述解码器构成手术视频描述模型。

9、根据本专利技术提供的手术视频描述方法，所述手术视频描述模型的训练步骤包括：

10、获取初始模型、样本手术视频以及描述文本标签；

11、基于所述初始模型中的初始视觉编码器，提取所述样本手术视频的空间和时间特征，得到样本视觉特征；

12、基于所述初始模型中的初始文本编码器，提取上一次预测文本的文本特征，得到预测文本特征；

13、基于所述样本视觉特征和所述预测文本特征，确定手术概念学习损失和/或手术概念对齐损失，并基于所述手术概念学习损失和/或手术概念对齐损失，对所述初始模型进行参数迭代，得到所述手术视频描述模型。

14、根据本专利技术提供的手术视频描述方法，所述基于所述样本视觉特征和所述预测文本特征，确定手术概念学习损失和/或手术概念对齐损失，包括：

15、对所述描述文本标签进行解析，得到手术概念标签向量；

16、分别对所述样本视觉特征和所述预测文本特征进行手术概念分类预测，分别得到视觉空间下和文本空间下的手术概念分类预测结果；

17、基于所述视觉空间下和文本空间下的手术概念分类预测结果，以及所述手术概念标签向量，确定所述手术概念学习损失。

18、根据本专利技术提供的手术视频描述方法，所述基于所述样本视觉特征和所述预测文本特征，确定手术概念学习损失和/或手术概念对齐损失，包括：

19、基于所述样本视觉特征，确定视觉空间下的当前手术概念表达和历史手术概念表达；

20、基于所述预测文本特征，确定文本空间下的当前手术概念表达和历史手术概念表达；

21、基于所述视觉空间下的当前手术概念表达和历史手术概念表达，以及所述文本空间下的当前手术概念表达和历史手术概念表达，确定所述手术概念对齐损失。

22、根据本专利技术提供的手术视频描述方法，所述基于所述视觉空间下的当前手术概念表达和历史手术概念表达，以及所述文本空间下的当前手术概念表达和历史手术概念表达，确定所述手术概念对齐损失，包括：

23、基于所述初始模型中的初始二分图融合器，将任一空间下的当前手术概念表达与另一空间下的历史手术概念表达进行对齐，确定所述手术概念对齐损失。

24、根据本专利技术提供的手术视频描述方法，所述基于所述手术概念学习损失和/或手术概念对齐损失，对所述初始模型进行参数迭代，得到所述手术视频描述模型，包括：

25、基于所述初始模型和所述样本手术视频，确定预测文本序列，并基于所述描述文本标签和所述预测文本序列之间的差异，确定预测损失；

26、基于所述手术概念学习损失和/或手术概念对齐损失，以及所述预测损失，对所述初始模型进行参数迭代，得到所述手术视频描述模型。

27、本专利技术还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述手术视频描述方法。

28、本专利技术还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述手术视频描述方法。

29、本专利技术还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述手术视频描述方法。

30、本专利技术提供的手术视频描述方法、装置、电子设备和存储介质，通过手术视频描述模型中的二分图融合器，将视觉令牌特征和文本令牌特征进行融合，在此基础上，对视觉令牌特征、文本令牌特征和融合特征进行解码，得到手术视频的描述文本，能够实现自动化端到端的手术视频的描述文本生成，从而提高描述文本的生成效率和质量。

本文档来自技高网...

【技术保护点】

1.一种手术视频描述方法，其特征在于，包括：

2.根据权利要求1所述的手术视频描述方法，其特征在于，所述手术视频描述模型的训练步骤包括：

3.根据权利要求2所述的手术视频描述方法，其特征在于，所述基于所述样本视觉特征和所述预测文本特征，确定手术概念学习损失和/或手术概念对齐损失，包括：

4.根据权利要求2所述的手术视频描述方法，其特征在于，所述基于所述样本视觉特征和所述预测文本特征，确定手术概念学习损失和/或手术概念对齐损失，包括：

5.根据权利要求4所述的手术视频描述方法，其特征在于，所述基于所述视觉空间下的当前手术概念表达和历史手术概念表达，以及所述文本空间下的当前手术概念表达和历史手术概念表达，确定所述手术概念对齐损失，包括：

6.根据权利要求2至5中任一项所述的手术视频描述方法，其特征在于，所述基于所述手术概念学习损失和/或手术概念对齐损失，对所述初始模型进行参数迭代，得到所述手术视频描述模型，包括：

7.一种手术视频描述装置，其特征在于，包括：

8.一种电子设备，包括存储器、处理器及存储

9.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至6任一项所述手术视频描述方法。

10.一种计算机程序产品，包括计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至6任一项所述手术视频描述方法。

...

【技术特征摘要】

1.一种手术视频描述方法，其特征在于，包括：

2.根据权利要求1所述的手术视频描述方法，其特征在于，所述手术视频描述模型的训练步骤包括：

6.根据权利要...

【专利技术属性】
技术研发人员：陈阵，吴锦林，刘宏斌，王金桥，骆行健，
申请(专利权)人：中国科学院香港创新研究院人工智能与机器人创新中心有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人