当前位置: 首页 > 专利查询>王斌专利>正文

面向司法图文数据的跨模态检索方法技术

技术编号:38388794 阅读:32 留言:0更新日期:2023-08-05 17:42
本申请涉及多模态数据检索领域,尤其涉及一种面向司法图文数据的跨模态检索方法,包括:确定待构建庭审项目,以及获取原始视频数据、原始音频数据和原始文本数据,以及分别进行特征提取,得到提取视频数据、提取音频数据和提取文本数据并且针对标准多模态数据检索网络进行训练,得到多模态庭审数据检索网络;输入待检索庭审项目至多模态庭审数据检索网络,得到相应的原始视频数据、原始音频数据或者原始文本数据。本申请通过针对待构建庭审项目的提取视频数据、提取音频数据和提取文本数据,构建关于待构建庭审项目的多模态庭审数据检索网络,将待构建庭审项目的多模态数据进行统一空间的存储,方便对待构建庭审项目进行检索。索。索。

【技术实现步骤摘要】
面向司法图文数据的跨模态检索方法


[0001]本申请涉及多模态数据检索领域,尤其涉及一种面向司法图文数据的跨模态检索方法。

技术介绍

[0002]随着科技的发展与时代的进步,法庭案件审理数量逐渐增多,法庭案件记录也越来越多。常见并一直使用的记录方法是利用纸质文件记录整场审判的过程。但利用纸质文件记录缺点很多,首先随着年份的增长,纸质文件会越来越多,需要占用更多的空间进行保存。其次,利用纸质文件并不环保,因为审判时间较长,记录文件体积普遍较为庞大,一份庭审记录需要大量纸张才可以打印完全。第三,不便于查找。对于某一年份或某一特定卷宗的查找难度相对较低,如果要查找特定卷宗中的特定文字内容,需要人工进行全文件阅读才能准确定位,但这样做工作量很大,效率偏低。
[0003]通常需要查找的数据不仅仅是文本数据,庭审过程中的相关记录文件形式还有视频和音频,对于视频有效信息的定位也是耗时耗力的,在没有文本文件记录的情况下,需要对整个视频文件进行查看才能实现定位。
[0004]目前法院对于有关于庭审记录的检索需求是实现文本、音频和视频三个模态数据之间的检索。现有的多个媒体数据之间可以检索的方式通常是采用多任务网络,但并不可以专门用于法庭案件审理应用场景,专业性不强,应用场景不符合。

技术实现思路

[0005]本申请提供了一种面向司法图文数据的跨模态检索方法,能够解决现有的庭审文件检索方法不能够专门用于法庭案件审理的问题。
[0006]本申请的技术方案是一种面向司法图文数据的跨模态检索方法,包括:<br/>[0007]S1:确定若干个待构建庭审项目,以及基于待构建庭审项目,相应地获取原始视频数据、原始音频数据和原始文本数据;
[0008]S2:基于待构建庭审项目,分别对原始视频数据、原始音频数据和原始文本数据进行特征提取,相应地得到以相同存储形式进行存储的提取视频数据、提取音频数据和提取文本数据;
[0009]S3:通过若干个待构建庭审项目的提取视频数据、提取音频数据和提取文本数据,针对标准多模态数据检索网络进行训练,得到多模态庭审数据检索网络;
[0010]S4:获取待检索庭审项目并且输入待检索庭审项目至多模态庭审数据检索网络,得到相应于待检索庭审项目的原始视频数据、原始音频数据或者原始文本数据。
[0011]可选地,其特征在于,所述步骤S2包括:
[0012]S21:针对原始视频数据进行分段处理,得到分段视频数据,以及通过MovieNet对分段视频数据进行特征提取,得到提取视频数据;
[0013]S22:针对原始音频数据进行分段处理,得到分段音频数据,以及通过AudioNet对
分段音频数据进行特征提取,得到提取音频数据;
[0014]S23:通过Bert对原始文本数据进行特征提取,得到包括若干个单词向量的提取文本数据。
[0015]可选地,所述步骤S3包括:
[0016]S31:通过若干个待构建庭审项目的提取视频数据、提取音频数据和提取文本数据,针对标准多模态数据检索网络进行训练,得到多模态庭审数据初步网络;
[0017]S32:确定测试庭审项目并且输入测试庭审项目至多模态庭审数据检索网络,通过mAP曲线、PR曲线和top

N精度对多模态庭审数据检索网络进行评估,得出评估结果;
[0018]判断评估结果是否符合预设的评估标准,如果符合,以多模态庭审数据初步网络作为多模态庭审数据检索网络;
[0019]如果不符合,通过评估结果优化多模态庭审数据初步网络,得到多模态庭审数据检索网络。
[0020]有益效果:
[0021]本申请通过针对待构建庭审项目的提取视频数据、提取音频数据和提取文本数据,构建关于待构建庭审项目的多模态庭审数据检索网络,将待构建庭审项目的多模态数据进行统一空间的存储,方便对待构建庭审项目进行检索,因此本申请能够解决现有的庭审文件检索方法不能够专门用于法庭案件审理的问题。
附图说明
[0022]为了更清楚地说明本申请的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0023]图1为本申请实施例中面向司法图文数据的跨模态检索方法的流程示意图。
具体实施方式
[0024]下面将详细地对实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下实施例中描述的实施方式并不代表与本申请相一致的所有实施方式。仅是与权利要求书中所详述的、本申请的一些方面相一致的系统和方法的示例。
[0025]本申请提供了一种面向司法图文数据的跨模态检索方法,如图1所示,图1为本申请实施例中面向司法图文数据的跨模态检索方法的流程示意图,包括:
[0026]S1:确定若干个待构建庭审项目,以及基于待构建庭审项目,相应地获取原始视频数据、原始音频数据和原始文本数据。
[0027]具体地,预处理数据集。庭审的原始视频数据和原始音频数据往往时长较长,需要对对原始视频数据和原始音频数据加入标注,以便于后续的特征提取。
[0028]S2:基于待构建庭审项目,分别对原始视频数据、原始音频数据和原始文本数据进行特征提取,相应地得到以相同存储形式进行存储的提取视频数据、提取音频数据和提取文本数据。
[0029]其中,所述步骤S2包括:
[0030]S21:针对原始视频数据进行分段处理,得到分段视频数据,以及通过MovieNet对分段视频数据进行特征提取,得到提取视频数据;
[0031]S22:针对原始音频数据进行分段处理,得到分段音频数据,以及通过AudioNet对分段音频数据进行特征提取,得到提取音频数据;
[0032]S23:通过Bert对原始文本数据进行特征提取,得到包括若干个单词向量的提取文本数据。
[0033]具体地,针对视频模态:首先对视频进行分段处理,利用MovieNet提取每一段视频的特征。
[0034]针对音频模态:首先对视频进行分段处理,利用AudioNet提取音频的特征,并转换为对应的文本数据。
[0035]针对文本模态:利用Bert模型对文本数据进行特征提取。整个文本的表示是所有单词向量的集合,表示为{t
i
,
……
,t
j
}。
[0036]S3:通过若干个待构建庭审项目的提取视频数据、提取音频数据和提取文本数据,针对标准多模态数据检索网络进行训练,得到多模态庭审数据检索网络。
[0037]其中,所述步骤S3包括:
[0038]S31:通过若干个待构建庭审项目的提取视频数据、提取音频数据和提取文本数据,针对标准多模态数据检索网络进行训练,得到多模态庭审数据初步网络。
[0039]具体地,将三种模态数据进行转换,映射到同本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种面向司法图文数据的跨模态检索方法,其特征在于,包括:S1:确定若干个待构建庭审项目,以及基于待构建庭审项目,相应地获取原始视频数据、原始音频数据和原始文本数据;S2:基于待构建庭审项目,分别对原始视频数据、原始音频数据和原始文本数据进行特征提取,相应地得到以相同存储形式进行存储的提取视频数据、提取音频数据和提取文本数据;S3:通过若干个待构建庭审项目的提取视频数据、提取音频数据和提取文本数据,针对标准多模态数据检索网络进行训练,得到多模态庭审数据检索网络;S4:获取待检索庭审项目并且输入待检索庭审项目至多模态庭审数据检索网络,得到相应于待检索庭审项目的原始视频数据、原始音频数据或者原始文本数据。2.根据权利要求1所述的面向司法图文数据的跨模态检索方法,其特征在于,所述步骤S2包括:S21:针对原始视频数据进行分段处理,得到分段视频数据,以及通过MovieNet对分段视频数据进行特征提取,得到提取视频数...

【专利技术属性】
技术研发人员:王斌宋志鹏蒋婕李廷超曹又潮迟鹭璎
申请(专利权)人:王斌
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1