视频与字幕的匹配方法和装置制造方法及图纸

技术编号:16236654 阅读:55 留言:0更新日期:2017-09-19 16:28
本发明专利技术公开了视频与字幕的匹配方法和装置,所述方法包括:获取待匹配的视频片段和待匹配的一个或多个字幕文件;从所获取的视频片段中提取出各个语音片段的关联语音时间信息以及从所述待匹配的一个或多个字幕文件中提取出字幕时间信息;分别基于相同的规则,根据所提取的关联语音时间信息以及字幕时间信息生成所述视频片段的视频特征向量以及所述一个或多个字幕文件的字幕特征向量;基于所生成的视频特征向量和字幕特征向量,确定与所述视频片段匹配的字幕文件。本发明专利技术的技术方案,通过字幕特征向量与视频特征向量确定与视频片段匹配的字幕文件,解决了因视频字幕匹配错误给用户造成的困扰,从根本上保证了视频片段与字幕文件匹配的正确性。

Method and device for matching video and caption

The invention discloses a method and device for matching video with subtitles, the method comprises: obtaining matching video clips and matching one or more subtitle file; from the acquired video clips extracted extracted subtitles time information associated with speech and time information of each speech segment as well as from the matching one or more of the subtitle file; based on the same rules respectively, according to the caption feature vectors associated with voice time information and video feature information generating subtitles time the video segment and the one or more subtitle file; video feature vector and subtitle feature vector based on the generated. Sure, the subtitle file and the video clip. The technical scheme of the invention, determine the subtitle file matching and video clips by subtitles feature vector and video feature vector, solves the error caused to the user, because the video caption problems, fundamentally to ensure the correctness of the video clips, and subtitle file.

【技术实现步骤摘要】
视频与字幕的匹配方法和装置
本专利技术实施例涉及多媒体
,尤其涉及一种视频与字幕的匹配方法和装置。
技术介绍
随着互联网技术和多媒体技术的不断发展,富有表现力及观赏性的视频作为信息的载体之一,受到众多用户的青睐。为了更好地展示视频内容,在用户观看视频的时候,通常会同步显示与视频所对应的字幕,便于用户理解视频内容,提升用户观看视频的体验。现有技术的视频与字幕匹配采用的是文件名匹配的方法,即提取出目标视频的文件名,然后在字幕文件的集合中,将目标视频的文件名和各个字幕文件的文件名进行匹配,找到文件名最匹配的字幕文件,选取这个字幕文件作为视频的字幕文件来播放。但是如果字幕文件名命名不准确或者命名错误,将会直接影响字幕文件的选取,导致所选取的字幕文件的准确性十分的不稳定,而且字幕的文件名是十分容易被修改的,如果随意一个字幕文件被改成了视频相关的名字,就可能造成错误的匹配,为用户的视频观看造成困扰。
技术实现思路
本专利技术提供一种视频与字幕的匹配方法和装置,以解决视频与字幕易匹配错误的问题,实现视频与字幕的准确匹配。第一方面,本专利技术实施例提供了一种视频与字幕的匹配方法,该方法包括:获取待匹配的视频片段和待匹配的一个或多个字幕文件;从所获取的视频片段中提取出各个语音片段的关联语音时间信息以及从所述待匹配的一个或多个字幕文件中提取出字幕时间信息;分别基于相同的规则,根据所提取的关联语音时间信息以及字幕时间信息生成所述视频片段的视频特征向量以及所述一个或多个字幕文件的字幕特征向量;基于所生成的视频特征向量和字幕特征向量,确定与所述视频片段匹配的字幕文件。第二方面,本专利技术实施例还提供了视频与字幕的匹配装置,该装置包括:获取单元,用于获取待匹配的视频片段和待匹配的一个或多个字幕文件;视频特征提取单元,用于从所获取的视频片段中提取出各个语音片段的关联语音时间信息;字幕特征提取单元,用于从所述待匹配的一个或多个字幕文件中提取出字幕时间信息;特征向量生成单元,用于分别基于相同的规则,根据所提取的关联语音时间信息以及字幕时间信息生成所述视频片段的视频特征向量以及所述一个或多个字幕文件的字幕特征向量;确定单元,用于基于所生成的视频特征向量和字幕特征向量,确定与所述视频片段匹配的字幕文件。本专利技术所采用的技术方案,从所获取的视频片段中提取出各个语音片段的关联语音时间信息,根据所述关联语音时间信息生成视频片段的视频特征向量,从所获取的一个或多个字幕文件中提取出字幕时间信息,根据所述字幕时间信息生成所述一个或多个字幕文件的字幕特征向量,进而基于所述视频特征向量与所述字幕特征向量,确定与视频片段匹配的字幕文件,解决了因视频字幕匹配错误给用户造成的困扰,从根本上保证了视频中字幕匹配的正确性。附图说明通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本专利技术的其它特征、目的和优点将会变得更明显:图1为本专利技术实施例一提供的视频与字幕的匹配方法的流程图;图2是本专利技术实施例二提供的视频与字幕的匹配方法的流程图;图3是本专利技术实施例三提供的视频与字幕的匹配方法的流程图;图4是本专利技术实施例四提供的视频与字幕的匹配方法的流程图;图5是本专利技术实施例五提供的视频与字幕的匹配装置的结构图。具体实施方式为了使本专利技术的目的、技术方案和优点更加清楚,下面结合附图对本专利技术具体实施例作进一步地详细描述。可以理解的是,此处所描述的具体实施例仅仅用于解释本专利技术,而非对本专利技术的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本专利技术相关的部分而非全部内容。在更加详细地讨论示例性实施例之前应当提到的是,一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各项操作(或步骤)描述成顺序的处理,但是其中的许多操作可以被并行地、并发地或者同时实施。此外,各项操作的顺序可以被重新安排。当其操作完成时所述处理可以被终止,但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。实施例一图1为本专利技术实施例一提供的视频与字幕的匹配方法的流程图,本实施例的方法可以由视频与字幕的匹配装置来执行,该装置可通过硬件和/或软件的方式实现,并一般可以集成于需要获取匹配的字幕文件的客户端中,与用于提供字幕文件和/或视频片段的服务器配合使用。本实施例的方法具体包括:S110、获取待匹配的视频片段和待匹配的一个或多个字幕文件。在本操作中,视频片段可以是一个完整的电影、动画片、综艺节目、培训课程等等,也可以是视频中的任一片段,或者视频中任意几个片段剪辑拼接后生成的片段;所述视频片段中的语音信息通常是人的声音,或者是处理后可以识别为人声的声音,包括动画片中的配音或合成的声音,可以是说话的声音、唱歌的声音等。通常,待匹配的视频片段为用户选择播放的目标视频片段,要确定与目标视频片段所匹配的字幕文件,往往需要从本地或在线的字幕文件库中查找,所述字幕文件库中往往包括一个或多个待匹配的字幕文件。考虑到视频片段的长度及内容的差异性,可以理解的是,与所述待匹配的视频片段匹配的字幕文件可能为一个或多个。例如,一个内容较长或者拼接的视频片段,可能会对应于多个待匹配的字幕文件。S120、从所获取的视频片段中提取出各个语音片段的关联语音时间信息以及从所述待匹配的一个或多个字幕文件中提取出字幕时间信息。在本操作中,各个语音片段的关联语音时间信息可以为与各个语音片段相关联的时间节点信息或时间段信息,具体地,可以包括各个语音片段的起始时间节点信息和终止时间节点信息、各个相邻语音片段之间的时间间隔信息以及各个语音片段的时长信息等。类似地,字幕时间信息可以为字幕文件中的与字幕内容相关联的时间节点信息或时间段信息。考虑到获取视频片段中各个语音片段的关联语音时间信息,相比较于通过语音识别技术识别出视频片段的语音内容,提取出各个语音片段的关联语音时间信息相对简单,而且字幕文件中通常仅包含字幕内容及对应的字幕时间信息,因此,优选是从所获取的视频片段中提取出各个语音片段的关联语音时间信息以及从所述待匹配的一个或多个字幕文件中提取出字幕时间信息,以表征视频片段以及字幕文件的特征。S130、分别基于相同的规则,根据所提取的关联语音时间信息以及字幕时间信息生成所述视频片段的视频特征向量以及所述一个或多个字幕文件的字幕特征向量。在本操作中,根据所提取的关联语音时间信息生成所述视频片段的视频特征向量,可根据所提取出的全部关联语音时间信息生成所述视频片段的视频特征向量,使得视频片段的特征信息表征地更加详尽、丰富;也可根据所提取出的部分关联语音时间信息生成所述视频片段的视频特征向量,降低视频特征向量的维度,可以在保证准确性的同时,更加快速地确定与所述视频片段匹配的字幕文件。可以理解的是,所述一个或多个字幕文件的字幕特征向量,基于相同的规则,可根据所提取的全部或部分字幕时间信息生成。而且基于相同的规则所生成的所述字幕特征向量,通常与所述视频特征向量的元素个数相同,维度相同。分别基于相同的规则,根据所提取的关联语音时间信息生成所述视频片段的视频特征向量,以及根据所提取字幕时间信息生成所述一个或多个字幕文件的字幕特征向量,这样设置的好处在于,可以从根本上保证视频特征向量与字幕特征本文档来自技高网...
视频与字幕的匹配方法和装置

【技术保护点】
一种视频与字幕匹配方法,其特征在于,包括:获取待匹配的视频片段和待匹配的一个或多个字幕文件;从所获取的视频片段中提取出各个语音片段的关联语音时间信息以及从所述待匹配的一个或多个字幕文件中提取出字幕时间信息;分别基于相同的规则,根据所提取的关联语音时间信息以及字幕时间信息生成所述视频片段的视频特征向量以及所述一个或多个字幕文件的字幕特征向量;基于所生成的视频特征向量和字幕特征向量,确定与所述视频片段匹配的字幕文件。

【技术特征摘要】
1.一种视频与字幕匹配方法,其特征在于,包括:获取待匹配的视频片段和待匹配的一个或多个字幕文件;从所获取的视频片段中提取出各个语音片段的关联语音时间信息以及从所述待匹配的一个或多个字幕文件中提取出字幕时间信息;分别基于相同的规则,根据所提取的关联语音时间信息以及字幕时间信息生成所述视频片段的视频特征向量以及所述一个或多个字幕文件的字幕特征向量;基于所生成的视频特征向量和字幕特征向量,确定与所述视频片段匹配的字幕文件。2.根据权利要求1所述的方法,其特征在于,从所获取的视频片段中提取出各个语音片段的关联语音时间信息包括:从所获取的视频片段中提取出音频数据;对所提取出的音频数据进行频谱分析,将符合语音频谱特性的音频数据作为语音数据;基于所得到的语音数据,获取各个语音片段及对应的关联语音时间信息。3.根据权利要求1或2所述的方法,其特征在于,所述关联语音时间信息是各个相邻语音片段之间的时间间隔信息,所述字幕时间信息是各个相邻字幕片段之间的时间间隔信息,以及所述分别基于相同的规则,根据所提取的关联语音时间信息以及字幕时间信息生成所述视频片段的视频特征向量以及所述一个或多个字幕文件的字幕特征向量包括:分别基于相同的规则,根据各个相邻语音片段之间的时间间隔信息生成视频片段的视频特征向量,以及根据各个相邻字幕片段之间的时间间隔信息,生成所述一个或多个字幕文件的字幕特征向量。4.根据权利要求1或2所述的方法,其特征在于,所述关联语音时间信息是各个语音片段的时长信息,所述字幕时间信息是各个字幕片段的时长信息,以及所述分别基于相同的规则,根据所提取的关联语音时间信息以及字幕时间信息生成所述视频片段的视频特征向量以及所述一个或多个字幕文件的字幕特征向量包括:分别基于相同的规则,根据各个语音片段的时长信息生成视频片段的视频特征向量,以及根据各个字幕片段的时长信息生成所述一个或多个字幕文件的字幕特征向量。5.根据权利要求1-4任一所述的方法,其特征在于,基于所生成的视频特征向量和字幕特征向量,确定与所述视频片段匹配的字幕文件包括:计算所生成的视频特征向量和字幕特征向量之间的空间相似度;以及根据所计算出的空间相似度,确定...

【专利技术属性】
技术研发人员:刘青谢涛
申请(专利权)人:百度在线网络技术北京有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1