基于视频文本信息提取的信息查询方法以及装置制造方法及图纸

技术编号:15691036 阅读:258 留言:0更新日期:2017-06-24 03:55
本发明专利技术涉及一种基于视频文本信息提取的信息查询方法以及装置。该方法包括:从视频文件中提取文本信息;提取所述文本信息中的领域特征词;建立所述领域特征词与文本信息之间的关联;当接收到查询指令时,根据所述查询指令中所携带的关键词,获取与所述关键词对应的领域特征词所关联的文本信息。能够将视频文件中的所有或者大部分文本信息都提取出来,并利用领域特征词与文本信息之间的关联,使得检索结果的召回率高,检索结果更加的准确。

Information inquiry method and device based on video text information extraction

The invention relates to an information inquiry method based on video text information extraction and a device thereof. The method includes: extracting text information from video files; extracting word domain feature of text information in the field; establish the association between the feature words and text information; when receiving inquiry instruction, according to the query keywords contained in the instruction, to obtain the domain feature words corresponding to the keyword the associated text information. Can the video files of all or most of the text information are extracted, and the correlation between field feature words and text information, which makes the search results the recall rate is high, the retrieval result is more accurate.

【技术实现步骤摘要】
基于视频文本信息提取的信息查询方法以及装置
本专利技术涉及信息提取
,具体而言,涉及一种基于视频文本信息提取的信息查询方法以及装置。
技术介绍
在教育行业,自动知识问答作为普遍需求越来越被人们重视。目前的自动问答系统的数据库的构建主要是基于传统的文本检索引擎。这种基于文本标注建立数据库的方式,导致后续的检索也是基于文本检索的。但是随着互联网教育行业的兴起,在线直播、视频课程等形式逐渐替代传统的课堂教学成为主流,大量的音视频都是非文本内容,或者附带的文本内容很少,这导致大量有价值的内容并没有被涵盖在内,数据量的不足,最终导致检索结果的召回率低,检索结果不准确。
技术实现思路
有鉴于此,本专利技术实施例的目的在于提供一种音视频信息查询方法以及装置,能够将视频文件中的所有或者大部分文本信息都提取出来,并利用领域特征词与文本信息之间的关联,使得检索结果的召回率高,检索结果更加的准确。第一方面,本专利技术实施例提供了一种基于视频文本信息提取的信息查询方法,包括:从视频文件中提取文本信息;提取所述文本信息中的领域特征词;建立所述领域特征词与文本信息之间的关联;当接收到查询指令时,根据所述查询指令中所携带的关键词,获取与所述关键词对应的领域特征词所关联的文本信息。结合第一方面,本专利技术实施例提供了第一方面的第一种可能的实施方式,其中:所述从视频文件中提取文本信息,具体包括:从所述视频文件中提取关键帧图像;对关键帧图像进行去噪处理;对关键帧图像中的文字进行定位,获取文字定位图像;识别所述文字定位图像中的所述文本信息。结合第一方面,本专利技术实施例提供了第一方面的第二种可能的实施方式,其中:所述提取所述文本信息中的领域特征词,具体包括:对所述文本信息进行切词处理,形成由词汇构成的视频语料集合;根据所述视频语料集合以及外源语料集合,对所述视频语料集合中的词汇进行筛选,获取领域特征词。结合第一方面,本专利技术实施例提供了第一方面的第三种可能的实施方式,其中:所述根据所述视频语料集合以及外源语料集合,对所述视频语料集合中的词汇进行筛选,获取领域特征词具体包括:对所述视频语料集合中的词汇进行频率统计,获得不同词汇的使用频率;将词汇在视频语料集合中的使用频率与其在外源语料集合中的使用频率进行比对;如果该词汇在视频语料集合中的使用频率较之其在外源语料集合中的使用频率高出预设的阈值,那么就将该词汇作为领域特征词。结合第一方面,本专利技术实施例提供了第一方面的第四种可能的实施方式,其中:还包括:获取文本信息的属性信息;根据所述属性信息,对所述文本信息进行分级,并按照所述分级对所述文本信息进行分级存储。第二方面,本专利技术实施例还提供一种基于视频文本信息提取的信息查询装置,包括:文本信息提取单元,用于从视频文件中提取文本信息;领域特征词提取单元,用于提取所述文本信息中的领域特征词;关联建立单元,用于建立所述领域特征词与文本信息之间的关联;查询单元,用于当接收到查询指令时,根据所述查询指令中所携带的关键词,获取与所述关键词对应的领域特征词所关联的文本信息。结合第二方面,本专利技术实施例提供了第二方面的第一种可能的实施方式,其中:所述文本信息提取单元包括:从关键帧图像提取模块,用于从所述视频文件中提取关键帧图像;去噪模块,用于对关键帧图像进行去噪处理;文字定位模块,用于对关键帧图像中的文字进行定位,获取文字定位图像;文本信息识别模块,用于识别所述文字定位图像中的所述文本信息。结合第二方面,本专利技术实施例提供了第二方面的第二种可能的实施方式,其中:所述领域特征词提取单元包括:切词模块,用于对所述文本信息进行切词处理,形成由词汇构成的视频语料集合;词汇筛选模块,用于根据所述视频语料集合以及外源语料集合,对所述视频语料集合中的词汇进行筛选,获取领域特征词。结合第二方面,本专利技术实施例提供了第二方面的第三种可能的实施方式,其中:所述词汇筛选模块包括:频率统计子模块,用于对所述视频语料集合中的词汇进行频率统计,获得不同词汇的使用频率;比对模块,用于将词汇在视频语料集合中的使用频率与其在外源语料集合中的使用频率进行比对;如果该词汇在视频语料集合中的使用频率较之其在外源语料集合中的使用频率高出预设的阈值,那么就将该词汇作为领域特征词。结合第二方面,本专利技术实施例提供了第二方面的第四种可能的实施方式,其中:还包括:属性信息获取单元,用于获取文本信息的属性信息;分级单元,用于根据所述属性信息,对所述文本信息进行分级,并按照所述分级对所述文本信息进行分级存储。本专利技术实施例所提供的基于视频文本信息提取的信息查询方法以及装置,先从视频文件中提取文本信息,再从文本信息中提取领域特征词,建立领域特征词之间的关联关系,当用户进行查询的时候,可以直接获得与其所输入的关键词对应的领域特征词所关联的文本信息,其在从视频文件中提取文本信息的时候,就已经将视频文件中的所有或者大部分文本信息都提取出来,并利用领域特征词与文本信息之间的关联,使得检索结果的召回率高,检索结果更加的准确。为使本专利技术的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。附图说明为了更清楚地说明本专利技术实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本专利技术的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。图1示出了本专利技术实施例所提供的一种基于视频文本信息提取的信息查询方法的流程图;图2示出了本专利技术实施例所提供的基于视频文本信息提取的信息查询方法中,从视频文件中提取文本信息具体方法的流程图;图3示出了本专利技术实施例所提供的基于视频文本信息提取的信息查询方法中,提取所述文本信息中的领域特征词具体方法的流程图;图4示出了本专利技术实施例所提供的另一种基于视频文本信息提取的信息查询方法的流程图;图5示出了本专利技术实施例所提供的一种基于视频文本信息提取的信息查询装置的结构示意图;图6示出了本专利技术实施例所提供的基于视频文本信息提取的信息查询装置中,文本信息提取单元的具体结构示意图;图7示出了本专利技术实施例所提供的基于视频文本信息提取的信息查询装置中,领域特征词提取单元的具体结构示意图;图8示出了本专利技术实施例所提供的另一种基于视频文本信息提取的信息查询装置的结构示意图。具体实施方式为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本专利技术实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本专利技术的实施例的详细描述并非旨在限制要求保护的本专利技术的范围,而是仅仅表示本专利技术的选定实施例。基于本专利技术的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本专利技术保护的范围。随着互联网教育行业的兴起,在线直播、视频课程等形式逐渐替代传统的课堂教学称为主流,大量的音视频都是非文本内容。但是目前自动问答系统中的信息查询方法一般是基于传统的文本搜索引擎技术,因此想要在自动问答系统中实现对视频内容的检索,需本文档来自技高网...
基于视频文本信息提取的信息查询方法以及装置

【技术保护点】
一种基于视频文本信息提取的信息查询方法,其特征在于,包括:从视频文件中提取文本信息;提取所述文本信息中的领域特征词;建立所述领域特征词与文本信息之间的关联;当接收到查询指令时,根据所述查询指令中所携带的关键词,获取与所述关键词对应的领域特征词所关联的文本信息。

【技术特征摘要】
1.一种基于视频文本信息提取的信息查询方法,其特征在于,包括:从视频文件中提取文本信息;提取所述文本信息中的领域特征词;建立所述领域特征词与文本信息之间的关联;当接收到查询指令时,根据所述查询指令中所携带的关键词,获取与所述关键词对应的领域特征词所关联的文本信息。2.根据权利要求1所述的方法,其特征在于,所述从视频文件中提取文本信息,具体包括:从所述视频文件中提取关键帧图像;对关键帧图像进行去噪处理;对关键帧图像中的文字进行定位,获取文字定位图像;识别所述文字定位图像中的所述文本信息。3.根据权利要求1所述的方法,其特征在于,所述提取所述文本信息中的领域特征词,具体包括:对所述文本信息进行切词处理,形成由词汇构成的视频语料集合;根据所述视频语料集合以及外源语料集合,对所述视频语料集合中的词汇进行筛选,获取领域特征词。4.根据权利要求3所述的方法,其特征在于,所述根据所述视频语料集合以及外源语料集合,对所述视频语料集合中的词汇进行筛选,获取领域特征词具体包括:对所述视频语料集合中的词汇进行频率统计,获得不同词汇的使用频率;将词汇在视频语料集合中的使用频率与其在外源语料集合中的使用频率进行比对;如果该词汇在视频语料集合中的使用频率较之其在外源语料集合中的使用频率高出预设的阈值,那么就将该词汇作为领域特征词。5.根据权利要求1-4任意一项所述的方法,其特征在于,还包括:获取文本信息的属性信息;根据所述属性信息,对所述文本信息进行分级,并按照所述分级对所述文本信息进行分级存储。6.一种基于视频文本信息提取的信息查询装置,其特征在于,包括:文本信息提取...

【专利技术属性】
技术研发人员:王琳李闯
申请(专利权)人:北京百家互联科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1