The invention relates to an information inquiry method based on video text information extraction and a device thereof. The method includes: extracting text information from video files; extracting word domain feature of text information in the field; establish the association between the feature words and text information; when receiving inquiry instruction, according to the query keywords contained in the instruction, to obtain the domain feature words corresponding to the keyword the associated text information. Can the video files of all or most of the text information are extracted, and the correlation between field feature words and text information, which makes the search results the recall rate is high, the retrieval result is more accurate.
【技术实现步骤摘要】
基于视频文本信息提取的信息查询方法以及装置
本专利技术涉及信息提取
,具体而言,涉及一种基于视频文本信息提取的信息查询方法以及装置。
技术介绍
在教育行业,自动知识问答作为普遍需求越来越被人们重视。目前的自动问答系统的数据库的构建主要是基于传统的文本检索引擎。这种基于文本标注建立数据库的方式,导致后续的检索也是基于文本检索的。但是随着互联网教育行业的兴起,在线直播、视频课程等形式逐渐替代传统的课堂教学成为主流,大量的音视频都是非文本内容,或者附带的文本内容很少,这导致大量有价值的内容并没有被涵盖在内,数据量的不足,最终导致检索结果的召回率低,检索结果不准确。
技术实现思路
有鉴于此,本专利技术实施例的目的在于提供一种音视频信息查询方法以及装置,能够将视频文件中的所有或者大部分文本信息都提取出来,并利用领域特征词与文本信息之间的关联,使得检索结果的召回率高,检索结果更加的准确。第一方面,本专利技术实施例提供了一种基于视频文本信息提取的信息查询方法,包括:从视频文件中提取文本信息;提取所述文本信息中的领域特征词;建立所述领域特征词与文本信息之间的关联;当接收到查询指令时,根据所述查询指令中所携带的关键词,获取与所述关键词对应的领域特征词所关联的文本信息。结合第一方面,本专利技术实施例提供了第一方面的第一种可能的实施方式,其中:所述从视频文件中提取文本信息,具体包括:从所述视频文件中提取关键帧图像;对关键帧图像进行去噪处理;对关键帧图像中的文字进行定位,获取文字定位图像;识别所述文字定位图像中的所述文本信息。结合第一方面,本专利技术实施例提供了第一方面的第二种 ...
【技术保护点】
一种基于视频文本信息提取的信息查询方法,其特征在于,包括:从视频文件中提取文本信息;提取所述文本信息中的领域特征词;建立所述领域特征词与文本信息之间的关联;当接收到查询指令时,根据所述查询指令中所携带的关键词,获取与所述关键词对应的领域特征词所关联的文本信息。
【技术特征摘要】
1.一种基于视频文本信息提取的信息查询方法,其特征在于,包括:从视频文件中提取文本信息;提取所述文本信息中的领域特征词;建立所述领域特征词与文本信息之间的关联;当接收到查询指令时,根据所述查询指令中所携带的关键词,获取与所述关键词对应的领域特征词所关联的文本信息。2.根据权利要求1所述的方法,其特征在于,所述从视频文件中提取文本信息,具体包括:从所述视频文件中提取关键帧图像;对关键帧图像进行去噪处理;对关键帧图像中的文字进行定位,获取文字定位图像;识别所述文字定位图像中的所述文本信息。3.根据权利要求1所述的方法,其特征在于,所述提取所述文本信息中的领域特征词,具体包括:对所述文本信息进行切词处理,形成由词汇构成的视频语料集合;根据所述视频语料集合以及外源语料集合,对所述视频语料集合中的词汇进行筛选,获取领域特征词。4.根据权利要求3所述的方法,其特征在于,所述根据所述视频语料集合以及外源语料集合,对所述视频语料集合中的词汇进行筛选,获取领域特征词具体包括:对所述视频语料集合中的词汇进行频率统计,获得不同词汇的使用频率;将词汇在视频语料集合中的使用频率与其在外源语料集合中的使用频率进行比对;如果该词汇在视频语料集合中的使用频率较之其在外源语料集合中的使用频率高出预设的阈值,那么就将该词汇作为领域特征词。5.根据权利要求1-4任意一项所述的方法,其特征在于,还包括:获取文本信息的属性信息;根据所述属性信息,对所述文本信息进行分级,并按照所述分级对所述文本信息进行分级存储。6.一种基于视频文本信息提取的信息查询装置,其特征在于,包括:文本信息提取...
【专利技术属性】
技术研发人员:王琳,李闯,
申请(专利权)人:北京百家互联科技有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。