一种语音检索的方法及装置制造方法及图纸

技术编号:4268451 阅读:232 留言:0更新日期:2012-04-11 18:40
本发明专利技术公开了一种语音检索的方法,所述语音为从视音频数据中分离的语音数据,所述的方法包括:预置步骤:预置素材文件或节目文件的XML对象数据库,所述XML对象中包括描述视音频数据及对应文本属性的XML元数据;以及,获取各语音数据的语音特征量和时码,将各文本字符分别与对应语音的特征量和时码进行关联;搜索步骤:依据用户提交的搜索关键词,在所述XML对象数据库中查找匹配的文本信息,并依据所述文本关联的语音特征量和时码提取对应的视音频信息;输出步骤:在搜索结果界面上展示所述视音频信息及文本信息。本发明专利技术方便用户简单、快捷地获得想要的视频及关联文本信息,并不会过多占用系统资源。

【技术实现步骤摘要】

本专利技术涉及多媒体数据处理的
,特别是涉及一种语音检索方法及一种语 音检索装置。
技术介绍
由于因特网的普及,大量的信息迅速累积并广泛地被使用。因此,时空距离远近不 再是人们存取与使用信息的最大障碍,取而代之的问题是缺乏有效率的方式在浩瀚的因特 网中寻找想要的信息。信息检索技术(information retrieval technologies)因为能够提供使用者便 捷的方式去存取与使用想要的信息,因此在近几年来格外地受到重视。直到现在为止,大部 分信息检索的研究以文字型式的查询指令(textqueries)去检索文字型式的信息为主,也 就是做文字与文字间的比对,目前在这方面的研究与系统发展已有许多相当不错的成果。目前,传统文字型式以外的影音多媒体信息如广播、电视节目、数字博物馆等,逐 渐大量地出现在因特网上,显然已成为文字信息以外非常重要的信息来源。在绝大部分的 情况下,语音是这些多媒体信息最主要的组成成分。随着语音辨识技术的进展,以语音为基 础的信息检索变得越来越重要。与传统文字型式的信息检索不同的是,以语音为基础的信息检索并不能直接地拿 输入的查询指令(queries)来与数据库中很多条信息记录(information records)——来 作比对。有很多条信息记录和输入的查询指令在题旨上可能是相关的,但是由于输入的查 询指令(queries)与每一条信息记录(information records)彼此的用字遣词可能不同, 或者是声学环境(acoustic conditions)、语者(speakers)、讲话的模式(speaking modes) 和背景噪声(background noises)等的不同,使得处理上变得更加的困难。
技术实现思路
本专利技术所要解决的技术问题是提供一种语音检索的方法及装置,以基于文本检索 与语音相关的视频信息,方便用户简单、快捷地获得想要的视频及关联文本信息,并不会过 多占用系统资源。为了解决上述技术问题,本专利技术实施例公开了一种语音检索方法,所述语音为从 视音频数据中分离的语音数据,所述的方法包括预置步骤预置素材文件或节目文件的XML对象数据库,所述XML对象中包括描述 视音频数据及对应文本属性的XML元数据;以及,获取各语音数据的语音特征量和时码,将 各文本字符分别与对应语音的特征量和时码进行关联;搜索步骤依据用户提交的搜索关键词,在所述XML对象数据库中查找匹配的文 本信息,并依据所述文本关联的语音特征量和时码提取对应的视音频信息;输出步骤在搜索结果界面上展示所述视音频信息及文本信息。优选的,所述语音的特征量包括音调、音色和频率的声音量化信息。优选的,所述视音频信息在搜索结果界面上展示为所述语音特征量和时码对应视 频帧的缩略图。优选的,所述视音频信息在搜索结果界面上展示为显示所述语音特征量和时码对 应视频帧的播放窗口。优选的,所述的方法,还包括依据用户触发播放的操作,在搜索结果界面的播放窗口中,从所述视频帧开始播 放所述视音频数据。本专利技术实施例还公开了一种语音检索的装置,所述语音为从视音频数据中分离的 语音数据,所述的装置包括预置模块用于预置素材文件或节目文件的XML对象数据库,所述XML对象中包括 描述视音频数据及对应文本属性的XML元数据;以及,获取各语音数据的语音特征量和时 码,将各文本字符分别与对应语音的特征量和时码进行关联;搜索模块用于依据用户提交的搜索关键词,在所述XML对象数据库中查找匹配 的文本信息,并依据所述文本关联的语音特征量和时码提取对应的视音频信息;输出模块在搜索结果界面上展示所述视音频信息及文本信息。优选的,所述语音的特征量包括音调、音色和频率的声音量化信息。优选的,所述视音频信息在搜索结果界面上展示为所述语音特征量和时码对应视 频帧的缩略图。优选的,所述视音频信息在搜索结果界面上展示为显示所述语音特征量和时码对 应视频帧的播放窗口。优选的,所述的装置,还包括直接播放模块,用于依据用户触发播放的操作,在搜索结果界面的播放窗口中,从 所述视频帧开始播放所述视音频数据。与现有技术相比,本专利技术具有以下优点本专利技术通过将各文本字符分别与对应语音的特征量和时码进行关联,使得语音标 引与文本索引相结合,由于语音数据本身是从视音频数据中分离出来的,即其具有关联的 视频信息,在检索时,即可根据用户提交搜索关键词定位到文本,然后由文本定位到语音, 再由语音定位到视频,从而检索到相应的视频画面,从而方便用户简单、快捷地获得想要的 视频及关联文本信息,并不会过多占用系统资源。本专利技术对各类素材文件或节目文件中视音频数据及对应文本属性描述是以统一 的、规范化的基于XML对象的元数据进行定义的,这种统一对象的元数据模型不仅可以向 上屏蔽各种不同的多媒体内容格式,还为上层业务提供了统一的数据模型,从而不仅可以 完成传统媒体行业对视频、音频素材文件以及相关元数据信息的存储管理,还可以有效兼 容各种新媒体内容格式,满足所有文件格式的存储管理需求,使媒体行业、内容运营厂商以 及其他相关用户可以对各种结构化或非结构化文件进行统一管理和查询检索。附图说明图1是本专利技术的一种语音检索方法实施例的步骤流程图;图2是本专利技术的一种搜索结果展示效果的示意;4图3是本专利技术的一种语音检索装置实施例的结构框图。 具体实施例方式为使本专利技术的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实 施方式对本专利技术作进一步详细的说明。本专利技术可用于众多通用或专用的计算系统环境或配置中。例如多处理器系统、服 务器、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。本专利技术可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序 模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组 件、数据结构等等。也可以在分布式计算环境中实践本专利技术,在这些分布式计算环境中,由 通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以 位于包括存储设备在内的本地和远程计算机存储介质中。参考图1,示出了本专利技术的一种语音检索方法实施例的步骤流程图,具体可以包括 以下步骤预置步骤11,预置素材文件或节目文件的XML对象数据库,所述XML对象中包括描 述视音频数据及对应文本属性的XML元数据;以及,获取各语音数据的语音特征量和时码, 将各文本字符分别与对应语音的特征量和时码进行关联;搜索步骤12,依据用户提交的搜索关键词,在所述XML对象数据库中查找匹配的 文本信息,并依据所述文本关联的语音特征量和时码提取对应的视音频信息;输出步骤13 在搜索结果界面上展示所述视音频数据及文本信息。可以理解,在本专利技术实施例中,素材文件或节目文件是以XML对象的方式存储于 数据库中,这种基于对象的数据管理模式,不仅可以有效兼容多种多媒体数据格式,在查询 检索时,还可以对XML对象中描述的所有资源进行快速定位。在具体实现中,所述素材文件或节目文件的XML对象数据库可以通过以下步骤生 成提取素材文件或节目文件的预置属性;采用预定义的XML描述模型组织所述预置属性,生成所述素材文件或节目文件的 XML对象;对所述XML对象进行持久化,存储到数据库本文档来自技高网
...

【技术保护点】
一种语音检索的方法,其特征在于,所述语音为从视音频数据中分离的语音数据,所述的方法包括:预置步骤:预置素材文件或节目文件的XML对象数据库,所述XML对象中包括描述视音频数据及对应文本属性的XML元数据;以及,获取各语音数据的语音特征量和时码,将各文本字符分别与对应语音的特征量和时码进行关联;搜索步骤:依据用户提交的搜索关键词,在所述XML对象数据库中查找匹配的文本信息,并依据所述文本关联的语音特征量和时码提取对应的视音频信息;输出步骤:在搜索结果界面上展示所述视音频信息及文本信息。

【技术特征摘要】
一种语音检索的方法,其特征在于,所述语音为从视音频数据中分离的语音数据,所述的方法包括预置步骤预置素材文件或节目文件的XML对象数据库,所述XML对象中包括描述视音频数据及对应文本属性的XML元数据;以及,获取各语音数据的语音特征量和时码,将各文本字符分别与对应语音的特征量和时码进行关联;搜索步骤依据用户提交的搜索关键词,在所述XML对象数据库中查找匹配的文本信息,并依据所述文本关联的语音特征量和时码提取对应的视音频信息;输出步骤在搜索结果界面上展示所述视音频信息及文本信息。2.如权利要求1所述的方法,其特征在于,所述语音的特征量包括音调、音色和频率的 声音量化信息。3.如权利要求1或2所述的方法,其特征在于,所述视音频信息在搜索结果界面上展示 为所述语音特征量和时码对应视频帧的缩略图。4.如权利要求1或2所述的方法,其特征在于,所述视音频信息在搜索结果界面上展示 为显示所述语音特征量和时码对应视频帧的播放窗口。5.如权利要求4所述的方法,其特征在于,还包括依据用户触发播放的操作,在搜索结果界面的播放窗口中,从所述视频帧开始播放所 述视音频数据。6.一种语音检索的装...

【专利技术属性】
技术研发人员:李军何宇飞温晓瑶张万军闫鹏
申请(专利权)人:新奥特北京视频技术有限公司
类型:发明
国别省市:11[中国|北京]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1