一种语音检索的方法及装置制造方法及图纸

技术编号：4268451 阅读：232 留言：0更新日期：2012-04-11 18:40

本发明专利技术公开了一种语音检索的方法，所述语音为从视音频数据中分离的语音数据，所述的方法包括：预置步骤：预置素材文件或节目文件的ＸＭＬ对象数据库，所述ＸＭＬ对象中包括描述视音频数据及对应文本属性的ＸＭＬ元数据；以及，获取各语音数据的语音特征量和时码，将各文本字符分别与对应语音的特征量和时码进行关联；搜索步骤：依据用户提交的搜索关键词，在所述ＸＭＬ对象数据库中查找匹配的文本信息，并依据所述文本关联的语音特征量和时码提取对应的视音频信息；输出步骤：在搜索结果界面上展示所述视音频信息及文本信息。本发明专利技术方便用户简单、快捷地获得想要的视频及关联文本信息，并不会过多占用系统资源。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及多媒体数据处理的
，特别是涉及一种语音检索方法及一种语音检索装置。
技术介绍
由于因特网的普及，大量的信息迅速累积并广泛地被使用。因此，时空距离远近不再是人们存取与使用信息的最大障碍，取而代之的问题是缺乏有效率的方式在浩瀚的因特网中寻找想要的信息。信息检索技术(information retrieval technologies)因为能够提供使用者便捷的方式去存取与使用想要的信息，因此在近几年来格外地受到重视。直到现在为止，大部分信息检索的研究以文字型式的查询指令(textqueries)去检索文字型式的信息为主，也就是做文字与文字间的比对，目前在这方面的研究与系统发展已有许多相当不错的成果。目前，传统文字型式以外的影音多媒体信息如广播、电视节目、数字博物馆等，逐渐大量地出现在因特网上，显然已成为文字信息以外非常重要的信息来源。在绝大部分的情况下，语音是这些多媒体信息最主要的组成成分。随着语音辨识技术的进展，以语音为基础的信息检索变得越来越重要。与传统文字型式的信息检索不同的是，以语音为基础的信息检索并不能直接地拿输入的查询指令(queries)来与数据库中很多条信息记录(information records)——来作比对。有很多条信息记录和输入的查询指令在题旨上可能是相关的，但是由于输入的查询指令(queries)与每一条信息记录(information records)彼此的用字遣词可能不同，或者是声学环境(acoustic conditions)、语者(speakers)、讲话的模式(speaking...

【技术保护点】
一种语音检索的方法，其特征在于，所述语音为从视音频数据中分离的语音数据，所述的方法包括：预置步骤：预置素材文件或节目文件的ＸＭＬ对象数据库，所述ＸＭＬ对象中包括描述视音频数据及对应文本属性的ＸＭＬ元数据；以及，获取各语音数据的语音特征量和时码，将各文本字符分别与对应语音的特征量和时码进行关联；搜索步骤：依据用户提交的搜索关键词，在所述ＸＭＬ对象数据库中查找匹配的文本信息，并依据所述文本关联的语音特征量和时码提取对应的视音频信息；输出步骤：在搜索结果界面上展示所述视音频信息及文本信息。

【技术特征摘要】
一种语音检索的方法，其特征在于，所述语音为从视音频数据中分离的语音数据，所述的方法包括预置步骤预置素材文件或节目文件的XML对象数据库，所述XML对象中包括描述视音频数据及对应文本属性的XML元数据；以及，获取各语音数据的语音特征量和时码，将各文本字符分别与对应语音的特征量和时码进行关联；搜索步骤依据用户提交的搜索关键词，在所述XML对象数据库中查找匹配的文本信息，并依据所述文本关联的语音特征量和时码提取对应的视音频信息；输出步骤在搜索结果界面上展示所述视音频信息及文本信息。2.如权利要求1所述的方法，其特征在于，所述语音的特征量包括音调、音色和频率的声音量化信息。3.如权利要求1或2所述的方法，其特征在于，所述视音频信息在搜索结果界面上展示为所述语音特征量和时码对应视频帧的缩略图。4.如权利要求1或2所述的方法，其特征在于，所述视音频信息在搜索结果界面上展示为显示所述语音特征量和时码对应视频帧的播放窗口。5.如权利要求4所述的方法，其特征在于，还包括依据用户触发播放的操作，在搜索结果界面的播放窗口中，从所述视频帧开始播放所述视音频数据。6.一种语音检索的装...

【专利技术属性】
技术研发人员：李军，何宇飞，温晓瑶，张万军，闫鹏，
申请(专利权)人：新奥特北京视频技术有限公司，
类型：发明
国别省市：11[中国|北京]

全部详细技术资料下载我是这个专利的主人