一种基于内容的语音文件检索方法和系统技术方案

技术编号：13896558 阅读：94 留言：0更新日期：2016-10-25 03:22

本发明专利技术公开了信息检索技术领域中的一种基于内容的语音文件检索方法及系统。其中方法包括以下步骤：预置素材文件的XML对象数据库；获取各语音数据的语音特征量和时码，将各文本字符与对应语音的特征量和时码关联，形成语音库；把语音库中的语音文件转化为声学模型序列化码、音素码、次文字单元、和语音识别结果并进行分割，作为元素形成第一语音检索单元；把输入的查询词转化为声学模型序列化码、音素码、次文字单元、和语音识别结果并进行分割，作为元素形成第二语音检索单元；在第一语音检索单元和第二语音检索单元之间进行匹配，根据该匹配程度来确定匹配结果。上述系统包括：预置装置，转化装置、分割装置、语音检索单元形成装置、匹配装置。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及一种语音检索方法和语音检索系统，更具体地说，涉及一种基于内容的语音文件检索方法和系统。
技术介绍
由于因特网的普及，大量的信息迅速累积并广泛地被使用。因此，时空距离远近不再是人们存取与使用信息的最大障碍，取而代之的问题是缺乏有效率的方式在浩瀚的因特网中寻找想要的信息。在现有的语音检索系统中，利用语音识别结果和相应的格信息进行语音检索，或者仅仅利用格信息进行语音检索，有些现有的语音检索系统结合利用文本检索方法来提高检索速度，然而，这样的系统通常只能处理文本查询词。格(lattice)信息的意义在于，在语音检索领域中，通常情况下语音识别只能得到一个最好的想要的结果，如果运用格信息，就能够在一定的置信范围内得到多个可能的语音识别结果，这样就有更多的选择，当检索时，就可以在更多的选择中检索，在一定程度上也就缓解了识别错误。语音文件的一些特征可以考虑用于语音检索，包括音素码、次文字单元、和语音识别结果。通常，音素码、次文字单元、和语音识别结果在识别过程中都能够得到格信息。音素码是音素语音中最小的单位，是从音色的角度划分出来的最小的语音单位。在语音学与音韵学中，音素一词所指的是说话时所发出的声音。音素是具体存在的物理现象。国际音标的音标符号与全人类语言的音素具有一一对应关系，是有意义的文本集合。与传统文字型式的信息检索不同的是，以语音为基础的信息检索并不能直接地拿输入的查询指令(queries)来与数据库中很多条信息记录(information records)逐条来作比对。有很多条信息记录和输入的查询指令在题旨上可能是相关的，但是由于输入的查询指令(...

【技术保护点】
一种基于内容的语音文件检索方法，其特征在于，包括以下步骤：预置素材文件或节目文件的XML对象数据库，所述XML对象中包括描述视音频数据及对应文本属性的XML元数据；获取各语音数据的语音特征量和时码，将各文本字符分别与对应语音的特征量和时码进行关联，形成语音库；把语音库中的语音文件转化为声学模型序列化码、音素码、次文字单元、和语音识别结果；对第一转化步骤所转化的声学模型序列化码、音素码、次文字单元、语音识别结果进行分割；把在第一分割步骤中所分割的声学模型序列化码、音素码、次文字单元、语音识别结果作为元素形成第一语音检索单元；把输入的查询词转化为声学模型序列化码、音素码、次文字单元、和语音识别结果；对在第二转化步骤中所转化的声学模型序列化码、音素码、次文字单元、语音识别结果进行分割；把在第二分割步骤中所分割的声学模型序列化码、音素码、次文字单元、语音识别结果作为元素形成第二语音检索单元；在第一语音检索单元和第二语音检索单元之间进行匹配，以确定查询词与语音文件的匹配程度，根据该匹配程度来确定匹配结果；在搜索结果界面上展示所述视音频信息及文本信息。

【技术特征摘要】
1.一种基于内容的语音文件检索方法，其特征在于，包括以下步骤：预置素材文件或节目文件的XML对象数据库，所述XML对象中包括描述视音频数据及对应文本属性的XML元数据；获取各语音数据的语音特征量和时码，将各文本字符分别与对应语音的特征量和时码进行关联，形成语音库；把语音库中的语音文件转化为声学模型序列化码、音素码、次文字单元、和语音识别结果；对第一转化步骤所转化的声学模型序列化码、音素码、次文字单元、语音识别结果进行分割；把在第一分割步骤中所分割的声学模型序列化码、音素码、次文字单元、语音识别结果作为元素形成第一语音检索单元；把输入的查询词转化为声学模型序列化码、音素码、次文字单元、和语音识别结果；对在第二转化步骤中所转化的声学模型序列化码、音素码、次文字单元、语音识别结果进行分割；把在第二分割步骤中所分割的声学模型序列化码、音素码、次文字单元、语音识别结果作为元素形成第二语音检索单元；在第一语音检索单元和第二语音检索单元之间进行匹配，以确定查询词与语音文件的匹配程度，根据该匹配程度来确定匹配结果；在搜索结果界面上展示所述视音频信息及文本信息。2.根据权利要求1所述的一种基于内容的语音文件检索方法，其特征在于，所述语音的特征量包括音调、音色和频率的声音量化信息。3.根据权利要求1所述的一种基于内容的语音文件检索方法，其特征在于，所述视音频信息在搜索结果界面上展示为所述语音特征量和时码对应视频帧的缩略图。4.根据权利要求1所述的一种基于内容的语音文件检索方法，其特征在于，所述视音频信息在搜索结果界面上展示为显示所述语音特征量和时码对应视频帧的播放窗口。5.一种基于内容的语音文件检索系统，其特征在于，包括：预置模块：用于预置素材文件或节目文件的XML对象数据库，所述XML对象中包括描述视音频数据及对应文本属性的XML元数据；以及，获取各语音数据的语音特征量和时码，将各文本字符分别与对应语音的特征量和时码进行关联，形成语音库；第一转化装置，用于把语音库中的语音文件转化为声学模型序列化码、音素码、次文字单元、和语音识别结果；第一分割装置，用于对第一转化装置所转化的声学模型序列化码、音素码、次文字单元、语音识别结果进行分割；第一语音检索单元形成装置，用于把第一分割装置所分割的声学模型序列化码、音素码、次文字单元、语音识别结果作为元素形成第一语音检索单元；第二转化装置，...

【专利技术属性】
技术研发人员：张树坤，
申请(专利权)人：展视网北京科技有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人