一种基于内容的语音文件检索方法和系统技术方案

技术编号:13896558 阅读:94 留言:0更新日期:2016-10-25 03:22
本发明专利技术公开了信息检索技术领域中的一种基于内容的语音文件检索方法及系统。其中方法包括以下步骤:预置素材文件的XML对象数据库;获取各语音数据的语音特征量和时码,将各文本字符与对应语音的特征量和时码关联,形成语音库;把语音库中的语音文件转化为声学模型序列化码、音素码、次文字单元、和语音识别结果并进行分割,作为元素形成第一语音检索单元;把输入的查询词转化为声学模型序列化码、音素码、次文字单元、和语音识别结果并进行分割,作为元素形成第二语音检索单元;在第一语音检索单元和第二语音检索单元之间进行匹配,根据该匹配程度来确定匹配结果。上述系统包括:预置装置,转化装置、分割装置、语音检索单元形成装置、匹配装置。

【技术实现步骤摘要】

本专利技术涉及一种语音检索方法和语音检索系统,更具体地说,涉及一种基于内容的语音文件检索方法和系统
技术介绍
由于因特网的普及,大量的信息迅速累积并广泛地被使用。因此,时空距离远近不再是人们存取与使用信息的最大障碍,取而代之的问题是缺乏有效率的方式在浩瀚的因特网中寻找想要的信息。在现有的语音检索系统中,利用语音识别结果和相应的格信息进行语音检索,或者仅仅利用格信息进行语音检索,有些现有的语音检索系统结合利用文本检索方法来提高检索速度,然而,这样的系统通常只能处理文本查询词。格(lattice)信息的意义在于,在语音检索领域中,通常情况下语音识别只能得到一个最好的想要的结果,如果运用格信息,就能够在一定的置信范围内得到多个可能的语音识别结果,这样就有更多的选择,当检索时,就可以在更多的选择中检索,在一定程度上也就缓解了识别错误。语音文件的一些特征可以考虑用于语音检索,包括音素码、次文字单元、和语音识别结果。通常,音素码、次文字单元、和语音识别结果在识别过程中都能够得到格信息。音素码是音素语音中最小的单位,是从音色的角度划分出来的最小的语音单位。在语音学与音韵学中,音素一词所指的是说话时所发出的声音。音素是具体存在的物理现象。国际音标的音标符号与全人类语言的音素具有一一对应关系,是有意义的文本集合。与传统文字型式的信息检索不同的是,以语音为基础的信息检索并不能直接地拿输入的查询指令(queries)来与数据库中很多条信息记录(information records)逐条来作比对。有很多条信息记录和输入的查询指令在题旨上可能是相关的,但是由于输入的查询指令(queries)
与每一条信息记录(information records)彼此的用字遣词可能不同,或者是声学环境(acoustic conditions)、语(speakers)、讲话的模式(speaking modes)和背景噪声(background noises)等的不同,使得处理上变得更加的困难。
技术实现思路
鉴于现有技术中存在的上述问题,公开了信息检索
中的一种基于内容的语音文件检索方法及系统,综合利用关于语音的各种相关特征,利用语音检索单元来对语音进行检索。一种基于内容的语音文件检索方法,包括以下步骤:预置素材文件或节目文件的XML对象数据库,所述XML对象中包括描述视音频数据及对应文本属性的XML元数据;获取各语音数据的语音特征量和时码,将各文本字符分别与对应语音的特征量和时码进行关联,形成语音库;把语音库中的语音文件转化为声学模型序列化码、音素码、次文字单元、和语音识别结果;对第一转化步骤所转化的声学模型序列化码、音素码、次文字单元、语音识别结果进行分割;把在第一分割步骤中所分割的声学模型序列化码、音素码、次文字单元、语音识别结果作为元素形成第一语音检索单元;把输入的查询词转化为声学模型序列化码、音素码、次文字单元、和语音识别结果;对在第二转化步骤中所转化的声学模型序列化码、音素码、次文字单元、语音识别结果进行分割;把在第二分割步骤中所分割的声学模型序列化码、音素码、次文字单元、语音识别结果作为元素形成第二语音检索单元;在第一语音检索单元和第二语音检索单元之间进行匹配,以确定查询词与语音文件的匹配程度,根据该匹配程度来确定匹配结果;在搜索结果界面上展示所述视音频信息及文本信息。进一步地,所述语音的特征量包括音调、音色和频率的声音量化信息。进一步地,所述视音频信息在搜索结果界面上展示为所述语音特征量和时码对应视频帧的缩略图进一步地,所述视音频信息在搜索结果界面上展示为显示所述语音特征量和时码对应视频帧的播放窗口。一种基于内容的语音文件检索系统,其特征在于,包括:第一转化装置,用于把语音库中的语音文件转化为声学模型序列化码、音素码、次文字单元、和语音识别结果;第一分割装置,用于对第一转化装置所转化的声学模型序列化码、音素码、次文字单元、语音识别结果进行分割;第一语音检索单元形成装置,用于把第一分割装置所分割的声学模型序列化码、音素码、次文字单元、语音识别结果作为元素形成第一语音检索单元;第二转化装置,用于把输入的查询词转化为声学模型序列化码、音素码、次文字单元、和语音识别结果;第二分割装置,用于对第二转化装置所转化的声学模型序列化码、音素码、次文字单元、语音识别结果进行分割;第二语音检索单元形成装置,用于把第二分割装置所分割的声学模型序列化码、音素码、次文字单元、语音识别结果作为元素形成第二语音检索单元;匹配装置,用于在第一语音检索单元和第二语音检索单元之间进行匹配,以确定查询词与语音文件的匹配程度,根据该匹配程度来确定匹配结果。进一步地,所述第一转化装置在把语音库中的语音文件转化为声学模型序列化码、音素码、次文字单元、和语音识别结果的同时,获得与声学模型序列化码、音素码、次文字单元、和语音识别结果相应的语音时间刻度信息;进一步地,所述第一语音检索单元形成装置还把相应的语音时间刻度信息添加到第一语音检索单元中,作为第一语音检索单元中各个元素的关联信息;进一步地,所述匹配装置把相应的语音时间刻度信息添加到匹配结果中来输出。进一步地,所述系统还包括模型处理装置,用于利用不同的声学模型和语言模型对语音库中的语音文件进行处理。进一步地,所述第一分割装置按照等时间分割方式、语音能量分割方式、或者元辅音分割方式来对所述第一转化装置所转化的声学模型序列化码、音素码、次文字单元、及语音识别结果进行分割;进一步地,所述第二分割装置按照等时间分割方式、语音能量分割方式、或者元辅音分割方式来对所述第二转化装置所转化的声学模型序列化码、音素码、次文字单元、及语音识别结果进行分割。所述匹配装置包括:匹配元素查找装置,用于关于第二语音检索单元的各个元素分别查找语音库中的语音文件的第一语音检索单元中匹配的元素;单元匹配确定装置,用于根据第一语音检索单元和第二语音检索单元中的匹配元素及匹配元素的权重来判断该第一语音检索单元和该第二语音检索单元之间的单元匹配;匹配结果确定装置,根据查询词的全部第二语音检索单元与语音文件的全部第一语音检索单元分别的单元匹配,来确定该查询词与该语音文件的匹配程度,根据该匹配程度判断该查询词与该语音文件的匹配,把语音库中匹配的语音文件作为匹配结果。本专利技术充分利用语音的各个方面的特征,利用语音检索单元进行检索,提高了检索
准确率且同时提高了检索速度,并提高了检索的容错性,改善了语音识别的准确性。本文档来自技高网
...

【技术保护点】
一种基于内容的语音文件检索方法,其特征在于,包括以下步骤:预置素材文件或节目文件的XML对象数据库,所述XML对象中包括描述视音频数据及对应文本属性的XML元数据;获取各语音数据的语音特征量和时码,将各文本字符分别与对应语音的特征量和时码进行关联,形成语音库;把语音库中的语音文件转化为声学模型序列化码、音素码、次文字单元、和语音识别结果;对第一转化步骤所转化的声学模型序列化码、音素码、次文字单元、语音识别结果进行分割;把在第一分割步骤中所分割的声学模型序列化码、音素码、次文字单元、语音识别结果作为元素形成第一语音检索单元;把输入的查询词转化为声学模型序列化码、音素码、次文字单元、和语音识别结果;对在第二转化步骤中所转化的声学模型序列化码、音素码、次文字单元、语音识别结果进行分割;把在第二分割步骤中所分割的声学模型序列化码、音素码、次文字单元、语音识别结果作为元素形成第二语音检索单元;在第一语音检索单元和第二语音检索单元之间进行匹配,以确定查询词与语音文件的匹配程度,根据该匹配程度来确定匹配结果;在搜索结果界面上展示所述视音频信息及文本信息。

【技术特征摘要】
1.一种基于内容的语音文件检索方法,其特征在于,包括以下步骤:预置素材文件或节目文件的XML对象数据库,所述XML对象中包括描述视音频数据及对应文本属性的XML元数据;获取各语音数据的语音特征量和时码,将各文本字符分别与对应语音的特征量和时码进行关联,形成语音库;把语音库中的语音文件转化为声学模型序列化码、音素码、次文字单元、和语音识别结果;对第一转化步骤所转化的声学模型序列化码、音素码、次文字单元、语音识别结果进行分割;把在第一分割步骤中所分割的声学模型序列化码、音素码、次文字单元、语音识别结果作为元素形成第一语音检索单元;把输入的查询词转化为声学模型序列化码、音素码、次文字单元、和语音识别结果;对在第二转化步骤中所转化的声学模型序列化码、音素码、次文字单元、语音识别结果进行分割;把在第二分割步骤中所分割的声学模型序列化码、音素码、次文字单元、语音识别结果作为元素形成第二语音检索单元;在第一语音检索单元和第二语音检索单元之间进行匹配,以确定查询词与语音文件的匹配程度,根据该匹配程度来确定匹配结果;在搜索结果界面上展示所述视音频信息及文本信息。2.根据权利要求1所述的一种基于内容的语音文件检索方法,其特征在于,所述语音的特征量包括音调、音色和频率的声音量化信息。3.根据权利要求1所述的一种基于内容的语音文件检索方法,其特征在于,所述视音频信息在搜索结果界面上展示为所述语音特征量和时码对应视频帧的缩略图。4.根据权利要求1所述的一种基于内容的语音文件检索方法,其特征在于,所述视音频信息在搜索结果界面上展示为显示所述语音特征量和时码对应视频帧的播放窗口。5.一种基于内容的语音文件检索系统,其特征在于,包括:预置模块:用于预置素材文件或节目文件的XML对象数据库,所述XML对象中包括描述视音频数据及对应文本属性的XML元数据;以及,获取各语音数据的语音特征量和时码,将各文本字符分别与对应语音的特征量和时码进行关联,形成语音库;第一转化装置,用于把语音库中的语音文件转化为声学模型序列化码、音素码、次文字单元、和语音识别结果;第一分割装置,用于对第一转化装置所转化的声学模型序列化码、音素码、次文字单元、语音识别结果进行分割;第一语音检索单元形成装置,用于把第一分割装置所分割的声学模型序列化码、音素码、次文字单元、语音识别结果作为元素形成第一语音检索单元;第二转化装置,...

【专利技术属性】
技术研发人员:张树坤
申请(专利权)人:展视网北京科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1