一种语音文件查询方法和装置制造方法及图纸

技术编号:10645541 阅读:94 留言:0更新日期:2014-11-12 18:59
本发明专利技术提出一种语音文件查询方法和装置,其中方法包括:将每个目标语音文件分别转换成对应的目标音节混淆网络;将待查询语音文件或待查询文本转换成对应的待查询音节混淆网络;计算所述待查询音节混淆网络与各个目标音节混淆网络的相似度,获取相似度最高的一个以上目标音节混淆网络所对应的目标语音文件。本发明专利技术能够提高语音查询的精确度。

【技术实现步骤摘要】

本专利技术涉及语音检索
,尤其涉及一种语音文件查询方法和装置
技术介绍
现有技术中,通常的语音文件查询方法有如下两种:第一种:首先,使用自动语音转写技术将每一条目标语音文件分别转换成对应的文字形式的目标文本文件,然后通过文本检索技术建立目标文本文件的索引。在查询过程中,输入文字查询词,比较查询词与每个目标文本文件的相似度,并根据相似度对目标文本文件进行排序,从而查询到与查询词最接近的目标文本文件,并最终得到与查询词最接近的目标语音文件。或者,在查询过程中,直接输入待查询语音文件,将待查询语音文件转换成对应的待查询文本文件,然后比较相似度,得到与待查询语音文件最接近的目标语音文件。第二种:首先,将每一条目标语音文件分别转写成音节/音素序列。在查询过程中,将输入的文字查询词或待查询语音文件转写成音节/音素序列,通过比较音节/音素序列的相似度,得到与文字查询词或待查询语音文件最接近的目标语音文件。上述两种方法共同的缺点是:需要将目标语音文件、以及本文档来自技高网...

【技术保护点】
一种语音文件查询方法,其特征在于,所述方法包括:将每个目标语音文件分别转换成对应的目标音节混淆网络;将待查询语音文件或待查询文本转换成对应的待查询音节混淆网络;计算所述待查询音节混淆网络与各个目标音节混淆网络的相似度,获取相似度最高的一个以上目标音节混淆网络所对应的目标语音文件。

【技术特征摘要】
1.一种语音文件查询方法,其特征在于,所述方法包括:
将每个目标语音文件分别转换成对应的目标音节混淆网络;
将待查询语音文件或待查询文本转换成对应的待查询音节混淆网络;
计算所述待查询音节混淆网络与各个目标音节混淆网络的相似度,获取相
似度最高的一个以上目标音节混淆网络所对应的目标语音文件。
2.根据权利要求1所述的方法,其特征在于,所述将目标语音文件转换成
对应的目标音节混淆网络、或者将待查询语音文件转换成对应的待查询音节混
淆网络的方式为:
利用音节解码器对所述目标语音文件或待查询语音文件进行解码,得到中
间结果;利用框架Lattice转换工具对所述中间结果进行转换,得到对应的音节
混淆网络。
3.根据权利要求1所述的方法,其特征在于,所述将待查询文本转换成对
应的待查询音节混淆网络的方式为:
将所述待查询文本划分为多个词;
查找所述各个词对应的音节;
将查找到的音节串联,得到音节序列y1、y2、……、ym,其中,m为音节
的个数,yi(i=1、2、……、m)为音节;
构造初始节点V0和结束节点Vm+2;并构造(m+1)个中间节点,包括V1、
V2、……、Vm+1;
构造V0与V1的之间的一条边,将该边的音节标签设置为空标签!NULL,将该
边的权重设置为1;构造Vm+1与Vm+2的之间的一条边,将该边的音节标签设置
为!NULL,将该边的权重设置为1;依次针对两个相邻的中间节点Vi与Vi+1(i=1,2,……,m)构造一条边,将各条边的音节标签分别设置为y1、y2、……、
ym,将每条边的权重均设置为1。
4.根据权利要求1所述的方法,其特征在于,所述将每个目标语音文件分
别转换成对应的目标音节混淆网络之后进一步包括,建立所有目标音节混淆网
络的索引,包括正排索引和倒排索引;
所述正排索引包括各个目标音节混淆网络与音节混淆网络标识的对应关
系;
所述倒排索引包括:目标音节混淆网络中的各个音节所属的目标音节混淆
网络的音节混淆网络标识、以及该音节所对应的边的权重。
5.根据权利要求4所述的方法,其特征在于,所述计算待查询音节混淆网
络与各个目标音节混淆网络的相似度的方式为:
查询所述所有目标音节混淆网络的索引,确定包含所述待查询音节混淆网
络中所有音节的目标音节混淆网络;根据待查询音节混淆网络生成对应的状态
转移查询表,采用所述状态转移查询表计算待查询音节混淆网络与所述确定出
的各个目标音节混淆网络的相似度。
6.根据权利要求5所述的方法,其特征在于,所述采用状态转移查询表计
算相似度的具体方式为:
针对该目标音节混淆网络的每个节点构造一个令牌,将该令牌的状态Status
设置为所述状态转移查询表的初始状态,将该令牌的观测设置为!NULL,将该
令牌的权重设置为1,将该令牌的得分Score设置为0;针对各个令牌分别执行
以下步骤A,得到最终存活令牌列表,并对最终存活令牌列表中所有令牌的得
分求和,将求和结果作为待查询音节混淆网络与该目标音节混淆网络的相似度;
A、判断所述当前令牌的观测是否为!NULL,如果是,则执行步骤B;否则
执行步骤C;
B、在所述状态转移查询表中查询行取Status、并且列取!NULL时对应的表
格,设表格中的状态为Status’,如果Status’为状态转移表的终止状态,将当前
令牌加入最终存活令牌列表,结束当前步骤;否则,删除当前令牌,在所述状
态转移表中查询行取Status’的非空表格C1...Ck,在当前位置构造k个新的令牌,
每个新的令牌的状态为Status’,观测为表格对应的列上的音节标签,权重为表

\t格中的权重,得分为当前令牌的得分,针对所述新的令牌继续执行步骤A;
C、设所述令牌的观测为obsr,遍历所述目标音节混淆网络中以该令牌所在
节点为出发点的各条边,如果所述各条边的音节标签均不为obsr,则删除该令
牌;如果有一条边上的音节标签为obsr,则执行如下步骤:在所述状态转移查
询表中,查询行取Status、并且列取obsr时对应的表格,设该表格对应的状态为
Status’,如果Status’为状态转移表的终止状态,将当前令牌加入最终存活令牌列
表,结束当前步骤;否则,删除当前令牌,在所述状态转移查询表中查询行取
Status’的非空表格C1...Ck,在该边的结束节点上构造k个新的令牌,每个令牌的
状态为Status’,观测为表格对应的列上的音节标签,权重为表格中的权重,得
分Score更新为原Score与当前令牌权重与该边的权重的乘积之和,针对所述新
的令牌继续执行步骤A。
7.一种语音文件查询装置,其特...

【专利技术属性】
技术研发人员:李露马建雄卢鲤
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1