【技术实现步骤摘要】
属自动语音识别领域,其基本特征在于把带调三音子模型和三元词的统计语言模型一次性地进行集成搜索,并在解码过程中进行三元词语言模型的预测。本专利技术涉及词库的组织、预测语言模型的检索、局部搜索路径的裁减方面的问题。目前语音识别比较成功的做法是基于统计模型,其基本特性就是有一些可以调整的参数,并且这些参数可以从观察数据中直接推断出来。假设A表示识别器将要解码的声学观察数据,W表示可能的单词系列,P(W/A)表示给定观察A,单词系列W被说出的概率,由统计决策,识别器应该根据下式作出决定 所以,公式1)可以进一步写成 其中P(W)是单词串W被说出的概率,P(A|W)是假设说出的单词串是W情况下观察到数据A的概率,识别系统可以附图说明图1得到说明,识别器包括前端处理、声学模型P(A|W)、语言模型P(W)和搜索算法。搜索算法就是要在声学模型、语言模型和声学特征序列的条件下,找到具有最大概率的词序列 ,基本搜索算法主要有时间同步的Viterbi-beam搜索和深度优先的A*搜索算法。经过多年研究努力,为减少搜索的巨大计算量,出现了以多遍搜索(Multi-Pass)为代表的连续语音 ...
【技术保护点】
一种汉语连续语音识别的集成预测搜索方法,其特征在于把带调三音子模型和三元词的统计语言模型一次性地进行集成搜索,并在解码过程中进行语言模型的预测;搜索的核心算法采用时间帧同步多门限裁减搜索,在搜索过程中利用词库的特殊结构和三元统计模型进行预测语言模型的检索。
【技术特征摘要】
【专利技术属性】
技术研发人员:徐波,黄泰翼,
申请(专利权)人:中国科学院自动化研究所,
类型:发明
国别省市:11[中国|北京]
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。