The embodiment of the invention provides a voice recognition method and device, the method comprises the following steps: feature classification results to obtain the speech signal to be recognized; the classification results include pronunciation is used to describe the characteristics of each frame of speech signal and the voice pronunciation signal frame is mapped to the probability of pronunciation; probability content classification the results on the basis of the characteristics of the filter, with the classification results of the characteristic features of pronunciation; the classification results after filtering of the speech signal recognition based on. The embodiment of the invention, in the process of speech recognition, no longer need to perform and be filtered out the pronunciation recognition operation, such as: no longer in the recognition network search and filter out the pronunciation of the path, so it can effectively reduce the speech recognition time, which can improve the speech the efficiency of recognition.
【技术实现步骤摘要】
语音识别方法及装置
本专利技术涉及计算机
,尤其涉及语音识别方法及装置。
技术介绍
随着计算机技术的发展,语音识别(AutomaticSpeechRecognition,ASR)技术在人机交互等领域的应用越来越多。目前,语音识别技术主要通过信号处理模块、特征提取模块、声学模型、语言模型(LanguageModel,LM)、字典和解码器(Decoder),将待识别的语音信号转换为文本信息,完成语音识别。在语音识别过程中,信号处理模块和特征提取模块,先将待识别的语音信号划分成多个语音信号帧,然后通过消除噪音、信道失真等处理对各语音信号帧进行增强,再将各语音信号帧从时域转化到频域,并从转换后的语音信号帧内提取合适的声学特征。而根据训练语音库的特征参数训练出的声学模型,以特征提取模块所提取的声学特征为输入,映射到能够描述语音信号帧的发音特征的发音、并计算出语音信号帧映射到各发音的概率,得到特征分类结果。语言模型含有不同的字词(如:字、词、短语)之间关联关系、及其概率(可能性),用于估计由不同字词组成的各种文本信息的可能性。解码器可以基于己经训练好的声学模型、语言模型及字典建立一个识别网络,识别网络中的各路径分别与各种文本信息、以及各文本信息的发音对应,然后针对声学模型输出的发音,在该识别网络中寻找最佳的一条路径,基于该路径能够以最大概率输出该语音信号对应的文本信息,完成语音识别。但是,语言模型一般是基于大量语料训练出来的模型,包含大量字词之间的关联关系和可能性,所以,基于语音模型建立的识别网络包含的节点较多,每个节点的分支数量也非常多。在识别网络中进行路径搜 ...
【技术保护点】
一种语音识别方法,其特征在于,包括步骤:获取待识别的语音信号的特征分类结果;所述特征分类结果包含用于描述各语音信号帧的发音特征的发音以及各语音信号帧映射到对应的发音的概率;基于所述特征分类结果所含的概率,对所述特征分类结果所含的发音进行过滤;基于过滤后的特征分类结果识别所述语音信号。
【技术特征摘要】
1.一种语音识别方法,其特征在于,包括步骤:获取待识别的语音信号的特征分类结果;所述特征分类结果包含用于描述各语音信号帧的发音特征的发音以及各语音信号帧映射到对应的发音的概率;基于所述特征分类结果所含的概率,对所述特征分类结果所含的发音进行过滤;基于过滤后的特征分类结果识别所述语音信号。2.根据权利要求1所述的方法,其特征在于,所述基于所述特征分类结果所含的概率,对所述特征分类结果所含的发音进行过滤,包括:判断任一语音信号帧映射到对应的发音的概率是否满足预定过滤规则;如果所述对应的发音满足预定过滤规则,对所述对应的发音进行滤掉。3.根据权利要求2所述的方法,其特征在于:如果任一语音信号帧映射到对应的发音的概率,与该语音信号帧的最大映射概率之间的概率差,在预定的差值范围内,则确定所述对应的发音满足预定过滤规则;如果任一语音信号帧映射到对应的发音的概率,小于该语音信号帧映射到预定数目的发音中各发音的概率,则确定所述对应的发音满足预定过滤规则。4.根据权利要求3所述的方法,其特征在于,所述预定数目为以下任一:该帧语音信号帧对应的发音中被保留在特征分类结果内的发音的数量;预定的比例阈值与该帧语音信号帧对应的发音的总数目的乘积。5.根据权利要求1所述的方法,其特征在于,所述基于所述特征分类结果所含的概率,对所述特征分类结果所含的发音进行过滤,包括:获取任一语音信号帧映射到各发音的概率的直方图分布;获取与所述直方图分布对应的束宽;将概率分布在所述束宽之外的发音,确定为满足预定过滤规则的发音;将满足预定过滤规则的发音,从所述特征分类结果所含的发音中删除。6.根据权利要求1至5中任一项所述的方法,其特征在于,所述基于所述特征分类结果所含的概率,对所述特征分类结果所含的发音进行过滤,包括:如果任一语音信号帧映射到对应的发音的概率满足预定过滤规则,将该发音确定为候选发音;如果该语音信号帧的预定帧数的相邻语音信号帧中的任一帧,映射到该候选发音的概率满足预定过滤规则,则将该候选发音从所述特征分类结...
【专利技术属性】
技术研发人员:李忠杰,
申请(专利权)人:广州视源电子科技股份有限公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。