音频数据识别方法及系统技术方案

技术编号：18660055 阅读：79 留言：0更新日期：2018-08-11 15:17

本发明专利技术实施例提供一种音频数据识别方法。该方法包括：将待识别的音频数据按照时间戳的先后顺序划分成多个音频数据片段；基于待识别的音频数据的声学特征，确定每个音频数据片段中各帧音频数据帧的预测概率集合；根据各帧音频数据帧的预测概率集合，确定各帧音频数据帧的类型；通过非空白音频数据帧相邻的上一音频数据帧和下一音频数据帧来确定非空白音频数据帧的最终预测概率集合；基于每个音频数据片段中的各非空白音频数据帧的最终预测概率集合，对各个音频数据片段进行音素同步解码，识别音频数据。本发明专利技术实施例还提供一种音频数据识别系统。本发明专利技术实施例的音频数据识别方法可用于任意声学模型，并且进一步提升了识别速度。

Audio data recognition method and system

The embodiment of the invention provides an audio data recognition method. The method includes: dividing the audio data to be recognized into several audio data fragments according to the order of time stamps; determining the prediction probability set of each audio data frame in each audio data fragment based on the acoustic characteristics of the audio data to be identified; and determining each frame according to the prediction probability set of each audio data frame. The type of the frame audio data frame; the final prediction probability set of the non-blank audio data frame is determined by the last audio data frame adjacent to the non-blank audio data frame and the next audio data frame; the final prediction probability set for each audio data fragment is based on the final prediction probability set of the non-blank audio data frame in each audio data fragment. Synchronize the phoneme decoding and recognize the audio data. The embodiment of the invention also provides an audio data recognition system. The audio data recognition method of the embodiment of the present invention can be used for any acoustic model, and the recognition speed is further improved.

全部详细技术资料下载

【技术实现步骤摘要】
音频数据识别方法及系统
本专利技术涉及语音识别领域，尤其涉及一种音频数据识别方法及系统。
技术介绍
随着语音识别技术的发展，通过识别语音数据，将识别出的文字代替手写输入更加快捷方便，使得语音识别在生活中逐渐得到了普遍的使用。例如，现有的搜索引擎、输入法、导航等软件等都加入了接收用户发出的语音，通过识别接收到的音频数据中的文字信息来代替用户手写输入功能。语音识别是一种让机器通过对语音信号进行识别和理解，将相应的语音信号转变为文本或命令的人工智能技术。其语音识别技术可以由声学模型、FSD(FrameSynchronousDecoding，逐帧同步解码)和WFST(WeightedFiniteStateTransducer，加权有限状态机)方法进行构建，其中，通过HMM(hiddenmarkovmodel，隐马尔科夫模型)进行建模，通过逐帧同步解码与其他知识源(即词典，、语言模型等)组合，以找到与输入特征最佳匹配的标签序列，通过加权有限状态机进行计算，从而识别的音频数据。在实现本专利技术过程中，专利技术人发现相关技术中至少存在如下问题：现有的隐马尔科夫模型的建模效果存在缺陷，使得语音识别声学模型一般都使用连接时序声学模型；逐帧同步解码是一个等间隔搜索算法，并且在处理特征序列中的变长时效率低下，计算量庞大且冗余，使得效率较差。
技术实现思路
为了至少解决现有技术中现有的语音识别声学模型都为连接时序模型，逐帧同步解码算法在处理特征序列中效率低下的问题。申请人意外的发现，使用后处理来消除声学模型中的空白输出，并获得每个输出标签的近似概率。进而提出LSD(labelsync...

【技术保护点】
1.一种音频数据识别方法，包括：将待识别的音频数据按照时间戳的先后顺序划分成多个音频数据片段，其中，每个音频数据片段包括至少一帧音频数据帧；基于待识别的音频数据的声学特征，确定每个音频数据片段中各帧音频数据帧的预测概率集合；根据所述各帧音频数据帧的预测概率集合，确定所述各帧音频数据帧的类型，所述类型包括：空白帧、非空白音频数据帧；当与非空白音频数据帧相邻的上一音频数据帧和下一音频数据帧中的至少一个音频数据帧为空白帧时，结合所述非空白音频数据帧的预测概率集合与所述至少一个音频数据帧的预测概率集合，以确定所述非空白音频数据帧的最终预测概率集合，当与非空白音频数据帧相邻的上一音频数据帧和下一音频数据帧的音频数据帧均不为空白帧时，将所述非空白音频数据帧的预测概率集合确定为最终预测概率集合；基于每个音频数据片段中的各非空白音频数据帧的最终预测概率集合，对各个音频数据片段进行音素同步解码，识别所述音频数据。

【技术特征摘要】
1.一种音频数据识别方法，包括：将待识别的音频数据按照时间戳的先后顺序划分成多个音频数据片段，其中，每个音频数据片段包括至少一帧音频数据帧；基于待识别的音频数据的声学特征，确定每个音频数据片段中各帧音频数据帧的预测概率集合；根据所述各帧音频数据帧的预测概率集合，确定所述各帧音频数据帧的类型，所述类型包括：空白帧、非空白音频数据帧；当与非空白音频数据帧相邻的上一音频数据帧和下一音频数据帧中的至少一个音频数据帧为空白帧时，结合所述非空白音频数据帧的预测概率集合与所述至少一个音频数据帧的预测概率集合，以确定所述非空白音频数据帧的最终预测概率集合，当与非空白音频数据帧相邻的上一音频数据帧和下一音频数据帧的音频数据帧均不为空白帧时，将所述非空白音频数据帧的预测概率集合确定为最终预测概率集合；基于每个音频数据片段中的各非空白音频数据帧的最终预测概率集合，对各个音频数据片段进行音素同步解码，识别所述音频数据。2.根据权利要求1所述的方法，其中，所述基于每个音频数据片段中的各非空白音频数据帧的最终预测概率集合，对各个音频数据片段进行音素同步解码，识别所述音频数据包括：根据所述各非空白音频数据帧的最终预测概率集合，确定各非空白音频数据帧的熵；将所述待识别的音频数据中所有空白帧的数量与所有音频数据帧的数量的比值确定为正比例因子；通过各非空白音频数据帧的最终预测概率集合、各非空白音频数据帧的熵以及正比例因子，确定各非空白音频数据帧的剪枝因子；根据所述各非空白音频数据帧的剪枝因子，在音素同步解码中对各非空白音频数据帧的最终预测概率集合中的预测概率进行剪枝。3.根据权利要求1所述的方法，其中，所述将待识别的音频数据按照时间戳的先后顺序划分成多个音频数据片段之前包括：通过使用生成性序列模型提取待识别的音频数据的声学特征。4.根据权利要求1所述的方法，其中，所述根据所述各帧音频数据帧的预测概率集合，确定所述各帧音频数据帧的类型包括：当至少一个音频数据帧的预测概率集合中的所述空白帧的预测概率与所述非空白音频数据帧的预测概率的差值大于预设阈值时，将所述至少一个音频数据帧的类型确定为空白帧，当至少一个音频数据帧的预测概率集合中的所述预测空白帧的概率与所述非空白音频数据帧的预测概率的差值小于等于预设阈值时，将所述至少一个音频数据帧的类型确定为非空白音频数据帧。5.根据权利要求1所述的方法，其中，所述每个音频数据片段为一帧或多帧音频数据帧。...

【专利技术属性】
技术研发人员：俞凯，钱彦旻，陈哲怀，游永彬，
申请(专利权)人：苏州思必驰信息科技有限公司，上海交通大学，
类型：发明
国别省市：江苏,32

全部详细技术资料下载我是这个专利的主人