音频数据识别方法及系统技术方案

技术编号:18660055 阅读:79 留言:0更新日期:2018-08-11 15:17
本发明专利技术实施例提供一种音频数据识别方法。该方法包括:将待识别的音频数据按照时间戳的先后顺序划分成多个音频数据片段;基于待识别的音频数据的声学特征,确定每个音频数据片段中各帧音频数据帧的预测概率集合;根据各帧音频数据帧的预测概率集合,确定各帧音频数据帧的类型;通过非空白音频数据帧相邻的上一音频数据帧和下一音频数据帧来确定非空白音频数据帧的最终预测概率集合;基于每个音频数据片段中的各非空白音频数据帧的最终预测概率集合,对各个音频数据片段进行音素同步解码,识别音频数据。本发明专利技术实施例还提供一种音频数据识别系统。本发明专利技术实施例的音频数据识别方法可用于任意声学模型,并且进一步提升了识别速度。

Audio data recognition method and system

The embodiment of the invention provides an audio data recognition method. The method includes: dividing the audio data to be recognized into several audio data fragments according to the order of time stamps; determining the prediction probability set of each audio data frame in each audio data fragment based on the acoustic characteristics of the audio data to be identified; and determining each frame according to the prediction probability set of each audio data frame. The type of the frame audio data frame; the final prediction probability set of the non-blank audio data frame is determined by the last audio data frame adjacent to the non-blank audio data frame and the next audio data frame; the final prediction probability set for each audio data fragment is based on the final prediction probability set of the non-blank audio data frame in each audio data fragment. Synchronize the phoneme decoding and recognize the audio data. The embodiment of the invention also provides an audio data recognition system. The audio data recognition method of the embodiment of the present invention can be used for any acoustic model, and the recognition speed is further improved.

【技术实现步骤摘要】
音频数据识别方法及系统
本专利技术涉及语音识别领域,尤其涉及一种音频数据识别方法及系统。
技术介绍
随着语音识别技术的发展,通过识别语音数据,将识别出的文字代替手写输入更加快捷方便,使得语音识别在生活中逐渐得到了普遍的使用。例如,现有的搜索引擎、输入法、导航等软件等都加入了接收用户发出的语音,通过识别接收到的音频数据中的文字信息来代替用户手写输入功能。语音识别是一种让机器通过对语音信号进行识别和理解,将相应的语音信号转变为文本或命令的人工智能技术。其语音识别技术可以由声学模型、FSD(FrameSynchronousDecoding,逐帧同步解码)和WFST(WeightedFiniteStateTransducer,加权有限状态机)方法进行构建,其中,通过HMM(hiddenmarkovmodel,隐马尔科夫模型)进行建模,通过逐帧同步解码与其他知识源(即词典,、语言模型等)组合,以找到与输入特征最佳匹配的标签序列,通过加权有限状态机进行计算,从而识别的音频数据。在实现本专利技术过程中,专利技术人发现相关技术中至少存在如下问题:现有的隐马尔科夫模型的建模效果存在缺陷,使得语音识别声学模型一般都使用连接时序声学模型;逐帧同步解码是一个等间隔搜索算法,并且在处理特征序列中的变长时效率低下,计算量庞大且冗余,使得效率较差。
技术实现思路
为了至少解决现有技术中现有的语音识别声学模型都为连接时序模型,逐帧同步解码算法在处理特征序列中效率低下的问题。申请人意外的发现,使用后处理来消除声学模型中的空白输出,并获得每个输出标签的近似概率。进而提出LSD(labelsynchronousdecoding,标签同步解码)。所提出的框架可以统一应用于基于隐马尔科夫模型和CTC(connectionisttemporalclassification,连接时序模型)的声学模型。并基于所使用的声学模型带有跳帧能力,同时处理多帧,从而提高多倍的速度。并对逐帧同步解码提供了一种新的剪枝方案,使得速度进一步提升来解决上述问题。第一方面,本专利技术实施例提供一种音频数据识别方法,包括:将待识别的音频数据按照时间戳的先后顺序划分成多个音频数据片段,其中,每个音频数据片段包括至少一帧音频数据帧;基于待识别的音频数据的声学特征,确定每个音频数据片段中各帧音频数据帧的预测概率集合;根据所述各帧音频数据帧的预测概率集合,确定所述各帧音频数据帧的类型,所述类型包括:空白帧、非空白音频数据帧;当与非空白音频数据帧相邻的上一音频数据帧和下一音频数据帧中的至少一个音频数据帧为空白帧时,结合所述非空白音频数据帧的预测概率集合与所述至少一个音频数据帧的预测概率集合,以确定所述非空白音频数据帧的最终预测概率集合,当与非空白音频数据帧相邻的上一音频数据帧和下一音频数据帧的音频数据帧均不为空白帧时,将所述非空白音频数据帧的预测概率集合确定为最终预测概率集合;基于每个音频数据片段中的各非空白音频数据帧的最终预测概率集合,对各个音频数据片段进行音素同步解码,识别所述音频数据。第二方面,本专利技术实施例提供一种音频数据识别系统,包括:音频数据片段划分程序模块,用于将待识别的音频数据按照时间戳的先后顺序划分成多个音频数据片段,其中,每个音频数据片段包括至少一帧音频数据帧;预测概率集合确定程序模块,用于基于待识别的音频数据的声学特征,确定每个音频数据片段中各帧音频数据帧的预测概率集合;音频数据帧类型确定程序模块,用于根据所述各帧音频数据帧的预测概率集合,确定所述各帧音频数据帧的类型,所述类型包括:空白帧、非空白音频数据帧;最终预测概率集合确定程序模块,用于当与非空白音频数据帧相邻的上一音频数据帧和下一音频数据帧中的至少一个音频数据帧为空白帧时,结合所述非空白音频数据帧的预测概率集合与所述至少一个音频数据帧的预测概率集合,以确定所述非空白音频数据帧的最终预测概率集合,当与非空白音频数据帧相邻的上一音频数据帧和下一音频数据帧的音频数据帧均不为空白帧时,将所述非空白音频数据帧的预测概率集合确定为最终预测概率集合;音频数据识别程序模块,用于基于每个音频数据片段中的各非空白音频数据帧的最终预测概率集合,对各个音频数据片段进行音素同步解码,识别所述音频数据。第三方面,提供一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本专利技术任一实施例的音频数据识别方法的步骤。第四方面,本专利技术实施例提供一种存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现本专利技术任一实施例的音频数据识别方法的步骤。本专利技术实施例的有益效果在于:通过将音频数据划分成音频数据片段,确定音频数据片段中每个音频数据帧之间的关联,将非空白音频数据帧的预测概率集合结合关联的空白帧的预测概率集合,从而在音频数据识别时消除对空白帧的识别,同时保证了只识别非空白音频数据帧的精准度。同时由于减少了所需要识别的音频数据帧,从而提高了识别音频数据的效率,从而其可以适用于任意的声学模型。在此基础上,新的剪枝方案进一步提高了识别音频数据的速度。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1是本专利技术一实施例提供的一种音频数据识别方法的流程图;图2是本专利技术另一实施例提供的一种音频数据识别方法的流程图;图3是本专利技术一实施例提供的一种音频数据识别方法的状态拓扑示意图;图4是本专利技术一实施例提供的一种音频数据识别方法的DSM中LSD与FSD的比较的列表数据图;图5是本专利技术另一实施例提供的一种音频数据识别方法的LSD与帧率改变方法之间的比较的列表数据图;图6是本专利技术又一实施例提供的一种音频数据识别方法的GSM中标签同步与帧同步比较的hub5e-swb结果的列表数据图;图7是本专利技术再一实施例提供的一种音频数据识别方法的GSM中的空白粒度的列表数据图;图8是本专利技术再一实施例提供的一种音频数据识别方法的GSM中的空白拓扑的列表数据图;图9是本专利技术一实施例提供的一种音频数据识别系统的结构示意图。具体实施方式为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。如图1所示为本专利技术一实施例提供的一种音频数据识别方法的流程图,包括如下步骤:S11:将待识别的音频数据按照时间戳的先后顺序划分成多个音频数据片段,其中,每个音频数据片段包括至少一帧音频数据帧;S12:基于待识别的音频数据的声学特征,确定每个音频数据片段中各帧音频数据帧的预测概率集合;S13:根据所述各帧音频数据帧的预测概率集合,确定所述各帧音频数据帧的类型,所述类型包括:空白帧、非空白音频数据帧本文档来自技高网...

【技术保护点】
1.一种音频数据识别方法,包括:将待识别的音频数据按照时间戳的先后顺序划分成多个音频数据片段,其中,每个音频数据片段包括至少一帧音频数据帧;基于待识别的音频数据的声学特征,确定每个音频数据片段中各帧音频数据帧的预测概率集合;根据所述各帧音频数据帧的预测概率集合,确定所述各帧音频数据帧的类型,所述类型包括:空白帧、非空白音频数据帧;当与非空白音频数据帧相邻的上一音频数据帧和下一音频数据帧中的至少一个音频数据帧为空白帧时,结合所述非空白音频数据帧的预测概率集合与所述至少一个音频数据帧的预测概率集合,以确定所述非空白音频数据帧的最终预测概率集合,当与非空白音频数据帧相邻的上一音频数据帧和下一音频数据帧的音频数据帧均不为空白帧时,将所述非空白音频数据帧的预测概率集合确定为最终预测概率集合;基于每个音频数据片段中的各非空白音频数据帧的最终预测概率集合,对各个音频数据片段进行音素同步解码,识别所述音频数据。

【技术特征摘要】
1.一种音频数据识别方法,包括:将待识别的音频数据按照时间戳的先后顺序划分成多个音频数据片段,其中,每个音频数据片段包括至少一帧音频数据帧;基于待识别的音频数据的声学特征,确定每个音频数据片段中各帧音频数据帧的预测概率集合;根据所述各帧音频数据帧的预测概率集合,确定所述各帧音频数据帧的类型,所述类型包括:空白帧、非空白音频数据帧;当与非空白音频数据帧相邻的上一音频数据帧和下一音频数据帧中的至少一个音频数据帧为空白帧时,结合所述非空白音频数据帧的预测概率集合与所述至少一个音频数据帧的预测概率集合,以确定所述非空白音频数据帧的最终预测概率集合,当与非空白音频数据帧相邻的上一音频数据帧和下一音频数据帧的音频数据帧均不为空白帧时,将所述非空白音频数据帧的预测概率集合确定为最终预测概率集合;基于每个音频数据片段中的各非空白音频数据帧的最终预测概率集合,对各个音频数据片段进行音素同步解码,识别所述音频数据。2.根据权利要求1所述的方法,其中,所述基于每个音频数据片段中的各非空白音频数据帧的最终预测概率集合,对各个音频数据片段进行音素同步解码,识别所述音频数据包括:根据所述各非空白音频数据帧的最终预测概率集合,确定各非空白音频数据帧的熵;将所述待识别的音频数据中所有空白帧的数量与所有音频数据帧的数量的比值确定为正比例因子;通过各非空白音频数据帧的最终预测概率集合、各非空白音频数据帧的熵以及正比例因子,确定各非空白音频数据帧的剪枝因子;根据所述各非空白音频数据帧的剪枝因子,在音素同步解码中对各非空白音频数据帧的最终预测概率集合中的预测概率进行剪枝。3.根据权利要求1所述的方法,其中,所述将待识别的音频数据按照时间戳的先后顺序划分成多个音频数据片段之前包括:通过使用生成性序列模型提取待识别的音频数据的声学特征。4.根据权利要求1所述的方法,其中,所述根据所述各帧音频数据帧的预测概率集合,确定所述各帧音频数据帧的类型包括:当至少一个音频数据帧的预测概率集合中的所述空白帧的预测概率与所述非空白音频数据帧的预测概率的差值大于预设阈值时,将所述至少一个音频数据帧的类型确定为空白帧,当至少一个音频数据帧的预测概率集合中的所述预测空白帧的概率与所述非空白音频数据帧的预测概率的差值小于等于预设阈值时,将所述至少一个音频数据帧的类型确定为非空白音频数据帧。5.根据权利要求1所述的方法,其中,所述每个音频数据片段为一帧或多帧音频数据帧。...

【专利技术属性】
技术研发人员:俞凯钱彦旻陈哲怀游永彬
申请(专利权)人:苏州思必驰信息科技有限公司上海交通大学
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1