用于获取信息的方法及装置制造方法及图纸

技术编号:20489459 阅读:54 留言:0更新日期:2019-03-02 21:10
本申请实施例公开了用于获取信息的方法。该方法的一具体实施方式包括:从待处理语音信号中获取语音特征音频序列,上述语音特征音频序列用于表征待处理语音信号对应的文字;将上述语音特征音频序列导入拼音识别模型,得到对应上述语音特征音频序列的拼音信息,上述拼音识别模型用于通过拼音单元集合匹配出对应语音特征音频序列的拼音信息,上述拼音单元用于识别单个文字;根据上述拼音信息查找对应上述待处理语音信号的文字信息。该实施方式降低了获取拼音信息的数据处理量和存储空间,提高了获取文字信息的准确性。

Methods and devices for obtaining information

The embodiment of this application discloses a method for obtaining information. One specific implementation of the method includes: acquiring speech feature audio sequence from the speech signal to be processed, which is used to represent the corresponding text of the speech signal to be processed; importing the above speech feature audio sequence into the Pinyin recognition model to obtain the Pinyin information corresponding to the above speech feature audio sequence, which is used to pass the Pinyin list. The set of elements matches the Pinyin information corresponding to the audio sequence of speech features. The above Pinyin units are used to recognize a single character. According to the above Pinyin information, the text information corresponding to the speech signal to be processed is searched. The implementation method reduces the data processing amount and storage space of acquiring Pinyin information, and improves the accuracy of acquiring text information.

【技术实现步骤摘要】
用于获取信息的方法及装置
本申请实施例涉及语音识别
,具体涉及用于获取信息的方法及装置。
技术介绍
语音识别技术能够将语音信号转换为文字信息,进而对文字信息进行处理,以实现对应的数据处理。用户可以通过语音信号对带有语音识别功能的智能设备实现远距离操控。尤其对于不易手动输入信息或用户无法输入信息的场合,语音识别技术极大地提高了信息交流的效率。
技术实现思路
本申请实施例提出了用于获取信息的方法及装置。第一方面,本申请实施例提供了一种用于获取信息的方法,该方法包括:从待处理语音信号中获取语音特征音频序列,上述语音特征音频序列用于表征待处理语音信号对应的文字;将上述语音特征音频序列导入拼音识别模型,得到对应上述语音特征音频序列的拼音信息,上述拼音识别模型用于通过拼音单元集合匹配出对应语音特征音频序列的拼音信息,上述拼音单元用于识别单个文字;根据上述拼音信息查找对应上述待处理语音信号的文字信息。在一些实施例中,上述将上述语音特征音频序列导入拼音识别模型,得到对应上述语音特征音频序列的拼音信息,包括:从上述语音特征音频序列中每间隔第一设定数量帧提取一帧初始语音帧,得到初始语音帧序列;将上述初始语音帧序列中相邻的第二设定数量帧的初始语音帧合并为二次语音帧序列。在一些实施例中,上述拼音单元包括声母音素、与声母音素匹配的韵母音素、音调标识,上述音调标识用于指示由声母音素和韵母音素组成的拼音信息的发音特征,以及,上述将上述语音特征音频序列导入拼音识别模型,得到对应上述语音特征音频序列的拼音信息,包括:获取上述二次语音帧序列的语音幅值波形图;从上述语音幅值波形图中筛选出对应幅值极值的尖峰语音帧,得到尖峰语音帧序列;对于上述尖峰语音帧序列中的尖峰语音帧,从上述拼音单元集合中匹配出与该尖峰语音帧对应的目标拼音单元,并通过该目标拼音单元确定该尖峰语音帧对应的目标拼音信息;按照目标拼音信息对应的尖峰语音帧在上述尖峰语音帧序列中的顺序对目标拼音信息进行排序,得到对应上述语音特征音频序列的拼音信息。在一些实施例中,上述拼音单元集合通过以下步骤构建:获取声母音素集合和韵母音素集合;对于上述声母音素集合中的声母音素,从上述韵母音素集合中筛选出与该声母音素匹配的韵母音素,得到对应该声母音素的拼音单元。在一些实施例中,上述从上述韵母音素集合中筛选出与该声母音素匹配的韵母音素,得到对应该声母音素的拼音单元,包括:从上述韵母音素集合中筛选出与该声母音素匹配的韵母音素得到韵母音素子集合;确定该声母音素与韵母音素子集合中韵母音素组成的拼音信息的音调标识得到音调标识集合;将该声母音素、韵母音素子集合中韵母音素和音调标识集合中的音调标识组合成对应该声母音素的拼音单元。第二方面,本申请实施例提供了一种用于获取信息的装置,该装置包括:语音特征音频序列获取单元,被配置成从待处理语音信号中获取语音特征音频序列,上述语音特征音频序列用于表征待处理语音信号对应的文字;拼音信息获取单元,被配置成将上述语音特征音频序列导入拼音识别模型,得到对应上述语音特征音频序列的拼音信息,上述拼音识别模型用于通过拼音单元集合匹配出对应语音特征音频序列的拼音信息,上述拼音单元用于识别单个文字;文字信息获取单元,被配置成根据上述拼音信息查找对应上述待处理语音信号的文字信息。在一些实施例中,上述拼音信息获取单元包括:初始语音帧序列获取子单元,被配置成从上述语音特征音频序列中每间隔第一设定数量帧提取一帧初始语音帧,得到初始语音帧序列;二次语音帧序列获取子单元,被配置成将上述初始语音帧序列中相邻的第二设定数量帧的初始语音帧合并为二次语音帧序列。在一些实施例中,上述拼音单元包括声母音素、与声母音素匹配的韵母音素、音调标识,上述音调标识用于指示由声母音素和韵母音素组成的拼音信息的发音特征,以及,上述拼音信息获取单元包括:语音幅值波形图获取子单元,被配置成获取上述二次语音帧序列的语音幅值波形图;尖峰语音帧序列获取子单元,被配置成从上述语音幅值波形图中筛选出对应幅值极值的尖峰语音帧,得到尖峰语音帧序列;目标拼音信息获取子单元,被配置成对于上述尖峰语音帧序列中的尖峰语音帧,从上述拼音单元集合中匹配出与该尖峰语音帧对应的目标拼音单元,并通过该目标拼音单元确定该尖峰语音帧对应的目标拼音信息;拼音信息获取子单元,被配置成按照目标拼音信息对应的尖峰语音帧在上述尖峰语音帧序列中的顺序对目标拼音信息进行排序,得到对应上述语音特征音频序列的拼音信息。在一些实施例中,上述拼音单元集合构建单元,被配置成构建拼音单元集合,上述拼音单元集合构建单元包括:音素集合获取子单元,被配置成获取声母音素集合和韵母音素集合;拼音单元获取子单元,被配置成对于上述声母音素集合中的声母音素,从上述韵母音素集合中筛选出与该声母音素匹配的韵母音素,得到对应该声母音素的拼音单元。在一些实施例中,上述拼音单元获取子单元包括:韵母音素子集合获取模块,被配置成从上述韵母音素集合中筛选出与该声母音素匹配的韵母音素得到韵母音素子集合;音调标识集合获取模块,被配置成确定该声母音素与韵母音素子集合中韵母音素组成的拼音信息的音调标识得到音调标识集合;拼音单元获取模块,被配置成将该声母音素、韵母音素子集合中韵母音素和音调标识集合中的音调标识组合成对应该声母音素的拼音单元。第三方面,本申请实施例提供了一种服务器,包括:一个或多个处理器;存储器,其上存储有一个或多个程序,当上述一个或多个程序被上述一个或多个处理器执行时,使得上述一个或多个处理器执行上述第一方面的用于获取信息的方法。第四方面,本申请实施例提供了一种计算机可读介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现上述第一方面的用于获取信息的方法。本申请实施例提供的用于获取信息的方法及装置,本技术方案首先从待处理语音信号中提取语音特征音频序列;然后将上述语音特征音频序列导入拼音识别模型,得到对应上述语音特征音频序列的拼音信息;最后根据上述拼音信息查找对应上述待处理语音信号的文字信息。本技术方案降低了获取拼音信息的数据处理量和存储空间,提高了获取文字信息的准确性。附图说明通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:图1是本申请的一个实施例可以应用于其中的示例性系统架构图;图2是根据本申请的用于获取信息的方法的一个实施例的流程图;图3是根据本申请的用于获取信息的方法的一个应用场景的示意图;图4是根据本申请的拼音单元集合构建方法的一个实施例的流程图;图5是根据本申请的用于获取信息的装置的一个实施例的结构示意图;图6是适于用来实现本申请实施例的服务器的计算机系统的结构示意图。具体实施方式下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关专利技术,而非对该专利技术的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关专利技术相关的部分。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。图1示出了可以应用本申请实施例的用于获取信息的方法或用于获取信息的装置的示例性系统架构100。如图1所示,系统架构100可以包括终端设备本文档来自技高网...

【技术保护点】
1.一种用于获取信息的方法,包括:从待处理语音信号中获取语音特征音频序列,所述语音特征音频序列用于表征待处理语音信号对应的文字;将所述语音特征音频序列导入拼音识别模型,得到对应所述语音特征音频序列的拼音信息,所述拼音识别模型用于通过拼音单元集合匹配出对应语音特征音频序列的拼音信息,所述拼音单元用于识别单个文字;根据所述拼音信息查找对应所述待处理语音信号的文字信息。

【技术特征摘要】
1.一种用于获取信息的方法,包括:从待处理语音信号中获取语音特征音频序列,所述语音特征音频序列用于表征待处理语音信号对应的文字;将所述语音特征音频序列导入拼音识别模型,得到对应所述语音特征音频序列的拼音信息,所述拼音识别模型用于通过拼音单元集合匹配出对应语音特征音频序列的拼音信息,所述拼音单元用于识别单个文字;根据所述拼音信息查找对应所述待处理语音信号的文字信息。2.根据权利要求1所述的方法,其中,所述将所述语音特征音频序列导入拼音识别模型,得到对应所述语音特征音频序列的拼音信息,包括:从所述语音特征音频序列中每间隔第一设定数量帧提取一帧初始语音帧,得到初始语音帧序列;将所述初始语音帧序列中相邻的第二设定数量帧的初始语音帧合并为二次语音帧序列。3.根据权利要求2所述的方法,其中,所述拼音单元包括声母音素、与声母音素匹配的韵母音素、音调标识,所述音调标识用于指示由声母音素和韵母音素组成的拼音信息的发音特征,以及,所述将所述语音特征音频序列导入拼音识别模型,得到对应所述语音特征音频序列的拼音信息,包括:获取所述二次语音帧序列的语音幅值波形图;从所述语音幅值波形图中筛选出对应幅值极值的尖峰语音帧,得到尖峰语音帧序列;对于所述尖峰语音帧序列中的尖峰语音帧,从所述拼音单元集合中匹配出与该尖峰语音帧对应的目标拼音单元,并通过该目标拼音单元确定该尖峰语音帧对应的目标拼音信息;按照目标拼音信息对应的尖峰语音帧在所述尖峰语音帧序列中的顺序对目标拼音信息进行排序,得到对应所述语音特征音频序列的拼音信息。4.根据权利要求1所述的方法,其中,所述拼音单元集合通过以下步骤构建:获取声母音素集合和韵母音素集合;对于所述声母音素集合中的声母音素,从所述韵母音素集合中筛选出与该声母音素匹配的韵母音素,得到对应该声母音素的拼音单元。5.根据权利要求4所述的方法,其中,所述从所述韵母音素集合中筛选出与该声母音素匹配的韵母音素,得到对应该声母音素的拼音单元,包括:从所述韵母音素集合中筛选出与该声母音素匹配的韵母音素得到韵母音素子集合;确定该声母音素与韵母音素子集合中韵母音素组成的拼音信息的音调标识得到音调标识集合;将该声母音素、韵母音素子集合中韵母音素和音调标识集合中的音调标识组合成对应该声母音素的拼音单元。6.一种用于获取信息的装置,包括:语音特征音频序列获取单元,被配置成从待处理语音信号中获取语音特征音频序列,所述语音特征音频序列用于表征待处理语音信号对应的文字;拼音信息获取单元,被配置成将所述语音特征音频序列导入拼音识别模型,得到对应所述语音特征音频序列的拼音信息,所述拼音识别模型用于通过拼音单...

【专利技术属性】
技术研发人员:钱胜王知践李俊博
申请(专利权)人:百度在线网络技术北京有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1