语音识别方法、装置、计算机设备及存储介质制造方法及图纸

技术编号:19347787 阅读:36 留言:0更新日期:2018-11-07 15:58
本发明专利技术公开了一种语音识别方法、装置、计算机设备及存储介质,所述方法包括:获取用户根据原文文本输入的语音数据,将语音数据切分为语音段进行识别转换处理,得到转换语句和转换序号,为每个转换语句创建变量存储空间,对原文文本预处理得到标准语句和标准序号,对每个转换语句切分得到待匹配字符串用于与标准语句进行匹配,将匹配成功的标准语句的标准序号存储到变量存储空间进行分析处理,并将得到的转换错误的语音段和标准语句存储到语音库作为数据集,基于数据集对语音识别模型进行训练,使得训练后的语音识别模型对检测到的语音数据进行纠错。本发明专利技术的技术方案能够增强语音识别模型的语音纠错能力,提高语音识别模型的准确率。

Speech recognition method, device, computer equipment and storage medium

The invention discloses a speech recognition method, device, computer equipment and storage medium. The method includes: acquiring voice data input by users according to the original text, dividing voice data into voice segments for recognition and conversion processing, obtaining conversion statements and conversion sequence numbers, and creating variable storage for each conversion statement. Spaces, the standard sentences and standard serial numbers are obtained by text preprocessing, and the strings to be matched are obtained by segmenting each transformation statement to match the standard sentences. The standard serial numbers of the matched standard sentences are stored in the variable storage space for analysis and processing, and the speech segments and standards of the conversion errors are obtained. Statements are stored in the speech database as data sets, and the speech recognition model is trained based on the data sets, so that the trained speech recognition model can correct the detected speech data. The technical scheme of the invention can enhance the speech error correction ability of the speech recognition model and improve the accuracy of the speech recognition model.

【技术实现步骤摘要】
语音识别方法、装置、计算机设备及存储介质
本专利技术涉及语音处理
,尤其涉及一种语音识别方法、装置、计算机设备及存储介质。
技术介绍
近年来语音识别技术发展迅速,其应用领域不断扩大,各种各样的语音识别系统产品出现在市场上,通过使用语音识别转换工具将语音识别,转化为文字输出后,广泛应用于在模型训练、媒体检索、字幕生成、语音鉴别等方面。但是,实际的用户类型却是多种多样的,许多人的发音与标准发音相差甚远。所以目前在使用语音识别转换工具将语音识别转换成文字时,由于一些用户的发音问题或者文字的多音字问题等原因,语音识别转换工具不能准确地识别这部分语音数据,并且没有具备一定的纠错能力,导致通过语音识别转换工具转换生成的文字与正确的文本内容存在不一致的情况,实际应用效果差。
技术实现思路
基于此,有必要针对上述技术问题,提供一种可以提高语音识别准确率的语音识别方法、装置、计算机设备及存储介质。一种语音识别方法,包括:获取用户根据原文文本输入的语音数据,并使用静音检测算法将所述语音数据切分为语音段;对每个所述语音段进行识别转换处理,得到转换语句和每个所述转换语句的转换序号,并为每个所述转换语句创建对应的变量存储空间;对所述原文文本进行预处理,得到标准语句和每个所述标准语句的标准序号;根据所述标准语句确定切分长度,并按照所述切分长度对每个所述转换语句进行字符串切分,得到待匹配字符串;针对每个所述待匹配字符串,使用该待匹配字符串与所述标准语句进行匹配,并将匹配成功的标准语句的标准序号,存储到该待匹配字符串所在的转换语句对应的变量存储空间中;对所述变量存储空间中的标准序号进行分析处理,得到转换错误的语音段和该语音段对应的标准语句;将所述转换错误的语音段及其对应的标准语句存储到语音库作为数据集,并基于所述数据集对语音识别模型进行训练,以通过训练后的语音识别模型对检测到多音字或同类型口音的语音数据进行纠错。一种语音识别装置,包括:语音切分模块,用于获取用户根据原文文本输入的语音数据,并使用静音检测算法将所述语音数据切分为语音段;语音识别模块,用于对每个所述语音段进行识别转换处理,得到转换语句和每个所述转换语句的转换序号,并为每个所述转换语句创建对应的变量存储空间;文本处理模块,用于对所述原文文本进行预处理,得到标准语句和每个所述标准语句的标准序号;语句分割模块,用于根据所述标准语句确定切分长度,并按照所述切分长度对每个所述转换语句进行字符串切分,得到待匹配字符串;文本匹配模块,用于针对每个所述待匹配字符串,使用该待匹配字符串与所述标准语句进行匹配,并将匹配成功的标准语句的标准序号,存储到该待匹配字符串所在的转换语句对应的变量存储空间中;分析处理模块,用于对所述变量存储空间中的标准序号进行分析处理,得到转换错误的语音段和该语音段对应的标准语句;纠错处理模块,用于将所述转换错误的语音段及其对应的标准语句存储到语音库作为数据集,并基于所述数据集对语音识别模型进行训练,以通过训练后的语音识别模型对检测到多音字或同类型口音的语音数据进行纠错。一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述语音识别方法的步骤。一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述语音识别方法的步骤。上述语音识别方法、装置、计算机设备及存储介质,通过使用静音检测算法将语音数据切分为语音段,在对每个语音段进行识别转换处理,以及对原文文本进行预处理之后,将转换语句切分得到待匹配字符串用于与标准语句进行匹配,能够识别出语音转换的文本中转换错误、缺失或者冗余的词语,并将匹配成功的标准语句的标准序号,存储到该待匹配字符串所在的转换语句对应的变量存储空间中,最后对变量存储空间中的标准序号进行分析处理,得到转换错误的语音段及其对应的标准语句存储到语音库,将该语音库用于进行机器模型学习,加强语音识别模型的自适应性,可以适应更多的环境和口音,具备调整纠错的能力,从而提高语音识别模型对语音识别的准确率。附图说明为了更清楚地说明本专利技术实施例的技术方案,下面将对本专利技术实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1是本专利技术一实施例中语音识别方法的一应用环境示意图;图2是本专利技术一实施例中语音识别方法的一流程图;图3是图2中步骤S2的一具体流程图;图4是图2中步骤S3的一具体流程图;图5是图2中步骤S5的一具体流程图;图6是图2中步骤S6的一具体流程图;图7是本专利技术一实施例中语音识别装置的一原理框图;图8是本专利技术一实施例中计算机设备的一示意图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。本申请提供的语音识别方法,可应用在如图1的应用环境中,该应用环境包括服务端和客户端,其中,服务端和客户端之间通过网络进行连接,用户通过客户端进行语音输入,服务端对用户输入的语音进行识别,并根据识别结果对语音识别模型进行训练。客户端具体可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备,服务端具体可以用独立的服务器或者多个服务器组成的服务器集群实现。本专利技术实施例提供的语音识别方法应用于服务端。在一实施例中,图2示出本实施例中语音识别方法的一流程图,该方法应用在图1中的服务端,用于训练语音识别模型。如图2所示,该语音识别方法包括步骤S1至步骤S7,详述如下:S1:获取用户根据原文文本输入的语音数据,并使用静音检测算法将该语音数据切分为语音段。在本实施例中,原文文本是为用户提供的文本模板,用户在客户端根据文本模板进行朗读,客户端将录下的语音数据上传服务端,服务端以获取到的语音数据作为训练样本进行语音识别模型的训练。需要说明的是,服务端若转写较长的语音数据会对系统资源产生较大的消耗,并且由于在对较长的语音数据进行语音识别的过程中,服务端自动对齐原因的影响,会降低语音识别的准确率。所以在服务端中使用静音检测算法对语音数据进行切分,通过将语音数据进行分帧处理,计算出每帧语音帧的帧能量,根据帧能量确定音频数据的静音段,从而能够对语音数据中的静音和停顿进行准确识别,并将语音数据按照语句进行切分,得到语音长度小于预设时间长度的语音段进行训练,其中,预设时间长度具体可以是10秒,但并不限于此,具体可以根据实际应用的需要进行设置,此处不做限制。S2:对每个语音段进行识别转换处理,得到转换语句和每个转换语句的转换序号,并为每个转换语句创建对应的变量存储空间。在本实施例中,对每个语音段进行语音识别,转换为文本的形式,并删除文本中的标点符号,同时移除空文本,得到转换语句,该转换语句具体可以以数组的形式或者矩阵的形式存储于数据库中,根据语音段在语音数据中的时间顺序为每个转换语句分配转换序号,并为每个转换本文档来自技高网...

【技术保护点】
1.一种语音识别方法,其特征在于,所述语音识别方法包括:获取用户根据原文文本输入的语音数据,并使用静音检测算法将所述语音数据切分为语音段;对每个所述语音段进行识别转换处理,得到转换语句和每个所述转换语句的转换序号,并为每个所述转换语句创建对应的变量存储空间;对所述原文文本进行预处理,得到标准语句和每个所述标准语句的标准序号;根据所述标准语句确定切分长度,并按照所述切分长度对每个所述转换语句进行字符串切分,得到待匹配字符串;针对每个所述待匹配字符串,使用该待匹配字符串与所述标准语句进行匹配,并将匹配成功的标准语句的标准序号,存储到该待匹配字符串所在的转换语句对应的变量存储空间中;对所述变量存储空间中的标准序号进行分析处理,得到转换错误的语音段和该语音段对应的标准语句;将所述转换错误的语音段及其对应的标准语句存储到语音库作为数据集,并基于所述数据集对语音识别模型进行训练,以通过训练后的语音识别模型对检测到多音字或同类型口音的语音数据进行纠错。

【技术特征摘要】
1.一种语音识别方法,其特征在于,所述语音识别方法包括:获取用户根据原文文本输入的语音数据,并使用静音检测算法将所述语音数据切分为语音段;对每个所述语音段进行识别转换处理,得到转换语句和每个所述转换语句的转换序号,并为每个所述转换语句创建对应的变量存储空间;对所述原文文本进行预处理,得到标准语句和每个所述标准语句的标准序号;根据所述标准语句确定切分长度,并按照所述切分长度对每个所述转换语句进行字符串切分,得到待匹配字符串;针对每个所述待匹配字符串,使用该待匹配字符串与所述标准语句进行匹配,并将匹配成功的标准语句的标准序号,存储到该待匹配字符串所在的转换语句对应的变量存储空间中;对所述变量存储空间中的标准序号进行分析处理,得到转换错误的语音段和该语音段对应的标准语句;将所述转换错误的语音段及其对应的标准语句存储到语音库作为数据集,并基于所述数据集对语音识别模型进行训练,以通过训练后的语音识别模型对检测到多音字或同类型口音的语音数据进行纠错。2.如权利要求1所述的语音识别方法,其特征在于,所述使用静音检测算法将所述语音数据切分为语音段,包括:对所述语音数据进行预处理,得到音频数据,其中,所述音频数据包含n个采样点的采样值,n为正整数;按照预设的帧长和预设的步长对所述音频数据进行分帧处理,得到K帧语音帧,其中,K为正整数;根据所述采样值计算每帧所述语音帧的帧能量;针对每帧所述语音帧,若该语音帧的帧能量小于预设的帧能量阈值,则标记该语音帧为静音帧;若检测到连续的静音帧的数量大于预设的静音帧数量阈值,则标记该连续的静音帧为静音段;根据所述静音段确定所述语音数据的切分帧,并使用所述切分帧对所述语音数据进行切分,得到所述语音段。3.如权利要求1所述的语音识别方法,其特征在于,所述对所述原文文本进行预处理,得到标准语句和每个所述标准语句的标准序号,包括:根据预设的标点符号,对所述原文文本按照语句进行切分,得到切分语句;对每个所述切分语句进行遍历,若该切分语句包含非中文字符串,则将所述非中文字符串转换为中文,得到所述标准语句,并为每个所述标准语句分配所述标准序号。4.如权利要求1所述的语音识别方法,其特征在于,所述针对每个所述待匹配字符串,使用该待匹配字符串与所述标准语句进行匹配,并将匹配成功的标准语句的标准序号,存储到该待匹配字符串所在的转换语句对应的变量存储空间中,包括:将第一句所述标准语句设置为匹配起点,并根据所述匹配起点确定匹配范围;按照所述转换语句的转换序号的顺序,将每个所述待匹配字符串与所述匹配范围内的标准语句进行匹配,若在所述匹配范围内的标准语句中匹配到与该待匹配字符串一致的内容,则确认匹配成功,否则确认匹配失败;若匹配成功,则将匹配成功的标准语句的标准序号,存储到该待匹配字符串所在的转换语句对应的变量存储空间中,并以该匹配成功的标准语句作为下一个待匹配字符串的匹配起点;若匹配失败,则使用下一个待匹配字符串与所述匹配范围内的标准语句进行匹配,直至全部待匹配字符串匹配完为止。5.如权利要求1所述的语音识别方法,其特征在于,所述对所述变量存储空间中的标准序号进行分析处理,得到转换错误的语音段和该语音段对应的标准语句,包括:对每个所述变量存储空间中的标准序号进行去重处理,若该变量存储空间...

【专利技术属性】
技术研发人员:彭捷
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1