The invention discloses a speech recognition method, device, computer equipment and storage medium. The method includes: acquiring voice data input by users according to the original text, dividing voice data into voice segments for recognition and conversion processing, obtaining conversion statements and conversion sequence numbers, and creating variable storage for each conversion statement. Spaces, the standard sentences and standard serial numbers are obtained by text preprocessing, and the strings to be matched are obtained by segmenting each transformation statement to match the standard sentences. The standard serial numbers of the matched standard sentences are stored in the variable storage space for analysis and processing, and the speech segments and standards of the conversion errors are obtained. Statements are stored in the speech database as data sets, and the speech recognition model is trained based on the data sets, so that the trained speech recognition model can correct the detected speech data. The technical scheme of the invention can enhance the speech error correction ability of the speech recognition model and improve the accuracy of the speech recognition model.
【技术实现步骤摘要】
语音识别方法、装置、计算机设备及存储介质
本专利技术涉及语音处理
,尤其涉及一种语音识别方法、装置、计算机设备及存储介质。
技术介绍
近年来语音识别技术发展迅速,其应用领域不断扩大,各种各样的语音识别系统产品出现在市场上,通过使用语音识别转换工具将语音识别,转化为文字输出后,广泛应用于在模型训练、媒体检索、字幕生成、语音鉴别等方面。但是,实际的用户类型却是多种多样的,许多人的发音与标准发音相差甚远。所以目前在使用语音识别转换工具将语音识别转换成文字时,由于一些用户的发音问题或者文字的多音字问题等原因,语音识别转换工具不能准确地识别这部分语音数据,并且没有具备一定的纠错能力,导致通过语音识别转换工具转换生成的文字与正确的文本内容存在不一致的情况,实际应用效果差。
技术实现思路
基于此,有必要针对上述技术问题,提供一种可以提高语音识别准确率的语音识别方法、装置、计算机设备及存储介质。一种语音识别方法,包括:获取用户根据原文文本输入的语音数据,并使用静音检测算法将所述语音数据切分为语音段;对每个所述语音段进行识别转换处理,得到转换语句和每个所述转换语句的转换序号,并为每个所述转换语句创建对应的变量存储空间;对所述原文文本进行预处理,得到标准语句和每个所述标准语句的标准序号;根据所述标准语句确定切分长度,并按照所述切分长度对每个所述转换语句进行字符串切分,得到待匹配字符串;针对每个所述待匹配字符串,使用该待匹配字符串与所述标准语句进行匹配,并将匹配成功的标准语句的标准序号,存储到该待匹配字符串所在的转换语句对应的变量存储空间中;对所述变量存储空间中的标准序号进行 ...
【技术保护点】
1.一种语音识别方法,其特征在于,所述语音识别方法包括:获取用户根据原文文本输入的语音数据,并使用静音检测算法将所述语音数据切分为语音段;对每个所述语音段进行识别转换处理,得到转换语句和每个所述转换语句的转换序号,并为每个所述转换语句创建对应的变量存储空间;对所述原文文本进行预处理,得到标准语句和每个所述标准语句的标准序号;根据所述标准语句确定切分长度,并按照所述切分长度对每个所述转换语句进行字符串切分,得到待匹配字符串;针对每个所述待匹配字符串,使用该待匹配字符串与所述标准语句进行匹配,并将匹配成功的标准语句的标准序号,存储到该待匹配字符串所在的转换语句对应的变量存储空间中;对所述变量存储空间中的标准序号进行分析处理,得到转换错误的语音段和该语音段对应的标准语句;将所述转换错误的语音段及其对应的标准语句存储到语音库作为数据集,并基于所述数据集对语音识别模型进行训练,以通过训练后的语音识别模型对检测到多音字或同类型口音的语音数据进行纠错。
【技术特征摘要】
1.一种语音识别方法,其特征在于,所述语音识别方法包括:获取用户根据原文文本输入的语音数据,并使用静音检测算法将所述语音数据切分为语音段;对每个所述语音段进行识别转换处理,得到转换语句和每个所述转换语句的转换序号,并为每个所述转换语句创建对应的变量存储空间;对所述原文文本进行预处理,得到标准语句和每个所述标准语句的标准序号;根据所述标准语句确定切分长度,并按照所述切分长度对每个所述转换语句进行字符串切分,得到待匹配字符串;针对每个所述待匹配字符串,使用该待匹配字符串与所述标准语句进行匹配,并将匹配成功的标准语句的标准序号,存储到该待匹配字符串所在的转换语句对应的变量存储空间中;对所述变量存储空间中的标准序号进行分析处理,得到转换错误的语音段和该语音段对应的标准语句;将所述转换错误的语音段及其对应的标准语句存储到语音库作为数据集,并基于所述数据集对语音识别模型进行训练,以通过训练后的语音识别模型对检测到多音字或同类型口音的语音数据进行纠错。2.如权利要求1所述的语音识别方法,其特征在于,所述使用静音检测算法将所述语音数据切分为语音段,包括:对所述语音数据进行预处理,得到音频数据,其中,所述音频数据包含n个采样点的采样值,n为正整数;按照预设的帧长和预设的步长对所述音频数据进行分帧处理,得到K帧语音帧,其中,K为正整数;根据所述采样值计算每帧所述语音帧的帧能量;针对每帧所述语音帧,若该语音帧的帧能量小于预设的帧能量阈值,则标记该语音帧为静音帧;若检测到连续的静音帧的数量大于预设的静音帧数量阈值,则标记该连续的静音帧为静音段;根据所述静音段确定所述语音数据的切分帧,并使用所述切分帧对所述语音数据进行切分,得到所述语音段。3.如权利要求1所述的语音识别方法,其特征在于,所述对所述原文文本进行预处理,得到标准语句和每个所述标准语句的标准序号,包括:根据预设的标点符号,对所述原文文本按照语句进行切分,得到切分语句;对每个所述切分语句进行遍历,若该切分语句包含非中文字符串,则将所述非中文字符串转换为中文,得到所述标准语句,并为每个所述标准语句分配所述标准序号。4.如权利要求1所述的语音识别方法,其特征在于,所述针对每个所述待匹配字符串,使用该待匹配字符串与所述标准语句进行匹配,并将匹配成功的标准语句的标准序号,存储到该待匹配字符串所在的转换语句对应的变量存储空间中,包括:将第一句所述标准语句设置为匹配起点,并根据所述匹配起点确定匹配范围;按照所述转换语句的转换序号的顺序,将每个所述待匹配字符串与所述匹配范围内的标准语句进行匹配,若在所述匹配范围内的标准语句中匹配到与该待匹配字符串一致的内容,则确认匹配成功,否则确认匹配失败;若匹配成功,则将匹配成功的标准语句的标准序号,存储到该待匹配字符串所在的转换语句对应的变量存储空间中,并以该匹配成功的标准语句作为下一个待匹配字符串的匹配起点;若匹配失败,则使用下一个待匹配字符串与所述匹配范围内的标准语句进行匹配,直至全部待匹配字符串匹配完为止。5.如权利要求1所述的语音识别方法,其特征在于,所述对所述变量存储空间中的标准序号进行分析处理,得到转换错误的语音段和该语音段对应的标准语句,包括:对每个所述变量存储空间中的标准序号进行去重处理,若该变量存储空间...
【专利技术属性】
技术研发人员:彭捷,
申请(专利权)人:平安科技深圳有限公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。