一种语音输入方法、系统及可读存储介质技术方案

技术编号:36862495 阅读:8 留言:0更新日期:2023-03-15 18:40
本发明专利技术公开一种语音输入方法、系统及可读存储介质,包括:获取用户输入的第一待识别语音;根据第一语速信息以及语音时长得到第一待识别语音的字符数,并对第一待识别语音进行分析,得到与第一待识别语音相对应的第一语音内容;获取用户输入的第二待识别语音,并判断第二待识别语音的字符数是否大于第一待识别语音的字符数;若不大于,则判断与第二待识别语音相对应的第二语音内容是否为第一语音内容的子语音内容;若为子语音内容,则基于第二语音内容对第一语音内容进行更新,并输出更新后的第一语音内容。实现了不同语速的语音适用于不同的语音识别模型,解决采用通用的语音识别可能存在识别无效如识别不准确的问题。可能存在识别无效如识别不准确的问题。可能存在识别无效如识别不准确的问题。

【技术实现步骤摘要】
一种语音输入方法、系统及可读存储介质


[0001]本专利技术属于语音识别
,尤其涉及一种语音输入方法、系统及可读存储介质。

技术介绍

[0002]目前的语音识别功能大多是采用语音识别模型实现,而语音识别模型的训练是采用基于标准语音的训练库进行训练。然而,在实际应用场景,用户的语言生长环境或者身体生理原因等多方面原因,导致了用户的语速可能不相同。
[0003]对于一部分语速快的用户,采用通用的语音识别可能存在识别无效如识别不准确、甚至无法识别等问题,使得这一部分用户使用语音识别技术的语音沟通存在很大的阻碍,严重影响用户的使用体验。

技术实现思路

[0004]本专利技术提供一种语音输入方法、系统及可读存储介质,用于解决对于一部分语速快的用户,采用通用的语音识别可能存在识别无效如识别不准确、甚至无法识别的技术问题。
[0005]第一方面,本专利技术提供一种语音输入方法,包括:在接收到第一语音输入指令时,获取用户输入的第一待识别语音,并提取所述第一待识别语音中的第一语音特征信息,其中,所述第一语音特征信息中包含第一声纹信息以及与所述第一声纹信息相对应的第一语速信息;根据所述第一语速信息以及语音时长得到所述第一待识别语音的字符数,并基于与所述字符数相关联的预先训练的语音识别模型对所述第一待识别语音进行分析,得到与所述第一待识别语音相对应的第一语音内容;在接收到第二语音输入指令时,获取用户输入的第二待识别语音,并判断所述第二待识别语音的字符数是否大于所述第一待识别语音的字符数;若所述第二待识别语音的字符数不大于所述第一待识别语音的字符数,则判断与所述第二待识别语音相对应的第二语音内容是否为所述第一语音内容的子语音内容,其中,所述第一语音内容的子语音内容为第一个字符和最后一个字符均存在于所述第一语音内容中的语音内容和/或与所述第一语音内容中字符相同的字符数量大于预设阈值的语音内容;若与所述第二待识别语音相对应的所述第二语音内容为所述第一语音内容的子语音内容,则基于所述第二语音内容对所述第一语音内容进行更新,并输出更新后的第一语音内容。
[0006]进一步地,在根据所述第一语速信息以及语音时长得到所述第一待识别语音的字符数之前,所述方法还包括:判断所述第一待识别语音中是否存在无义语音段,其中,所述无义语音段包括空白语音段和拖长音语音段;若所述第一待识别语音中存在无义语音段,则基于所述无义语音段的起始时间和终止时间去除所述第一待识别语音中的所述无义语音段,并重新拼接成仅包含有义语音段的第一目标待识别语音;获取所述第一目标待识别语音中的第一语速信息和第一目标待识别语音的所述语音时长。
[0007]进一步地,所述基于预先训练的与所述字符数相关联的语音识别模型对所述第一待识别语音进行分析,得到与所述第一待识别语音相对应的第一语音内容,包括:基于不同字符数的训练语音以及与所述训练语音相对应的训练语音内容对神经网络模型进行训练,得到至少一个语音识别模型,其中,一个语音识别模型用于识别字符数在一字符数范围的训练语音;根据所述第一待识别语音的字符数选取与所述字符数相对应的某一语音识别模型;根据所述某一语音识别模型对所述第一待识别语音进行分析,得到与所述第一待识别语音相对应的第一语音内容。
[0008]进一步地,在所述判断所述第二待识别语音的字符数是否大于所述第一待识别语音的字符数之前,所述方法还包括:判断所述第二待识别语音中的第二声纹信息是否与所述第一声纹信息相同;若所述第二待识别语音中的第二声纹信息与所述第一声纹信息相同,则基于所述第一语速信息以及所述第二待识别语音的语音时长得到所述第二待识别语音的字符数。
[0009]进一步地,在判断所述第二待识别语音中的第二声纹信息是否与所述第一声纹信息相同,之后,所述方法还包括:若所述第二待识别语音中的第二声纹信息与所述第一声纹信息不相同,则直接输出与所述第一待识别语音相对应的第一语音内容。
[0010]进一步地,在判断所述第二待识别语音的字符数是否大于所述第一待识别语音的字符数之后,所述方法还包括:若所述第二待识别语音的字符数大于所述第一待识别语音的字符数,则直接输出与所述第一待识别语音相对应的第一语音内容。
[0011]第二方面,本专利技术提供一种语音输入系统,包括:获取模块,配置为在接收到第一语音输入指令时,获取用户输入的第一待识别语音,并提取所述第一待识别语音中的第一语音特征信息,其中,所述第一语音特征信息中包含第一声纹信息以及与所述第一声纹信息相对应的第一语速信息;分析模块,配置为根据所述第一语速信息以及语音时长得到所述第一待识别语音的字符数,并基于与所述字符数相关联的预先训练的语音识别模型对所述第一待识别语音进行分析,得到与所述第一待识别语音相对应的第一语音内容;第一判断模块,配置为在接收到第二语音输入指令时,获取用户输入的第二待识别语音,并判断所述第二待识别语音的字符数是否大于所述第一待识别语音的字符数;第二判断模块,配置为若所述第二待识别语音的字符数不大于所述第一待识别语音的字符数,则判断与所述第二待识别语音相对应的第二语音内容是否为所述第一语音内容的子语音内容,其中,所述第一语音内容的子语音内容为第一个字符和最后一个字符均存在于所述第一语音内容中的语音内容和/或与所述第一语音内容中字符相同的字符数量大于预设阈值的语音内容;更新模块,配置为若与所述第二待识别语音相对应的所述第二语音内容为所述第一语音内容的子语音内容,则基于所述第二语音内容对所述第一语音内容进行更新,并输出更新后的第一语音内容。
[0012]第三方面,提供一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本专利技术任一实施例的语音输入方法的步骤。
[0013]第四方面,本专利技术还提供一种计算机可读存储介质,其上存储有计算机程序,所述程序指令被处理器执行时,使所述处理器执行本专利技术任一实施例的语音输入方法的步骤。
[0014]本申请的一种语音输入方法、系统及可读存储介质,采用不同的语音识别模型对不同字符数的输入语音进行识别,实现了不同语速的语音适用于不同的语音识别模型,解决了对于一部分语速快的用户,采用通用的语音识别可能存在识别无效如识别不准确、甚至无法识别的问题;并且在语音输入过程中,通过判断第二待识别语音的字符数是否大于第一待识别语音的字符数以及判断与第二待识别语音相对应的第二语音内容是否为第一语音内容的子语音内容,能够对语音内容是否正确进行默认判断,从而提高了语音输入的效率。
附图说明
[0015]为了更清楚地说明本专利技术实施例的技术方案,下面将对实施例描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0016]图1为本专利技术一实施例提供的一种语音输入方法的流程图;图2为本本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音输入方法,其特征在于,包括:在接收到第一语音输入指令时,获取用户输入的第一待识别语音,并提取所述第一待识别语音中的第一语音特征信息,其中,所述第一语音特征信息中包含第一声纹信息以及与所述第一声纹信息相对应的第一语速信息;根据所述第一语速信息以及语音时长得到所述第一待识别语音的字符数,并基于与所述字符数相关联的预先训练的语音识别模型对所述第一待识别语音进行分析,得到与所述第一待识别语音相对应的第一语音内容;在接收到第二语音输入指令时,获取用户输入的第二待识别语音,并判断所述第二待识别语音的字符数是否大于所述第一待识别语音的字符数;若所述第二待识别语音的字符数不大于所述第一待识别语音的字符数,则判断与所述第二待识别语音相对应的第二语音内容是否为所述第一语音内容的子语音内容,其中,所述第一语音内容的子语音内容为第一个字符和最后一个字符均存在于所述第一语音内容中的语音内容和/或与所述第一语音内容中字符相同的字符数量大于预设阈值的语音内容;若与所述第二待识别语音相对应的所述第二语音内容为所述第一语音内容的子语音内容,则基于所述第二语音内容对所述第一语音内容进行更新,并输出更新后的第一语音内容。2.根据权利要求1所述的一种语音输入方法,其特征在于,在根据所述第一语速信息以及语音时长得到所述第一待识别语音的字符数之前,所述方法还包括:判断所述第一待识别语音中是否存在无义语音段,其中,所述无义语音段包括空白语音段和拖长音语音段;若所述第一待识别语音中存在无义语音段,则基于所述无义语音段的起始时间和终止时间去除所述第一待识别语音中的所述无义语音段,并重新拼接成仅包含有义语音段的第一目标待识别语音;获取所述第一目标待识别语音中的第一语速信息和第一目标待识别语音的所述语音时长。3.根据权利要求1所述的一种语音输入方法,其特征在于,所述基于与所述字符数相关联的预先训练的语音识别模型对所述第一待识别语音进行分析,得到与所述第一待识别语音相对应的第一语音内容,包括:基于不同字符数的训练语音以及与所述训练语音相对应的训练语音内容对神经网络模型进行训练,得到至少一个语音识别模型,其中,一个语音识别模型用于识别字符数在一字符数范围的训练语音;根据所述第一待识别语音的字符数选取与所述字符数相对应的某一语音识别模型;根据所述某一语音识别模型对所述第一待识别语音进行分析,得到与所述第一待识别语音相对应的第一语音内容。4.根据权利要求1所述的一种语音输入方法,其特征在于,在所述判断所述第二待识别语音的字符数是否大于所述第一待识别语音的字符数之前,所述方法还包括:判断所述第二待识别语音...

【专利技术属性】
技术研发人员:吴天丁国平黄聪聪熊阳刘智鹏占祥东
申请(专利权)人:天创光电工程有限公司
类型:发明
国别省市:

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1