一种语音识别的方法、语音断句的方法及装置制造方法及图纸

技术编号:21955257 阅读:37 留言:0更新日期:2019-08-24 19:06
本发明专利技术实施例公开了一种语音断句的方法,包括:获取第一待处理语音信息;根据所述第一待处理语音信息获取第一停顿时长;若所述第一停顿时长大于或等于第一时长阈值,则对所述第一待处理语音信息进行语音识别,得到第一语音断句结果,其中,所述第一语音断句结果为文本信息,所述第一时长阈值为根据上一时刻所对应的语音信息确定的。本发明专利技术实施例还公开了一种语音断句装置,本发明专利技术实施例迎合人在说话时候的特征,从而克服了频繁断句或者长时间不断句的问题,提升断句的准确度。

A Speech Recognition Method, Speech Sentence Breaking Method and Device

【技术实现步骤摘要】
一种语音识别的方法、语音断句的方法及装置
本专利技术涉及语音处理
,尤其涉及一种语音识别的方法、语音断句的方法及装置。
技术介绍
人工智能(ArtificialIntelligence,AI)是用于模拟、延伸以及扩展人类智能的一门新型技术科学。AI是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器,该领域的研究包括机器人、语音识别、图像识别、自然语言处理和专家系统等。其中,人工智能非常重要的方面就是语音识别技术。目前,基于语音识别技术的断句,通常做法是判断长语音中间的停顿长度是否大于预设阈值,如果停顿长度大于预设阈值,则可以对语音进行断句的处理。然而,采用上述方法对语音进行断句的效果并不佳,由于人在说话的时候语速是不固定的,因此,以停顿长度是否大于预设阈值作为断句的依据,可能会导致出现频繁断句或者长时间不断句的问题,由此,降低了断句的准确度。
技术实现思路
本专利技术实施例提供了一种语音识别的方法、语音断句的方法及装置,不再固定一个时长阈值来判断是否进行语音断句,而是针对上一时刻的语音信息来实时调整的时长阈值,由此迎合人在说话时候的特征,从而克服了频繁断句或者长时间不断句的问题,提升断句的准确度。有鉴于此,本专利技术的第一方面提供了一种语音识别的方法,包括:获取第一待处理语音信息;根据所述第一待处理语音信息获取第一停顿时长;若所述第一停顿时长大于或等于第一时长阈值,则对所述第一待处理语音信息进行语音识别,得到第一语音断句结果,其中,所述第一语音断句结果为文本信息;根据所述第一语音断句结果和/或所述第一待处理语音信息确定第二时长阈值;获取第二待处理语音信息,其中,所述第二待处理语音信息是在所述第一待处理语音信息之后获取的;根据所述第二待处理语音信息获取第二停顿时长;若所述第二停顿时长大于或等于所述第二时长阈值,则对所述第一待处理语音信息进行语音识别,得到第二语音断句结果,其中,所述第二语音断句结果为文本信息。本专利技术的第二方面提供了一种语音断句的方法,包括:获取第一待处理语音信息;根据所述第一待处理语音信息获取第一停顿时长;若所述第一停顿时长大于或等于第一时长阈值,则对所述第一待处理语音信息进行语音识别,得到第一语音断句结果,其中,所述第一语音断句结果为文本信息,所述第一时长阈值为根据上一时刻所对应的语音信息确定的。本专利技术的第三方面提供了一种语音断句装置,包括:获取模块,用于获取第一待处理语音信息;所述获取模块,还用于根据所述第一待处理语音信息获取第一停顿时长;断句模块,用于若所述获取模块获取的所述第一停顿时长大于或等于第一时长阈值,则对所述第一待处理语音信息进行语音识别,得到第一语音断句结果,其中,所述第一语音断句结果为文本信息,所述第一时长阈值为根据上一时刻所对应的语音信息确定的。本专利技术的第四方面提供了一种语音断句装置,包括:存储器、收发器、处理器以及总线系统;其中,所述存储器用于存储程序;所述处理器用于执行所述存储器中的程序,包括如下步骤:获取第一待处理语音信息;根据所述第一待处理语音信息获取第一停顿时长;若所述第一停顿时长大于或等于第一时长阈值,则对所述第一待处理语音信息进行语音识别,得到第一语音断句结果,其中,所述第一语音断句结果为文本信息,所述第一时长阈值为根据上一时刻所对应的语音信息确定的;所述总线系统用于连接所述存储器以及所述处理器,以使所述存储器以及所述处理器进行通信。本专利技术的第五方面提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述各方面所述的方法。从以上技术方案可以看出,本专利技术实施例具有以下优点:本专利技术实施例中,提供了一种语音断句的方法,首先,语音断句装置获取第一待处理语音信息,然后可以根据第一待处理语音信息获取第一停顿时长,如果第一停顿时长大于或等于第一时长阈值,则对第一待处理语音信息进行语音识别,得到第一语音断句结果,其中,第一语音断句结果为文本信息,第一时长阈值为根据上一时刻所对应的语音信息确定的。通过上述方式,不再固定一个时长阈值来判断是否进行语音断句,而是针对上一时刻的语音信息来实时调整的时长阈值,由此迎合人在说话时候的特征,从而克服了频繁断句或者长时间不断句的问题,提升断句的准确度。附图说明图1为本专利技术实施例中语音识别系统的一个架构示意图;图2为本专利技术实施例中语音识别的方法一个实施例示意图;图3为本专利技术实施例中语音断句的方法一个实施例示意图;图4为本专利技术实施例中待处理语音信息的一个实施例示意图;图5为本专利技术实施例中基于句子时长自适应断句的一个流程示意图;图6为本专利技术实施例中基于语速自适应断句的一个流程示意图;图7为本专利技术实施例中基于句子时长以及语速自适应断句的一个流程示意图;图8为本专利技术实施例中语音断句装置的一个实施例示意图;图9为本专利技术实施例中语音断句装置的另一个实施例示意图;图10为本专利技术实施例中语音断句装置的一个结构示意图。具体实施方式本专利技术实施例提供了一种语音识别的方法、语音断句的方法及装置,不再固定一个时长阈值来判断是否进行语音断句,而是针对上一时刻的语音信息来实时调整的时长阈值,由此迎合人在说话时候的特征,从而克服了频繁断句或者长时间不断句的问题,提升断句的准确度。本专利技术的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本专利技术的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。应理解,随着自动语音识别的技术发展,在相对安静环境下的语音识别率已经达到实用的水平。然而在实际产品落地过程中,如何在复杂场景中仍然保持较好的用户体验,还是面临的一系列挑战,例如在演讲等同声传译场景中,由于语音识别、翻译系统以及字幕显示的需求,系统需要在前端对输入语音进行切分或者断句。下面将结合图1介绍一种语音识别,请参阅图1,图1为本专利技术实施例中语音识别系统的一个架构示意图,如图所示,以在会议场景中为例,用户在会议室中开始讲话,这些讲话内容即为语音信息,由语音断句装置接收用户的语音信息,并经过语音前端信号处理模块后,输出经过语音检测和降噪处理后的音频流,同时输出语音检测得到的语音间的停顿时间。音频流输入到语音识别模块进行识别处理,而停顿信息与一个自适应变化的时长阈值相比,当停顿时间大于或等于时长阈值时触发断句,并将断句信息送给语音识别以及翻译和字幕显示等模块。此时,可以在屏幕上展示用户讲话的字幕信息。下面将对本专利技术中语音识别的方法进行介绍,请参阅图2,本专利技术实施例中语音识别的方法一个实施例包括:101、获取第一待处理语音信息;本实施例中,首先获取第一待处理语音信息,这里的第一待处理语音信息通常可以是人在说话时生成的语音信息。102、根据第一待处理语音信息获取第一停顿时长;本本文档来自技高网...

【技术保护点】
1.一种语音识别的方法,其特征在于,包括:获取第一待处理语音信息;根据所述第一待处理语音信息获取第一停顿时长;若所述第一停顿时长大于或等于第一时长阈值,则对所述第一待处理语音信息进行语音识别,得到第一语音断句结果,其中,所述第一语音断句结果为文本信息;根据所述第一语音断句结果和/或所述第一待处理语音信息确定第二时长阈值;获取第二待处理语音信息,其中,所述第二待处理语音信息是在所述第一待处理语音信息之后获取的;根据所述第二待处理语音信息获取第二停顿时长;若所述第二停顿时长大于或等于所述第二时长阈值,则对所述第一待处理语音信息进行语音识别,得到第二语音断句结果,其中,所述第二语音断句结果为文本信息。

【技术特征摘要】
1.一种语音识别的方法,其特征在于,包括:获取第一待处理语音信息;根据所述第一待处理语音信息获取第一停顿时长;若所述第一停顿时长大于或等于第一时长阈值,则对所述第一待处理语音信息进行语音识别,得到第一语音断句结果,其中,所述第一语音断句结果为文本信息;根据所述第一语音断句结果和/或所述第一待处理语音信息确定第二时长阈值;获取第二待处理语音信息,其中,所述第二待处理语音信息是在所述第一待处理语音信息之后获取的;根据所述第二待处理语音信息获取第二停顿时长;若所述第二停顿时长大于或等于所述第二时长阈值,则对所述第一待处理语音信息进行语音识别,得到第二语音断句结果,其中,所述第二语音断句结果为文本信息。2.一种语音断句的方法,其特征在于,包括:获取第一待处理语音信息;根据所述第一待处理语音信息获取第一停顿时长;若所述第一停顿时长大于或等于第一时长阈值,则对所述第一待处理语音信息进行语音识别,得到第一语音断句结果,其中,所述第一语音断句结果为文本信息,所述第一时长阈值为根据上一时刻所对应的语音信息确定的。3.根据权利要求2所述的方法,其特征在于,所述对所述第一待处理语音信息进行语音识别,得到第一语音断句结果之后,所述方法还包括:确定第二时长阈值;获取第二待处理语音信息;根据所述第二待处理语音信息获取第二停顿时长;若所述第二停顿时长大于或等于所述第二时长阈值,则对所述第二待处理语音信息进行语音识别,得到第二语音断句结果,其中,所述第二语音断句结果为文本信息。4.根据权利要求3所述的方法,其特征在于,所述确定第二时长阈值,包括:根据目标语音时长确定所述第二时长阈值;或,根据第一时刻的语速和第二时刻语速确定所述第二时长阈值;或,根据所述目标语音时长、所述第一时刻的语速和所述第二时刻语速,确定所述第二时长阈值。5.根据权利要求4所述的方法,其特征在于,所述根据目标语音时长确定所述第二时长阈值,包括:根据所述第一待处理语音信息的语音起始时刻与语音结束时刻,计算所述目标语音时长;根据所述目标语音时长、预设语音时长范围、第一预设语音时长以及最大语音时长,计算得到所述第二时长阈值。6.根据权利要求5所述的方法,其特征在于,所述根据所述第一待处理语音信息的语音起始时刻与语音结束时刻,计算所述目标语音时长,包括:采用如下方式计算所述目标语音时长:d=ct-st;其中,所述d表示所述目标语音时长,所述ct表示所述语音结束时刻,所述st表示所述语音起始时刻;根据所述目标语音时长、预设语音时长范围、第一预设语音时长以及最大语音时长,计算得到所述第二时长阈值,包括:采用如下方式计算所述第二时长阈值:其中,所述T表示所述第二时长阈值,所述f0(d)表示第一阈值计算函数,所述T0表示所述第一预设语音时长,所述Dlow表示预设语音时长范围中的最小值,所述Dhigh表示所述预设语音时长范围中的最大值,所述Dmax表示所述最大语音时长。7.根据权利要求4所述的方法,其特征在于,所述根据第一时刻的语速和第二时刻语速确定所述第二时长阈值,包括:获取文本字数以及目标单位时间;根据第一时刻的语速、所述文本字数、所述目标单位时间以及平滑因子,计算第二时刻的语速,其中,所述第一时刻为所述第二时刻之前的一个时刻;根据所述第二时刻的语速、预设语速范围以及第二预设语音时长,计算得到所述第二时长阈值。8.根据权利要求7所述的方法,其特征在于,所述根据第一时刻的语速、所述文本字数、所述目标单位时间以及平滑因子,计算第二时刻的语速,包括:采用如下方式计算所述第二时刻的语速:其中,所述si表示所述第二时刻的语速,所述si-1表示所述第一时刻的语速,所述n表示所述文本字数,所述Δt表示所述目标单位时间,所述α表示所述平滑因子;所述根据所述第二时刻的语速、预设语速范围以及第二预设语音时长,计算得到所述第二时长阈值,包括:采用如下方式计算所述第二时长阈值:其中,所述T表示所述第二时长阈值,所述f1(s)表示第二阈值计算函数,所述T1表示所述第一预设语音时长,所述Shigh表示所述预设语速范围中的最大值,所述Slow表示所述预设语速范围中的最小值,所述Si表示所述第二时刻的语速。9.根...

【专利技术属性】
技术研发人员:陈联武白晶亮罗敏
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1