【技术实现步骤摘要】
一种语音识别的方法、语音断句的方法及装置
本专利技术涉及语音处理
,尤其涉及一种语音识别的方法、语音断句的方法及装置。
技术介绍
人工智能(ArtificialIntelligence,AI)是用于模拟、延伸以及扩展人类智能的一门新型技术科学。AI是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器,该领域的研究包括机器人、语音识别、图像识别、自然语言处理和专家系统等。其中,人工智能非常重要的方面就是语音识别技术。目前,基于语音识别技术的断句,通常做法是判断长语音中间的停顿长度是否大于预设阈值,如果停顿长度大于预设阈值,则可以对语音进行断句的处理。然而,采用上述方法对语音进行断句的效果并不佳,由于人在说话的时候语速是不固定的,因此,以停顿长度是否大于预设阈值作为断句的依据,可能会导致出现频繁断句或者长时间不断句的问题,由此,降低了断句的准确度。
技术实现思路
本专利技术实施例提供了一种语音识别的方法、语音断句的方法及装置,不再固定一个时长阈值来判断是否进行语音断句,而是针对上一时刻的语音信息来实时调整的时长阈值,由此迎合人在说话时候的特征,从而克服了频繁断句或者长时间不断句的问题,提升断句的准确度。有鉴于此,本专利技术的第一方面提供了一种语音识别的方法,包括:获取第一待处理语音信息;根据所述第一待处理语音信息获取第一停顿时长;若所述第一停顿时长大于或等于第一时长阈值,则对所述第一待处理语音信息进行语音识别,得到第一语音断句结果,其中,所述第一语音断句结果为文本信息;根据所述第一语音断句结果和/或所述第一待 ...
【技术保护点】
1.一种语音识别的方法,其特征在于,包括:获取第一待处理语音信息;根据所述第一待处理语音信息获取第一停顿时长;若所述第一停顿时长大于或等于第一时长阈值,则对所述第一待处理语音信息进行语音识别,得到第一语音断句结果,其中,所述第一语音断句结果为文本信息;根据所述第一语音断句结果和/或所述第一待处理语音信息确定第二时长阈值;获取第二待处理语音信息,其中,所述第二待处理语音信息是在所述第一待处理语音信息之后获取的;根据所述第二待处理语音信息获取第二停顿时长;若所述第二停顿时长大于或等于所述第二时长阈值,则对所述第一待处理语音信息进行语音识别,得到第二语音断句结果,其中,所述第二语音断句结果为文本信息。
【技术特征摘要】
1.一种语音识别的方法,其特征在于,包括:获取第一待处理语音信息;根据所述第一待处理语音信息获取第一停顿时长;若所述第一停顿时长大于或等于第一时长阈值,则对所述第一待处理语音信息进行语音识别,得到第一语音断句结果,其中,所述第一语音断句结果为文本信息;根据所述第一语音断句结果和/或所述第一待处理语音信息确定第二时长阈值;获取第二待处理语音信息,其中,所述第二待处理语音信息是在所述第一待处理语音信息之后获取的;根据所述第二待处理语音信息获取第二停顿时长;若所述第二停顿时长大于或等于所述第二时长阈值,则对所述第一待处理语音信息进行语音识别,得到第二语音断句结果,其中,所述第二语音断句结果为文本信息。2.一种语音断句的方法,其特征在于,包括:获取第一待处理语音信息;根据所述第一待处理语音信息获取第一停顿时长;若所述第一停顿时长大于或等于第一时长阈值,则对所述第一待处理语音信息进行语音识别,得到第一语音断句结果,其中,所述第一语音断句结果为文本信息,所述第一时长阈值为根据上一时刻所对应的语音信息确定的。3.根据权利要求2所述的方法,其特征在于,所述对所述第一待处理语音信息进行语音识别,得到第一语音断句结果之后,所述方法还包括:确定第二时长阈值;获取第二待处理语音信息;根据所述第二待处理语音信息获取第二停顿时长;若所述第二停顿时长大于或等于所述第二时长阈值,则对所述第二待处理语音信息进行语音识别,得到第二语音断句结果,其中,所述第二语音断句结果为文本信息。4.根据权利要求3所述的方法,其特征在于,所述确定第二时长阈值,包括:根据目标语音时长确定所述第二时长阈值;或,根据第一时刻的语速和第二时刻语速确定所述第二时长阈值;或,根据所述目标语音时长、所述第一时刻的语速和所述第二时刻语速,确定所述第二时长阈值。5.根据权利要求4所述的方法,其特征在于,所述根据目标语音时长确定所述第二时长阈值,包括:根据所述第一待处理语音信息的语音起始时刻与语音结束时刻,计算所述目标语音时长;根据所述目标语音时长、预设语音时长范围、第一预设语音时长以及最大语音时长,计算得到所述第二时长阈值。6.根据权利要求5所述的方法,其特征在于,所述根据所述第一待处理语音信息的语音起始时刻与语音结束时刻,计算所述目标语音时长,包括:采用如下方式计算所述目标语音时长:d=ct-st;其中,所述d表示所述目标语音时长,所述ct表示所述语音结束时刻,所述st表示所述语音起始时刻;根据所述目标语音时长、预设语音时长范围、第一预设语音时长以及最大语音时长,计算得到所述第二时长阈值,包括:采用如下方式计算所述第二时长阈值:其中,所述T表示所述第二时长阈值,所述f0(d)表示第一阈值计算函数,所述T0表示所述第一预设语音时长,所述Dlow表示预设语音时长范围中的最小值,所述Dhigh表示所述预设语音时长范围中的最大值,所述Dmax表示所述最大语音时长。7.根据权利要求4所述的方法,其特征在于,所述根据第一时刻的语速和第二时刻语速确定所述第二时长阈值,包括:获取文本字数以及目标单位时间;根据第一时刻的语速、所述文本字数、所述目标单位时间以及平滑因子,计算第二时刻的语速,其中,所述第一时刻为所述第二时刻之前的一个时刻;根据所述第二时刻的语速、预设语速范围以及第二预设语音时长,计算得到所述第二时长阈值。8.根据权利要求7所述的方法,其特征在于,所述根据第一时刻的语速、所述文本字数、所述目标单位时间以及平滑因子,计算第二时刻的语速,包括:采用如下方式计算所述第二时刻的语速:其中,所述si表示所述第二时刻的语速,所述si-1表示所述第一时刻的语速,所述n表示所述文本字数,所述Δt表示所述目标单位时间,所述α表示所述平滑因子;所述根据所述第二时刻的语速、预设语速范围以及第二预设语音时长,计算得到所述第二时长阈值,包括:采用如下方式计算所述第二时长阈值:其中,所述T表示所述第二时长阈值,所述f1(s)表示第二阈值计算函数,所述T1表示所述第一预设语音时长,所述Shigh表示所述预设语速范围中的最大值,所述Slow表示所述预设语速范围中的最小值,所述Si表示所述第二时刻的语速。9.根...
【专利技术属性】
技术研发人员:陈联武,白晶亮,罗敏,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。