一种语音识别的方法、语音断句的方法及装置制造方法及图纸

技术编号：21955257 阅读：37 留言：0更新日期：2019-08-24 19:06

本发明专利技术实施例公开了一种语音断句的方法，包括：获取第一待处理语音信息；根据所述第一待处理语音信息获取第一停顿时长；若所述第一停顿时长大于或等于第一时长阈值，则对所述第一待处理语音信息进行语音识别，得到第一语音断句结果，其中，所述第一语音断句结果为文本信息，所述第一时长阈值为根据上一时刻所对应的语音信息确定的。本发明专利技术实施例还公开了一种语音断句装置，本发明专利技术实施例迎合人在说话时候的特征，从而克服了频繁断句或者长时间不断句的问题，提升断句的准确度。

A Speech Recognition Method, Speech Sentence Breaking Method and Device

全部详细技术资料下载

【技术实现步骤摘要】
一种语音识别的方法、语音断句的方法及装置
本专利技术涉及语音处理
，尤其涉及一种语音识别的方法、语音断句的方法及装置。
技术介绍
人工智能(ArtificialIntelligence，AI)是用于模拟、延伸以及扩展人类智能的一门新型技术科学。AI是计算机科学的一个分支，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器，该领域的研究包括机器人、语音识别、图像识别、自然语言处理和专家系统等。其中，人工智能非常重要的方面就是语音识别技术。目前，基于语音识别技术的断句，通常做法是判断长语音中间的停顿长度是否大于预设阈值，如果停顿长度大于预设阈值，则可以对语音进行断句的处理。然而，采用上述方法对语音进行断句的效果并不佳，由于人在说话的时候语速是不固定的，因此，以停顿长度是否大于预设阈值作为断句的依据，可能会导致出现频繁断句或者长时间不断句的问题，由此，降低了断句的准确度。
技术实现思路
本专利技术实施例提供了一种语音识别的方法、语音断句的方法及装置，不再固定一个时长阈值来判断是否进行语音断句，而是针对上一时刻的语音信息来实时调整的时长阈值，由此迎合人在说话时候的特征，从而克服了频繁断句或者长时间不断句的问题，提升断句的准确度。有鉴于此，本专利技术的第一方面提供了一种语音识别的方法，包括：获取第一待处理语音信息；根据所述第一待处理语音信息获取第一停顿时长；若所述第一停顿时长大于或等于第一时长阈值，则对所述第一待处理语音信息进行语音识别，得到第一语音断句结果，其中，所述第一语音断句结果为文本信息；根据所述第一语音断句结果和/或所述第一待...

【技术保护点】
1.一种语音识别的方法，其特征在于，包括：获取第一待处理语音信息；根据所述第一待处理语音信息获取第一停顿时长；若所述第一停顿时长大于或等于第一时长阈值，则对所述第一待处理语音信息进行语音识别，得到第一语音断句结果，其中，所述第一语音断句结果为文本信息；根据所述第一语音断句结果和/或所述第一待处理语音信息确定第二时长阈值；获取第二待处理语音信息，其中，所述第二待处理语音信息是在所述第一待处理语音信息之后获取的；根据所述第二待处理语音信息获取第二停顿时长；若所述第二停顿时长大于或等于所述第二时长阈值，则对所述第一待处理语音信息进行语音识别，得到第二语音断句结果，其中，所述第二语音断句结果为文本信息。

【技术特征摘要】
1.一种语音识别的方法，其特征在于，包括：获取第一待处理语音信息；根据所述第一待处理语音信息获取第一停顿时长；若所述第一停顿时长大于或等于第一时长阈值，则对所述第一待处理语音信息进行语音识别，得到第一语音断句结果，其中，所述第一语音断句结果为文本信息；根据所述第一语音断句结果和/或所述第一待处理语音信息确定第二时长阈值；获取第二待处理语音信息，其中，所述第二待处理语音信息是在所述第一待处理语音信息之后获取的；根据所述第二待处理语音信息获取第二停顿时长；若所述第二停顿时长大于或等于所述第二时长阈值，则对所述第一待处理语音信息进行语音识别，得到第二语音断句结果，其中，所述第二语音断句结果为文本信息。2.一种语音断句的方法，其特征在于，包括：获取第一待处理语音信息；根据所述第一待处理语音信息获取第一停顿时长；若所述第一停顿时长大于或等于第一时长阈值，则对所述第一待处理语音信息进行语音识别，得到第一语音断句结果，其中，所述第一语音断句结果为文本信息，所述第一时长阈值为根据上一时刻所对应的语音信息确定的。3.根据权利要求2所述的方法，其特征在于，所述对所述第一待处理语音信息进行语音识别，得到第一语音断句结果之后，所述方法还包括：确定第二时长阈值；获取第二待处理语音信息；根据所述第二待处理语音信息获取第二停顿时长；若所述第二停顿时长大于或等于所述第二时长阈值，则对所述第二待处理语音信息进行语音识别，得到第二语音断句结果，其中，所述第二语音断句结果为文本信息。4.根据权利要求3所述的方法，其特征在于，所述确定第二时长阈值，包括：根据目标语音时长确定所述第二时长阈值；或，根据第一时刻的语速和第二时刻语速确定所述第二时长阈值；或，根据所述目标语音时长、所述第一时刻的语速和所述第二时刻语速，确定所述第二时长阈值。5.根据权利要求4所述的方法，其特征在于，所述根据目标语音时长确定所述第二时长阈值，包括：根据所述第一待处理语音信息的语音起始时刻与语音结束时刻，计算所述目标语音时长；根据所述目标语音时长、预设语音时长范围、第一预设语音时长以及最大语音时长，计算得到所述第二时长阈值。6.根据权利要求5所述的方法，其特征在于，所述根据所述第一待处理语音信息的语音起始时刻与语音结束时刻，计算所述目标语音时长，包括：采用如下方式计算所述目标语音时长：d＝ct-st；其中，所述d表示所述目标语音时长，所述ct表示所述语音结束时刻，所述st表示所述语音起始时刻；根据所述目标语音时长、预设语音时长范围、第一预设语音时长以及最大语音时长，计算得到所述第二时长阈值，包括：采用如下方式计算所述第二时长阈值：其中，所述T表示所述第二时长阈值，所述f0(d)表示第一阈值计算函数，所述T0表示所述第一预设语音时长，所述Dlow表示预设语音时长范围中的最小值，所述Dhigh表示所述预设语音时长范围中的最大值，所述Dmax表示所述最大语音时长。7.根据权利要求4所述的方法，其特征在于，所述根据第一时刻的语速和第二时刻语速确定所述第二时长阈值，包括：获取文本字数以及目标单位时间；根据第一时刻的语速、所述文本字数、所述目标单位时间以及平滑因子，计算第二时刻的语速，其中，所述第一时刻为所述第二时刻之前的一个时刻；根据所述第二时刻的语速、预设语速范围以及第二预设语音时长，计算得到所述第二时长阈值。8.根据权利要求7所述的方法，其特征在于，所述根据第一时刻的语速、所述文本字数、所述目标单位时间以及平滑因子，计算第二时刻的语速，包括：采用如下方式计算所述第二时刻的语速：其中，所述si表示所述第二时刻的语速，所述si-1表示所述第一时刻的语速，所述n表示所述文本字数，所述Δt表示所述目标单位时间，所述α表示所述平滑因子；所述根据所述第二时刻的语速、预设语速范围以及第二预设语音时长，计算得到所述第二时长阈值，包括：采用如下方式计算所述第二时长阈值：其中，所述T表示所述第二时长阈值，所述f1(s)表示第二阈值计算函数，所述T1表示所述第一预设语音时长，所述Shigh表示所述预设语速范围中的最大值，所述Slow表示所述预设语速范围中的最小值，所述Si表示所述第二时刻的语速。9.根...

【专利技术属性】
技术研发人员：陈联武，白晶亮，罗敏，
申请(专利权)人：腾讯科技深圳有限公司，
类型：发明
国别省市：广东,44

全部详细技术资料下载我是这个专利的主人