一种语音切分方法及装置、计算机装置和可读存储介质制造方法及图纸

技术编号：20548108 阅读：21 留言：0更新日期：2019-03-09 20:43

本发明专利技术公开了一种语音切分方法及装置、计算机装置和可读存储介质，其中，所述方法包括：采集获得图像；确定所述图像所对应的智能家居场景；在所述智能家居场景下采集到音频数据之后，确定所述智能家居场景对应的语音端点检测的灵敏度；按照与所述灵敏度对应的音频时长对所述音频数据进行切分，确定待识别语音段。用于解决现有采用语音端点检测的语音切分方法存在错误率高，语音识别效果差的技术问题。

全部详细技术资料下载

【技术实现步骤摘要】
一种语音切分方法及装置、计算机装置和可读存储介质
本专利技术涉及智能家居
，特别涉及一种语音切分方法及装置、计算机装置和可读存储介质。
技术介绍
语音端点检测作为一种人机交互的手段，在解放人类双手方面意义重大。具体来讲，语音端点检测就是从连续的语音流中将有效语音(也就是说，人说话的声音)的部分与外界的噪音或者是静音分割开来，降低存储或传输的数据量，以减少设备的计算负载，实现语音的快速识别。其主要包括两个方面，检测出有效语音的起始点即前端点，检测出有效语音的结束点即后端点。为了考察语音能量值的变化，需要先将语音信号按照固定时长比如20毫秒进行分割，每个分割单元称为帧。每帧中包含数量相同的采样点，然后计算每帧语音的能量值。如果音频前面部分连续M0帧的能量值低于一个事先指定的能量值阈值E0，接下来的连续M0帧能量值大于E0，则能量值增大的地方为语音的前端点。如果连续的若干帧能量值较大，随后的帧能量值变小，并且持续一定的时长，则能量值减小的地方为语音的后端点。其中，M0值的大小决定了语音端点检测的灵敏度。M0值越小，音频时长越短，语音端点检测的灵敏度越高，反之，M0值越大，音频时长越长，语音端点检测的灵敏度越低。此外，理想情况下静音能量值为0。然而，采集音频的场景中往往有一定强度的背景音，这种单纯的背景音当然算静音，但其能量值显然不为0，因此，实际采集到的音频其背景音通常有一定的基础能量值。假设音频起始处的一小段语音是静音，在估计E0时，选取一定数量的帧(比如前100帧语音数据)，计算其平均能量值，然后加上一个经验值或乘以一个大于1的系数，由此得到E0，并将...

【技术保护点】
1.一种语音切分方法，其特征在于，包括：采集获得图像；确定所述图像所对应的智能家居场景；在所述智能家居场景下采集到音频数据之后，确定所述智能家居场景对应的语音端点检测的灵敏度；按照与所述灵敏度对应的音频时长对所述音频数据进行切分，确定待识别语音段。

【技术特征摘要】
1.一种语音切分方法，其特征在于，包括：采集获得图像；确定所述图像所对应的智能家居场景；在所述智能家居场景下采集到音频数据之后，确定所述智能家居场景对应的语音端点检测的灵敏度；按照与所述灵敏度对应的音频时长对所述音频数据进行切分，确定待识别语音段。2.如权利要求1所述的方法，其特征在于，确定所述图像所对应的智能家居场景，包括：对所述图像进行分析，确定表征人体目标和智能家居设备的特征参数；基于所述特征参数，确定所述人体目标所处的智能家居场景。3.如权利要求2所述的方法，其特征在于，基于所述特征参数，确定所述人体目标所处的智能家居场景，包括：基于所述人体目标的数目、位置及行为动作，所述智能家居设备的数目及位置，确定所述人体目标之间的第一关系，以及所述人体目标与所述智能家居设备间的第二关系；基于所述第一关系和所述第二关系，确定所述人体目标所处的智能家居场景。4.如权利要求3所述的方法，其特征在于，若所述智能家居场景为所述人体目标的数目大于预设阈值的多人交流场景，确定所述智能家居场景对应的语音端点检测的灵敏度，包括：若所述多人交流场景与预设智能家居场景不同，则将所述预设智能家居场景对应的标准灵敏度增加至第一灵敏度，并将所述第一灵敏度确定为所述多人交流场景对应的语音端点检测的灵敏度。5.如权利要求3所述的方法，其特征在于，若所述智能家居场景为所述人体目标的行为动作预产生噪声的场景，确定所述智能家居场景对应的语音端点检测的灵敏度，包括：若所述人体目标...

【专利技术属性】
技术研发人员：张新，王慧君，毛跃辉，廖湖锋，李保水，连园园，万会，
申请(专利权)人：珠海格力电器股份有限公司，
类型：发明
国别省市：广东,44

全部详细技术资料下载我是这个专利的主人