一种语音处理方法、装置、计算机可读存储介质及设备制造方法及图纸

技术编号：26652028 阅读：48 留言：0更新日期：2020-12-09 00:54

本发明专利技术公开了一种语音处理方法、装置及设备，方法包括：接收待处理语音的语音数据，待处理语音为第一对象和第二对象的若干轮语音交互过程中由第一对象发出的语音；根据语音数据，利用语义完整度模型，确定待处理语音为完整语音的置信度；根据置信度，确定第二对象对待处理语音进行响应的静音等待时长。本发明专利技术根据所接收到的待处理语音的语音数据，利用语义完整度模型，确定待处理语音为完整语音的置信度，有效识别出语义不完整语音信息，从而根据置信度，动态调整第二对象对待处理语音进行响应的静音等待时长，避免用户语音表达未结束时打断用户的情况发生，并且判断语音的语义完整的情况下，缩短静音时长，提高交互效率，大大提高用户体验。

全部详细技术资料下载

【技术实现步骤摘要】
一种语音处理方法、装置、计算机可读存储介质及设备
本专利技术涉及语音识别
，尤其涉及一种语音处理方法、装置、计算机可读存储介质及设备。
技术介绍
随着语音识别技术的发展，实现人与机器之间语音交互的智能语音服务系统应用于越来越多的场景，例如；智能客服、智能机器人等。语音交互场景中需要系统自动判断用户是否停止说话，如果系统发现用户已经表达完了自己的想法，则自动执行下一轮的信息交互，例如：信息问答等交互。对于用户是否停止说话的判断，主要通过设置一个固定时长的静音时长来判断用户是否停止说话。举例说明，在智能客户等电话语音交互系统中，设定的静音时长为200-1000毫秒。例如：设置的静音时长为200毫秒，则可以在用户说完一段话之后，200毫秒之内未接收到任何其他有效语音，则认为用户已经停止说话，语音识别任务结束，调用NLP(NaturalLanguageProcessing，自然语言处理)任务，针对该用户的问题进行回答。目前，静音时长的值目前根据人工经验调整，若设置静音时长的值较大，则判定用户结束说话的时间较长，用户实际...

【技术保护点】
1.一种语音处理方法，其特征在于，所述方法包括：/n接收待处理语音的语音数据，所述待处理语音为第一对象和第二对象的若干轮语音交互过程中由所述第一对象发出的语音；/n根据所述语音数据，利用语义完整度模型，确定所述待处理语音为完整语音的置信度；/n根据所述置信度，确定所述第二对象对所述待处理语音进行响应的静音等待时长。/n

【技术特征摘要】
1.一种语音处理方法，其特征在于，所述方法包括：
接收待处理语音的语音数据，所述待处理语音为第一对象和第二对象的若干轮语音交互过程中由所述第一对象发出的语音；
根据所述语音数据，利用语义完整度模型，确定所述待处理语音为完整语音的置信度；
根据所述置信度，确定所述第二对象对所述待处理语音进行响应的静音等待时长。

2.根据权利要求1所述的方法，其特征在于，所述根据所述置信度，确定所述第二对象对所述待处理语音进行响应的静音等待时长，包括：
确定所述置信度所属的置信度区间；
根据所述置信度区间以及预先确定的置信度区间与静音等待时长的第一关系，确定与所述置信度对应的第一静音等待时长，作为所述第二对象对所述待处理语音进行响应的静音等待时长。

3.根据权利要求1所述的方法，其特征在于，所述根据所述置信度，确定所述第二对象对所述待处理语音进行响应的静音等待时长，包括：根据所述置信度，以及预先确定的置信度与静音等待时长的第二关系，确定与所述置信度对应的第二静音等待时长，作为所述第二对象对所述待处理语音进行响应的静音等待时长。

4.根据权利要求1-3任一项所述的方法，其特征在于，所述语义完整度模型为采用以下操作中至少之一进行优化的BERT模型：
将模型输入中的语料长度定义为待训练语料的实际长度，所述待训练语料为完成语义标注的语料；
减少模型中模型层数。

5.根据权利要求4所述的方法，其特征在于，所述待训练语料包括语义完整的正例语料和语义缺失的负例语料，所述负例语料包括采用以下操作中至少之一得到的语料：
采用LOSS函数得到的语料；
采用困难样本...

【专利技术属性】
技术研发人员：李倩，雷欣，李志飞，
申请(专利权)人：出门问问信息科技有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人