一种语音数据采集和识别方法及装置制造方法及图纸

技术编号：36110215 阅读：18 留言：0更新日期：2022-12-28 14:12

本发明专利技术公开了一种语音数据采集和识别方法及装置，其中，该方法包括：根据第一操作指令，展示预设应用程序的操作页面；获取被采集对象在操作页面输入的属性信息；根据第二操作指令，在预设应用程序的操作页面展示预配置的词条文本标签，以便被采集对象读取词条文本标签后，生成与词条文本标签对应的语音数据；当确定词条文本标签录制完成后，生成与词条文本标签对应的语音文件；将语音文件和属性信息上传至服务器，以便服务器根据语音文件识别语音文件对应的文本数据，并验证词条文本标签与文本数据之间的一致性；通过此方法便于逐条录制语音数据，解决了现有技术中无法实现音频自动分割的缺陷，降低了后期语音处理的人工成本，提高了处理效率。提高了处理效率。提高了处理效率。

全部详细技术资料下载

【技术实现步骤摘要】
一种语音数据采集和识别方法及装置

[0001]本专利技术涉及语音处理领域，具体涉及一种语音数据采集和识别方法及装置。

技术介绍

[0002]随着计算机技术和通信技术的快速发展，机器学习越来越多地应用到人们的生活中，在人与计算机的交互，促使了语音识别技术的迅猛发展，而在语音识别模型训练中，如何快速的获取到这种高质量、多样性的数据是一个挑战。
[0003]而在语音识别技术发展的过程中，需要大规模的对语音数据进行采集和处理，现有的语音处理技术，是将语音数据的采集和处理分开完成，而且在语音采集时无法实现音频的自动分割，这导致后期对语音数据的处理变得复杂，从而使语音处理的成本变高但效率却比较低。
[0004]因此，如何对语音数据进行高效的处理成为目前亟待解决的问题。

技术实现思路

[0005]因此，本专利技术要解决的技术问题在于克服现有技术中的语音处理成本高效率低的缺陷，从而提供一种语音数据采集和识别方法及装置。
[0006]第一方面，本专利技术提供了一种语音数据采集方法，该方法由终端设备执行，包括：根据第一操作指令，展示预设应用程序的操作页面；获取被采集对象在操作页面输入的属性信息；根据第二操作指令，在预设应用程序的操作页面逐条展示预配置的词条文本标签，以便被采集对象读取词条文本标签后，生成与词条文本标签对应的语音数据；当确定词条文本标签录制完成后，生成与词条文本标签对应的语音文件；将语音文件和属性信息上传至服务器，以便服务器根据语音文件识别语音文件对应的文本数据，并验证词条文本标签与...

【技术保护点】

【技术特征摘要】
1.一种语音数据采集方法，其特征在于，所述方法由终端设备执行，包括：根据第一操作指令，展示预设应用程序的操作页面；获取被采集对象在所述操作页面输入的属性信息；根据第二操作指令，在所述预设应用程序的操作页面逐条展示预配置的词条文本标签，以便所述被采集对象读取所述词条文本标签后，生成与所述词条文本标签对应的语音数据；当确定所述词条文本标签录制完成后，生成与所述词条文本标签对应的语音文件；将所述语音文件和所述属性信息上传至服务器，以便所述服务器根据所述语音文件识别所述语音文件对应的文本数据，并验证所述词条文本标签与所述文本数据之间的一致性。2.根据权利要求1所述的语音数据采集方法，其特征在于，在所述预设应用程序的操作页面逐条展示预配置的词条文本标签之前，包括：获取所述被采集对象在所述操作页面选择的录制项目；基于所述录制项目确定所述录制项目对应的至少一个所述词条文本标签。3.根据权利要求1或2所述的语音数据采集方法，其特征在于，所述操作页面还用于展示当前已经录制完成的词条数目，未完成录制的词条数目，以及词条总数目。4.根据权利要求1或2所述的语音数据采集方法，其特征在于，所述方法还包括：获取目标对象在所述操作页面执行的第三操作指令；根据所述第三操作指令，控制所述操作页面执行更换词条文本标签展示动作，用以展示与所述第三操作指令对应的词条文本标签，其中所述第三操作指令用以指示展示当前词条文本标签的前一个词条文本标签，或者展示当前词条文本标签的下一个词条文本标签。5.根据权利要求1所述的语音数据采集方法，其特征在于，所述方法还包括：所述操作页面还用于展示录制时间进度条，所述时间进度条与当前词条文本标签的文本长度相对应，用以提示当前词条文本标签的录制进度；当根据所述时间进度条，确定当前词条文本标签被录制完成后，切换下一个词条文本标签，并在所述操作页面进行展示。6.一种语音数据识别方法，其特征在于，所述方法由服务器端执行，包括：获取被采集对象的属性信息和语音文件；对所述语音文件进行首次识别，生成第一文本数据，根据所述第一文本数据与预存储的所述语音文件对应的词条文本标签确定第一识别结果；当所述第一识别结果为识别失败时，对所述语音文件进行二次识别，生成第二文本数据，基于第二文本数据与预存储的所述语音文件对应的词条文本标签确定第二识别结果；当所述第一识别结果为识别成功时，则将所述语音文件存储至第一存储位置，将所述语音文件对...

【专利技术属性】
技术研发人员：黄启洲，
申请(专利权)人：北京探境科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人