一种语音数据采集和识别方法及装置制造方法及图纸

技术编号:36110215 阅读:18 留言:0更新日期:2022-12-28 14:12
本发明专利技术公开了一种语音数据采集和识别方法及装置,其中,该方法包括:根据第一操作指令,展示预设应用程序的操作页面;获取被采集对象在操作页面输入的属性信息;根据第二操作指令,在预设应用程序的操作页面展示预配置的词条文本标签,以便被采集对象读取词条文本标签后,生成与词条文本标签对应的语音数据;当确定词条文本标签录制完成后,生成与词条文本标签对应的语音文件;将语音文件和属性信息上传至服务器,以便服务器根据语音文件识别语音文件对应的文本数据,并验证词条文本标签与文本数据之间的一致性;通过此方法便于逐条录制语音数据,解决了现有技术中无法实现音频自动分割的缺陷,降低了后期语音处理的人工成本,提高了处理效率。提高了处理效率。提高了处理效率。

【技术实现步骤摘要】
一种语音数据采集和识别方法及装置


[0001]本专利技术涉及语音处理领域,具体涉及一种语音数据采集和识别方法及装置。

技术介绍

[0002]随着计算机技术和通信技术的快速发展,机器学习越来越多地应用到人们的生活中,在人与计算机的交互,促使了语音识别技术的迅猛发展,而在语音识别模型训练中,如何快速的获取到这种高质量、多样性的数据是一个挑战。
[0003]而在语音识别技术发展的过程中,需要大规模的对语音数据进行采集和处理,现有的语音处理技术,是将语音数据的采集和处理分开完成,而且在语音采集时无法实现音频的自动分割,这导致后期对语音数据的处理变得复杂,从而使语音处理的成本变高但效率却比较低。
[0004]因此,如何对语音数据进行高效的处理成为目前亟待解决的问题。

技术实现思路

[0005]因此,本专利技术要解决的技术问题在于克服现有技术中的语音处理成本高效率低的缺陷,从而提供一种语音数据采集和识别方法及装置。
[0006]第一方面,本专利技术提供了一种语音数据采集方法,该方法由终端设备执行,包括:根据第一操作指令,展示预设应用程序的操作页面;获取被采集对象在操作页面输入的属性信息;根据第二操作指令,在预设应用程序的操作页面逐条展示预配置的词条文本标签,以便被采集对象读取词条文本标签后,生成与词条文本标签对应的语音数据;当确定词条文本标签录制完成后,生成与词条文本标签对应的语音文件;将语音文件和属性信息上传至服务器,以便服务器根据语音文件识别语音文件对应的文本数据,并验证词条文本标签与文本数据之间的一致性。
[0007]通过获取被采集对象的属性信息,便于完整保存被采集对象的个人信息,方便后续按人员信息选取对应的语音数据;获取到第二操作指令后,被采集对象根据操作页面显示的预配置好的词条文本标签进行语音录制,当录制完成后,终端设备获取录制完的语音数据,并生成与词条文本标签对应的语音文件,并将语音文件和属性信息上传至服务器,以便于服务器对语音文件进行识别;通过此方法便于逐条录制语音数据,解决了现有技术中无法实现音频自动分割的缺陷,降低了后期语音处理的人工成本,提高了处理效率。
[0008]结合第一方面,在第一方面的第一实施例中,在预设应用程序的操作页面展示预配置的词条文本标签之前,包括:获取被采集对象在操作页面选择的录制项目;基于录制项目确定录制项目对应的至少一个词条文本标签。
[0009]通过获取被采集对象选择的录制项目,终端将根据该录制项目确定该项目对应的至少一个词条文本标签,以便于在被采集对象开始录制后将词条文本标签逐一在操作页面显示。
[0010]结合第一方面,在第一方面的第二实施例中,操作页面还用于展示当前已经录制
完成的词条数目,未完成录制的词条数目,以及词条总数目。
[0011]通过在操作页面展示已完成录制词条数目、未完成词条数目以及词条总数目,便于被采集对象根据操作页面所显示的信息进行合理的时间安排,给用户提供了良好的体验感。
[0012]结合第一方面,在第一方面的第三实施例中,该方法还包括:获取目标对象在操作页面执行的第三操作指令;根据第三操作指令,控制操作页面执行更换词条文本标签展示动作,用以展示与第三操作指令对应的词条文本标签,其中第三操作指令用以指示展示当前词条文本标签的前一个词条文本标签,或者展示当前词条文本标签的下一个词条文本标签。
[0013]通过第三操作指令,可以灵活展示当前词条的前一个词条和下一个词条,便于用户根据当前词条的录制完成情况进行灵活切换,不仅能够为用户节约录制时间,还可以在前一个词条文本标签没录好的情况下重新进行录制,进而提高语音采集的效率。
[0014]结合第一方面,在第一方面的第四实施例中,该方法还包括:操作页面还用于展示录制时间进度条,时间进度条与当前词条文本标签的文本长度相对应,用以提示当前词条文本标签的录制进度;当根据时间进度条,确定当前词条文本标签被录制完成后,切换下一个词条文本标签,并在操作页面进行展示。
[0015]通过操作页面的进度条提示,能够让被采集对象根据当前进度条的位置灵活控制录制过程的语速,以便在合理时间内完成录制;并且当时间进度条确定当前词条文本标签录制完成后,自动切换至下一个词条,避免了由于当前词条的录制时间太长而导致语音采集效率变低,从而提高了语音采集的效率。
[0016]第二方面,本专利技术提供了一种语音数据识别方法,方法由服务器端执行,包括:获取被采集对象的属性信息和语音文件;对语音文件进行首次识别,生成第一文本数据,根据第一文本数据与预存储的语音文件对应的词条文本标签确定第一识别结果;当第一识别结果为识别失败时,对语音文件进行二次识别,生成第二文本数据,基于第二文本数据与预存储的语音文件对应的词条文本标签确定第二识别结果;当第一识别结果为识别成功时,则将语音文件存储至第一存储位置,将语音文件对应的属性信息存储至第二存储位置;或者,当第一识别结果为识别失败,且第二识别结果为识别成功时,则将语音文件存储至第一存储位置,将语音文件对应的属性信息存储至第二存储位置。
[0017]通过对获取的语音文件进行首次识别,将首次识别失败的语音文件进行二次识别,最终将首次识别成功或者首次识别失败但二次识别成功的语音文件存储至第一存储位置,将首次识别成功或者首次识别失败但二次识别成功的语音文件对应的被采集对象的属性信息存储至第二存储位置,对语音文件和被采集对象的属性信息进行存储便于后期对语音文件或被采集对象属性信息的获取。结合第二方面,在第二方面的第一实施例中,根据第一文本数据与语音文件对应的词条文本标签确定第一识别结果,包括:当第一文本数据与词条文本标签一致时,则确定第一识别结果为识别成功;或者,当第一文本数据与词条文本标签不一致时,则确定第一识别结果为识别失败。
[0018]通过第一文本数据和对应词条文本标签的一致性判断第一识别结果是否成功,通过对第一识别结果的判断决定了是否要对当前语音文件进行二次识别。
[0019]结合第二方面,在第二方面的第二实施例中,还包括:当第一识别结果为识别失败
时,则获取人工识别结果;当人工识别结果为识别成功时,将语音文件存储至第一存储位置,将语音文件对应的属性信息存储至第二存储位置。
[0020]通过获取人工识别的结果确定语音文件是否需要存储,当人工识别结果为识别成功时,则可将识别成功的语音文件和对应的被采集对象的属性信息进行存储,提高了语音识别的准确度。
[0021]第三方面,本专利技术提供了一种语音数据采集装置,包括:第一展示模块,用于根据第一操作指令,展示预设应用程序的操作页面;第一获取模块,用于获取被采集对象在操作页面输入的属性信息;第一生成模块,用于根据第二操作指令,在预设应用程序的操作页面逐条展示预配置的词条文本标签,以便被采集对象读取词条文本标签后,生成与词条文本标签对应的语音数据;第二生成模块,用于当确定词条文本标签录制完成后,生成与词条文本标签对应的语音文件;上传模块,用于将语音文件和属性信息上本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音数据采集方法,其特征在于,所述方法由终端设备执行,包括:根据第一操作指令,展示预设应用程序的操作页面;获取被采集对象在所述操作页面输入的属性信息;根据第二操作指令,在所述预设应用程序的操作页面逐条展示预配置的词条文本标签,以便所述被采集对象读取所述词条文本标签后,生成与所述词条文本标签对应的语音数据;当确定所述词条文本标签录制完成后,生成与所述词条文本标签对应的语音文件;将所述语音文件和所述属性信息上传至服务器,以便所述服务器根据所述语音文件识别所述语音文件对应的文本数据,并验证所述词条文本标签与所述文本数据之间的一致性。2.根据权利要求1所述的语音数据采集方法,其特征在于,在所述预设应用程序的操作页面逐条展示预配置的词条文本标签之前,包括:获取所述被采集对象在所述操作页面选择的录制项目;基于所述录制项目确定所述录制项目对应的至少一个所述词条文本标签。3.根据权利要求1或2所述的语音数据采集方法,其特征在于,所述操作页面还用于展示当前已经录制完成的词条数目,未完成录制的词条数目,以及词条总数目。4.根据权利要求1或2所述的语音数据采集方法,其特征在于,所述方法还包括:获取目标对象在所述操作页面执行的第三操作指令;根据所述第三操作指令,控制所述操作页面执行更换词条文本标签展示动作,用以展示与所述第三操作指令对应的词条文本标签,其中所述第三操作指令用以指示展示当前词条文本标签的前一个词条文本标签,或者展示当前词条文本标签的下一个词条文本标签。5.根据权利要求1所述的语音数据采集方法,其特征在于,所述方法还包括:所述操作页面还用于展示录制时间进度条,所述时间进度条与当前词条文本标签的文本长度相对应,用以提示当前词条文本标签的录制进度;当根据所述时间进度条,确定当前词条文本标签被录制完成后,切换下一个词条文本标签,并在所述操作页面进行展示。6.一种语音数据识别方法,其特征在于,所述方法由服务器端执行,包括:获取被采集对象的属性信息和语音文件;对所述语音文件进行首次识别,生成第一文本数据,根据所述第一文本数据与预存储的所述语音文件对应的词条文本标签确定第一识别结果;当所述第一识别结果为识别失败时,对所述语音文件进行二次识别,生成第二文本数据,基于第二文本数据与预存储的所述语音文件对应的词条文本标签确定第二识别结果;当所述第一识别结果为识别成功时,则将所述语音文件存储至第一存储位置,将所述语音文件对...

【专利技术属性】
技术研发人员:黄启洲
申请(专利权)人:北京探境科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1