数据处理方法、装置、设备及可读存储介质制造方法及图纸

技术编号:38838558 阅读:10 留言:0更新日期:2023-09-17 09:53
本申请提供一种数据处理方法、装置、设备及可读存储介质,当需要收集用于训练语音识别系统的数据时,本申请可收集待标注数据;并对其抽样得到目标待标注数据,继而对其标注,得到目标标注数据;并核验其标注结果,得到第一分析结果;同时将其输入维度策略模块进行分析,得到第二分析结果;经过对目标标注数据的分析,有效减少其标注误差,因此,在分析目标标注数据的标注结果之后,可以结合目标标注数据的分析结果,对目标标注数据的标注结果进行分析,得到可以用于训练语音识别模型的第一目标伪标签数据,该数据可有效提高语音识别模型的识别准确度。利用本申请收集的数据做语音识别时,可在不同的场景中使用,且其识别的准确度较高。较高。较高。

【技术实现步骤摘要】
数据处理方法、装置、设备及可读存储介质


[0001]本申请涉及信息处理
,尤其涉及一种数据处理方法、装置、设备及可读存储介质。

技术介绍

[0002]近年来,随着科学技术的发展,语音识别技术取得显著进步,语音识别技术所涉及的领域包括:信号处理、模式识别、概率论和信息论、发声机理、听觉机理以及人工智能等等多个方面。随着语音识别技术逐渐开始进入工业、家电、通信、汽车电子、医疗、家庭服务、消费电子产品等各个领域,市场对语音识别系统的需求逐渐增加。
[0003]目前常用的语音识别系统在收集训练数据时,大多数是采用人工标注的方式。采用人工标注收集训练数据,虽可以得到精度较高的训练数据,但是标注训练数据的成本高,数据回收的周期比较长,同时需要后续花费时间进行数据的校验和验收,快速收集精度较高的语音识别系统的训练数据较难。

技术实现思路

[0004]本申请旨在至少能解决上述的技术缺陷之一,有鉴于此,本申请提供了一种数据处理方法、装置、设备及可读存储介质,用于解决现有技术中难以快速收集精度较高的语音识别系统的训练数据的技术缺陷。
[0005]一种数据处理方法,包括:
[0006]收集目标终端内的待标注数据;
[0007]对所述待标注数据进行抽样处理,得到目标待标注数据;
[0008]对所述目标待标注数据进行标注处理,得到包括标注结果的目标标注数据;
[0009]对所述目标标注数据的标注结果进行核验,得到所述目标标注数据的第一分析结果;
[0010]将所述目标标注数据输入预设的维度策略模块进行分析,得到所述目标标注数据的第二分析结果;
[0011]结合所述目标标注数据的第一分析结果以及第二分析结果,对所述目标标注数据的标注结果进行分析,得到第一目标伪标签数据。
[0012]优选地,该方法还包括:
[0013]将所述第一目标伪标签数据输入预设的语音识别模型进行识别,得到所述第一目标伪标签数据的语音识别结果,其中,所述预设的语音识别模型以训练伪标签数据作为训练样本,以所述训练伪标签数据中的语音识别结果为样本标签,训练得到。
[0014]优选地,该方法还包括:
[0015]将所述第一目标伪标签数据的标注识别结果输入到所述预设的维度策略模块进行至少一次的过滤分析,得到第二目标伪标签数据。
[0016]优选地,该方法还包括:
[0017]依据目标业务场景的需求,将所述第二目标伪标签数据输入与所述目标业务场景对应的后处理模块进行处理,得到与所述第二目标伪标签数据对应的处理结果。
[0018]优选地,所述预设的语音识别模型包括前馈神经网络模块、卷积神经网络模块、多投注意力机制模块以及基于神经网络层的归一化机制模块。
[0019]其中,
[0020]所述前馈申请网络模块用于做信息分类;
[0021]所述卷积神经网络模块用于捕获语音信号中的局部语义信息;
[0022]所述多投注意力机制模块用于在建模分析语音特征空间时,捕获到局部和全局的语音信息;
[0023]所述归一化机制模块用于在训练模型时防止数据溢出。
[0024]优选地,所述后处理模块包括:中英混合语音识别模块、时间戳功能模块、热词更新模块、端点检测模块、解码模块以及服务端部署模块。
[0025]一种数据处理装置,包括:
[0026]数据收集单元,用于收集目标终端内的待标注数据;
[0027]数据处理单元,用于对所述待标注数据进行抽样处理,得到目标待标注数据;
[0028]标注处理单元,用于对所述目标待标注数据进行标注处理,得到包括标注结果的目标标注数据;
[0029]核验单元,用于对所述目标标注数据的标注结果进行核验,得到所述目标标注数据的第一分析结果;
[0030]第一分析单元,用于将所述目标标注数据输入预设的维度策略模块进行分析,得到所述目标标注数据的第二分析结果;
[0031]第二分析单元,用于结合所述目标标注数据的第一分析结果以及第二分析结果,对所述目标标注数据的标注结果进行分析,得到第一目标伪标签数据。
[0032]优选地,该装置还包括:
[0033]数据识别单元,用于将所述第一目标伪标签数据输入预设的语音识别模型进行识别,得到所述第一目标伪标签数据的语音识别结果,其中,所述预设的语音识别模型以训练伪标签数据作为训练样本,以所述训练伪标签数据中的语音识别结果为样本标签,训练得到。
[0034]一种数据处理设备,包括:一个或多个处理器,以及存储器;
[0035]所述存储器中存储有计算机可读指令,所述计算机可读指令被所述一个或多个处理器执行时,实现如前述介绍中任一项所述数据处理方法的步骤。
[0036]一种可读存储介质,所述可读存储介质中存储有计算机可读指令,所述计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器实现如前述介绍中任一项所述数据处理方法的步骤。
[0037]从以上介绍的技术方案可以看出,当需要收集用于训练语音识别系统的数据样本时,本申请实施例提供的方法可以收集目标终端内的待标注数据;并可以对所述待标注数据进行抽样处理,由此可以得到目标待标注数据;并在得到所述目标待标注数据之后,可以继续对所述目标待标注数据进行标注处理,得到包括标注结果的目标标注数据;为了确认所述目标标注数据的标注结果是否正确,可以在得到所述目标标注数据之后,对所述目标
标注数据的标注结果进行核验,得到所述目标标注数据的第一分析结果;同时还可以将所述目标标注数据输入预设的维度策略模块进行分析,得到所述目标标注数据的第二分析结果;经过对所述目标标注数据的分析,可以有效减少所述目标标注数据的标注误差,因此,在对所述目标标注数据的标注结果进行分析之后,可以进一步结合所述目标标注数据的第一分析结果以及第二分析结果,对所述目标标注数据的标注结果进行分析,得到第一目标伪标签数据。其中,所述第一目标伪标签数据可以用于训练语音识别模型,可以有效提高语音识别模型的识别准确度。利用本申请实施例提供的方法来收集训练数据可以高效快速收集到精度较高的数据,且利用本申请实施例提供的方法来收集的数据做语音识别时,可以在不同的场景中使用,且其识别的准确度较高。
附图说明
[0038]为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。
[0039]图1为本申请实施例提供的一种实现数据处理方法的流程图;
[0040]图2为本申请实施例提供的一种语音识别模型的网络结构示意图。
[0041]图3为本申请实施例提供的一种后处理模块的示意图;
[0042]图4为本申请实施例提供的针对一种终端保存的无标注数据的标注处理过程示意图本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据处理方法,其特征在于,包括:收集目标终端内的待标注数据;对所述待标注数据进行抽样处理,得到目标待标注数据;对所述目标待标注数据进行标注处理,得到包括标注结果的目标标注数据;对所述目标标注数据的标注结果进行核验,得到所述目标标注数据的第一分析结果;将所述目标标注数据输入预设的维度策略模块进行分析,得到所述目标标注数据的第二分析结果;结合所述目标标注数据的第一分析结果以及第二分析结果,对所述目标标注数据的标注结果进行分析,得到第一目标伪标签数据。2.根据权利要求1所述的方法,其特征在于,该方法还包括:将所述第一目标伪标签数据输入预设的语音识别模型进行识别,得到所述第一目标伪标签数据的语音识别结果,其中,所述预设的语音识别模型以训练伪标签数据作为训练样本,以所述训练伪标签数据中的语音识别结果为样本标签,训练得到。3.根据权利要求1所述的方法,其特征在于,该方法还包括:将所述第一目标伪标签数据的标注识别结果输入到所述预设的维度策略模块进行至少一次的过滤分析,得到第二目标伪标签数据。4.根据权利要求3所述的方法,其特征在于,该方法还包括:依据目标业务场景的需求,将所述第二目标伪标签数据输入与所述目标业务场景对应的后处理模块进行处理,得到与所述第二目标伪标签数据对应的处理结果。5.根据权利要求1所述的方法,其特征在于,所述预设的语音识别模型包括前馈神经网络模块、卷积神经网络模块、多投注意力机制模块以及基于神经网络层的归一化机制模块,其中,所述前馈申请网络模块用于做信息分类;所述卷积神经网络模块用于捕获语音信号中的局部语义信息;所述多投注意力机制模块用于在建模分析语音特征空间时,捕获到局部和全局的语音信息;所述归一化机制模块用于在...

【专利技术属性】
技术研发人员:曾锐鸿马金龙兰翔马飞焦南凯盘子圣王伟喆黎子骏黄祥康吴文亮邓其春张政统熊佳谢睿徐志坚陈光尧
申请(专利权)人:广州趣研网络科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1