声学模型训练方法、装置、设备及计算机可读介质制造方法及图纸

技术编号:20285841 阅读:30 留言:0更新日期:2019-02-10 18:08
本发明专利技术提出一种声学模型训练方法,包括:对输入的语音进行识别,得到所述语音数据对应的文本;当检测到对所述文本的修改操作时,获取修改数据;将所述修改数据作为新的训练数据和原始训练数据一起输入至声学模型进行训练。本发明专利技术实施例利用客户端上实际收集到的同源数据并将其转换成有效的新训练数据,相对于原始的人工标注数据方式大幅节省时间和人力,同时大量增加数据积累。

Acoustic model training methods, devices, equipment and computer readable media

The present invention proposes an acoustic model training method, which includes: recognizing the input voice and obtaining the corresponding text of the voice data; acquiring the modified data when the modification operation of the text is detected; and inputting the modified data as new training data and original training data into the acoustic model for training. The embodiment of the present invention utilizes the same source data actually collected on the client side and converts it into effective new training data. Compared with the original manual labeling data method, it saves time and manpower greatly, and increases data accumulation substantially.

【技术实现步骤摘要】
声学模型训练方法、装置、设备及计算机可读介质
本专利技术涉及人工智能领域,尤其涉及一种声学模型训练方法及装置、设备和计算机可读介质。
技术介绍
目前,随着语音识别技术的发展,越来越多产品采用了语音识别技术。例如,采用语音输入法等。而在具有语音识别功能的程序中,识别结果有时与用户实际想输入的内容不完全一致。为了提高语音识别的准确率,一般采用声学模型对语音识别进行训练。首先通过从数据供应商直接购买或公司内部的标注团队对某一来源的数据进行标注获得训练数据,之后将处理好的训练数据加入到模型训练中,通过调整各种训练数据的比例和训练参数提升模型性能。然而,由于声学模型训练一般数据获取方案需进行人工标注,语音数据需花费大量人力、财力、时间进行标注及重检。另外,无法保证采集到的音频数据与客户端数据同源,可能造成训练有偏。
技术实现思路
本专利技术实施例提供一种声学模型训练方法、装置、设备及计算机可读介质,以解决或缓解现有技术中的一个或多个技术问题。第一方面,本专利技术实施例提供了一种声学模型训练方法,包括:对输入的语音进行识别,得到所述语音数据对应的文本;当检测到对所述文本的修改操作时,获取修改数据;将所述修改数据作为新的训练数据和原始训练数据一起输入至声学模型进行训练。在一种实施方式中,所述当检测到对所述文本的修改操作时,获取修改数据,包括:检测文本的修改内容,剔除修改数据中对标点符号的修改数据;检测文本中文字的修改后文本字数,保留与修改前文本字数相同的修改数据。在一种实施方式中,所述将所述修改数据作为新的训练数据和原始训练数据一起输入至声学模型进行训练包括:从声学模型的原始数据输入层输入原始训练数据;从声学模型的新数据输入层输入新的训练数据;在声学模型的隐层中对原始训练数据和新的训练数据进行训练;从声学模型的原始数据输出层输出原始训练数据的识别标签;从声学模型的新数据输出层输出新训练数据的识别标签。在一种实施方式中,所述新的训练数据和原始训练数据的数据量比例为:1:1~1:2之间。第二方面,本专利技术实施例提供了一种声学模型训练装置,包括:识别模块,用于对输入的语音进行识别,得到所述语音数据对应的文本;修改检测模块,用于当检测到对所述文本的修改操作时,获取修改数据;训练模块,用于将所述修改数据作为新的训练数据和原始训练数据一起输入至声学模型进行训练。在一种实施方式中,所述修改检测模块包括:内容检测子模块,用于检测文本的修改内容,剔除修改数据中对标点符号的修改数据;字数检测子模块,用于检测文本中文字的修改后文本字数,保留与修改前文本字数相同的修改数据。在一种实施方式中,所述训练模块包括:原始数据输入子模块,用于从声学模型的原始数据输入层输入原始训练数据;新数据输入子模块,用于从声学模型的新数据输入层输入新的训练数据;联合训练子模块,用于在声学模型的隐层中对原始训练数据和新的训练数据进行训练;原始数据输出子模块,用于从声学模型的原始数据输出层输出原始训练数据的识别标签;新数据输出子模块,用于从声学模型的新数据输出层输出新训练数据的识别标签。在一种实施方式中,所述新的训练数据和原始训练数据的数据量比例为:1:1~1:2之间。第三方面,在一个可能的设计中,声学模型训练装置的结构中包括处理器和存储器,所述存储器用于存储支持声学模型训练装置执行上述第一方面中声学模型训练方法的程序,所述处理器被配置为用于执行所述存储器中存储的程序。所述声学模型训练装置还可以包括通信接口,用于声学模型训练装置与其他设备或通信网络通信。第四方面,本专利技术实施例提供了一种计算机可读介质,用于存储声学模型训练装置所用的计算机软件指令,其包括用于执行上述第一方面的声学模型训练方法所涉及的程序。上述的一个技术方案具有如下优点或有益效果:利用客户端上实际收集到的同源数据并将其转换成有效的新训练数据,相对于原始的人工标注数据方式大幅节省时间和人力,同时大量增加数据积累。上述的另一个技术方案具有如下优点或有益效果:采用的训练数据筛选策略为有针对性的使用模型之前识别错误的样本,可以缩短训练时间,同时避免了对原本识别正确数据的过拟合造成的性能下降。上述的另一个技术方案具有如下优点或有益效果:采用新的训练策略来平衡新旧训练之间的数据差异,避免训练有偏或过拟合。上述概述仅仅是为了说明书的目的,并不意图以任何方式进行限制。除上述描述的示意性的方面、实施方式和特征之外,通过参考附图和以下的详细描述,本专利技术进一步的方面、实施方式和特征将会是容易明白的。附图说明在附图中,除非另外规定,否则贯穿多个附图相同的附图标记表示相同或相似的部件或元素。这些附图不一定是按照比例绘制的。应该理解,这些附图仅描绘了根据本专利技术公开的一些实施方式,而不应将其视为是对本专利技术范围的限制。图1为本专利技术一实施例的声学模型训练方法的流程图;图2为本专利技术一实施例的步骤S120的具体流程图;图3为本专利技术一实施例的声学模块的结构示意图;图4为本专利技术一实施例的步骤S130的具体流程图;图5为本专利技术一实施例的声学模型训练方法的具体应用示意图;图6为本专利技术一实施例的声学模型训练装置的连接框图;图7为本专利技术一实施例的修改检测模块的连接框图;图8为本专利技术一实施例的训练的连接框图;图9为本专利技术另一实施例的声学模型训练设备框图。具体实施方式在下文中,仅简单地描述了某些示例性实施例。正如本领域技术人员可认识到的那样,在不脱离本专利技术的精神或范围的情况下,可通过各种不同方式修改所描述的实施例。因此,附图和描述被认为本质上是示例性的而非限制性的。本专利技术实施例主要提供了一种通声学模型训练的方法及装置,下面分别通过以下实施例进行技术方案的展开描述。本专利技术提供了一种声学模型训练方法和装置,以下详细介绍本专利技术实施例的声学模型训练方法和装置的具体处理流程和原理。如图1所示,其为本专利技术实施例的声学模型训练方法的流程图。本专利技术实施例的声学模型训练方法可以包括以下步骤:S110:对输入的语音进行识别,得到所述语音数据对应的文本。在一种实施方式中,当用户采用语音输入法输入语音时,可以通过语音识别系统对用户输入的语音进行识别,然后再输出对应的文本。S120:当检测到对所述文本的修改操作时,获取修改数据。例如,对用户输入的语音进行识别后,输出“网上去哪吃饭”。由于识别的结果有误,此时用户对所述文本进行修改,例如修改为“晚上去哪吃饭”,并获取修改后的文本。如图2所示,在一种实施方式中,所述步骤S120具体可以包括:S121:检测文本的修改内容,剔除修改数据中对标点符号的修改数据。比如初始识别的文字为“网上去哪里吃饭。”,假设用户修改后的文字为“晚上去哪里吃饭?”。其中,对修改前后的内容进行比对,可以获得修改的内容包括文字部分修改,即将“网上”修改为“晚上”,还有对标点符号的修改,即将“。”修改为“?”。其中,仅需要保留文字部分的修改内容。S122:检测文本中文字的修改后文本字数,保留与修改前文本字数相同的修改数据。比如初始识别的文字为“网上去哪里吃饭”,假设用户修改后的文字为“晚上去哪里吃饭,几点出发”。其中,对比修改前后的内容,修改的文字部分为将“网上”修改为“晚上”,另外还增加了“几点出发”。因此,根据前后对比的内容的字数不同,修改后的文字不作为新的训练数据。本文档来自技高网...

【技术保护点】
1.一种声学模型训练方法,其特征在于,包括:对输入的语音进行识别,得到所述语音数据对应的文本;当检测到对所述文本的修改操作时,获取修改数据;将所述修改数据作为新的训练数据和原始训练数据一起输入至声学模型进行训练。

【技术特征摘要】
1.一种声学模型训练方法,其特征在于,包括:对输入的语音进行识别,得到所述语音数据对应的文本;当检测到对所述文本的修改操作时,获取修改数据;将所述修改数据作为新的训练数据和原始训练数据一起输入至声学模型进行训练。2.根据权利要求1所述的方法,其特征在于,所述当检测到对所述文本的修改操作时,获取修改数据,包括:检测文本的修改内容,剔除修改数据中对标点符号的修改数据;检测文本中文字的修改后文本字数,保留与修改前文本字数相同的修改数据。3.根据权利要求1所述的方法,其特征在于,所述将所述修改数据作为新的训练数据和原始训练数据一起输入至声学模型进行训练包括:从声学模型的原始数据输入层输入原始训练数据;从声学模型的新数据输入层输入新的训练数据;在声学模型的隐层中对原始训练数据和新的训练数据进行训练;从声学模型的原始数据输出层输出原始训练数据的识别标签;从声学模型的新数据输出层输出新训练数据的识别标签。4.根据权利要求1所述的方法,其特征在于,所述新的训练数据和原始训练数据的数据量比例为:1:1~1:2之间。5.一种声学模型训练装置,其特征在于,包括:识别模块,用于对输入的语音进行识别,得到所述语音数据对应的文本;修改检测模块,用于当检测到对所述文本的修改操作时,获取修改数据;训练模块,用于将所述修改数据作为新的训练数据和原始训练数...

【专利技术属性】
技术研发人员:霍昱光
申请(专利权)人:百度在线网络技术北京有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1