一种训练语料的生成方法、装置、设备及存储介质制造方法及图纸

技术编号:21481300 阅读:33 留言:0更新日期:2019-06-29 05:40
本发明专利技术公开了一种训练语料的生成方法、装置、设备及存储介质。其中,该方法包括:在与目标应用程序关联的用户行为日志中,挖掘多条待标注的语料数据,语料数据中包括:包含用户语音以及对应语音识别结果的第一行为日志,以及与第一行为日志时间关联,且属于同一用户的第二行为日志;根据各待标注的语料数据中,第一行为日志与第二行为日志之间的关联关系,将各语料数据中的用户语音以及对应的语音识别结果判定为正反馈语料或者负反馈语料。本发明专利技术实施例可以基于用户行为,自动地、有针对性地挖掘语音识别的正反馈语料和负反馈语料提供给后续的语音识别模型训练,有效提升语音识别的效果,可以大大缩短语音识别模型的迭代周期,节省大量的资源。

【技术实现步骤摘要】
一种训练语料的生成方法、装置、设备及存储介质
本专利技术实施例涉及数据处理技术,尤其涉及一种训练语料的生成方法、装置、设备及存储介质。
技术介绍
目前地图类应用程序的语音识别模型的优化主要需要以下三步:随机抽取几万小时的音频及其对应场景信息;花费巨额金钱和时间进行人工标注,产出训练语料;基于新的训练语料重新训练语音识别模型,并且调优。专利技术人在实现本专利技术的过程中,发现由于现有技术中,语音识别的训练语料主要来源于人工标注的随机音频,导致两个主要问题:由于是人工标注,导致语音识别模型迭代周期过长,并且资源耗费比较严重;由于是随机抽取的音频,导致有大量的无效标注(增加识别错误的语料比增加识别正确的语料更加有价值)。
技术实现思路
本专利技术实施例提供一种训练语料的生成方法、装置、设备及存储介质,以实现基于用户行为,自动地、有针对性地挖掘语音识别的训练语料。第一方面,本专利技术实施例提供了一种训练语料的生成方法,包括:在与目标应用程序关联的用户行为日志中,挖掘多条待标注的语料数据,语料数据中包括:包含用户语音以及对应语音识别结果的第一行为日志,以及与第一行为日志时间关联,且属于同一用户的第二行为日志;根据各待标注的语料数据中,第一行为日志与第二行为日志之间的关联关系,将各语料数据中的用户语音以及对应的语音识别结果判定为正反馈语料或者负反馈语料。第二方面,本专利技术实施例还提供了一种训练语料的生成装置,包括:语料数据挖掘模块,用于在与目标应用程序关联的用户行为日志中,挖掘多条待标注的语料数据,所述语料数据中包括:包含用户语音以及对应语音识别结果的第一行为日志,以及与所述第一行为日志时间关联,且属于同一用户的第二行为日志;语料判定模块,用于根据各所述待标注的语料数据中,第一行为日志与第二行为日志之间的关联关系,将各所述语料数据中的用户语音以及对应的语音识别结果判定为正反馈语料或者负反馈语料。第三方面,本专利技术实施例还提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序所述处理器执行所述程序时实现如本专利技术实施例所述的训练语料的生成方法。第四方面,本专利技术实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如本专利技术实施例所述的训练语料的生成方法。本专利技术实施例的技术方案,通过在与目标应用程序关联的用户行为日志中,挖掘多条待标注的语料数据,语料数据中包括:包含用户语音以及对应语音识别结果的第一行为日志,以及与第一行为日志时间关联,且属于同一用户的第二行为日志,然后根据各待标注的语料数据中,第一行为日志与第二行为日志之间的关联关系,将各语料数据中的用户语音以及对应的语音识别结果判定为正反馈语料或者负反馈语料,解决了现有技术中,语音识别的训练语料主要来源于人工标注的随机音频,导致语音识别模型迭代周期过长,资源耗费比较严重,有大量的无效标注的问题,可以基于用户行为,自动地、有针对性地挖掘语音识别的正反馈语料和负反馈语料,提供给后续的语音识别模型训练,有效提升语音识别的效果,可以大大缩短语音识别模型的迭代周期,节省大量的资源。附图说明图1为本专利技术实施例一提供的一种训练语料的生成方法的流程图;图2a为本专利技术实施例二提供的一种训练语料的生成方法的流程图;图2b为本专利技术实施例二提供的一种位置检索场景下的用户语音输入页面的示意图;图2c为本专利技术实施例二提供的一种位置检索场景下的与位置检索服务匹配的检索结果页面的示意图;图2d为本专利技术实施例二提供的一种路线检索场景下的用户语音输入页面的示意图;图2e为本专利技术实施例二提供的一种与路线检索服务匹配的检索结果页面的示意图;图2f为本专利技术实施例二提供的一种路线导航场景下的用户语音输入页面的示意图;图2g为本专利技术实施例二提供的一种路线导航场景下的导航页的示意图;图2h为本专利技术实施例二提供的一种路线导航场景下的导航至目的地的页面的示意图;图3a为本专利技术实施例三提供的一种训练语料的生成方法的流程图;图3b为本专利技术实施例三提供的一种检索场景下的用户语音输入页面的示意图;图3c为本专利技术实施例三提供的一种检索场景下的修正语音输入页面的示意图;图3d为本专利技术实施例三提供的一种检索场景下的修正文本输入页面的示意图;图4a为本专利技术实施例四提供的一种训练语料的生成方法的流程图;图4b为本专利技术实施例四提供的一种正反馈语料挖掘方法的总体流程图;图4c为本专利技术实施例四提供的一种现有模型识别正确的音频和文本的挖掘方法的流程图;图4d为本专利技术实施例四提供的一种现有模型识别正确的音频和文本的挖掘方法的核心逻辑的流程图;图4e为本专利技术实施例四提供的一种负反馈语料挖掘方法的总体流程图;图4f为本专利技术实施例四提供的一种现有模型识别错误的音频和文本以及潜在正确文本的挖掘方法的流程图;图4g为本专利技术实施例四提供的一种现有模型识别错误的音频和文本以及潜在正确文本的挖掘方法的核心逻辑的流程图;图5为本专利技术实施例五提供的一种训练语料的生成装置的结构示意图;图6为本专利技术实施例六提供的一种计算机设备的结构示意图。具体实施方式下面结合附图和实施例对本专利技术作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本专利技术,而非对本专利技术的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本专利技术相关的部分而非全部结构。另外还需要说明的是,为了便于描述,附图中仅示出了与本专利技术相关的部分而非全部内容。在更加详细地讨论示例性实施例之前应当提到的是,一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各项操作(或步骤)描述成顺序的处理,但是其中的许多操作可以被并行地、并发地或者同时实施。此外,各项操作的顺序可以被重新安排。当其操作完成时所述处理可以被终止,但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。为了便于理解,将本专利技术实施例的主要专利技术构思进行简述。首先,专利技术人针对现有技术中的第一个主要问题:由于是人工标注,导致语音识别模型迭代周期过长,并且资源耗费比较严重,考虑是否可以自动地通过用户行为,从现有模型识别音频及其文本挖掘训练语料,不需要人工标注,直接用于训练。然后专利技术人针对现有技术中的第二个主要问题:由于是随机抽取的音频,导致有大量的无效标注(增加识别错误的语料比增加识别正确的语料更加有价值),考虑是否可以有针对性地挖掘语音识别的训练语料,将训练语料的挖掘工作分为两项具体工作:挖掘识别正确的语料和挖掘识别错误的语料,即正反馈语料挖掘和负反馈语料挖掘。基于上述思考,专利技术人创造性的提出,将训练语料的挖掘工作分为两项具体工作:正反馈语料挖掘和负反馈语料挖掘。正反馈语料挖掘包括:通过用户行为,将现有语音识别模型识别正确的音频及其文本挖掘出来,不需要人工标注,直接用于语音识别模型训练。负反馈语料挖掘包括:通过用户行为,将现有语音识别模型识别错误的音频挖掘出来,进行人工标注,产出训练语料。这样做的好处是,一是语音识别模型的迭代周期大大缩短,并且节省大量的资源;二是更加有针对性的抽取音频进行人工标注,使后续的语音识别模型迭代更加有效果。由此,实现基于用户的历史行为,来自动地有针对性地挖掘语音识别的训练语料,提供给后续的语音识别模型训练,进而更本文档来自技高网...

【技术保护点】
1.一种训练语料的生成方法,其特征在于,包括:在与目标应用程序关联的用户行为日志中,挖掘多条待标注的语料数据,所述语料数据中包括:包含用户语音以及对应语音识别结果的第一行为日志,以及与所述第一行为日志时间关联,且属于同一用户的第二行为日志;根据各所述待标注的语料数据中,第一行为日志与第二行为日志之间的关联关系,将各所述语料数据中的用户语音以及对应的语音识别结果判定为正反馈语料或者负反馈语料。

【技术特征摘要】
1.一种训练语料的生成方法,其特征在于,包括:在与目标应用程序关联的用户行为日志中,挖掘多条待标注的语料数据,所述语料数据中包括:包含用户语音以及对应语音识别结果的第一行为日志,以及与所述第一行为日志时间关联,且属于同一用户的第二行为日志;根据各所述待标注的语料数据中,第一行为日志与第二行为日志之间的关联关系,将各所述语料数据中的用户语音以及对应的语音识别结果判定为正反馈语料或者负反馈语料。2.根据权利要求1所述的方法,其特征在于,根据各所述待标注的语料数据中,第一行为日志与第二行为日志之间的关联关系,将各所述语料数据中的用户语音以及对应的语音识别结果判定为正反馈语料或者负反馈语料,包括:根据第一行为日志的日志类型,获取与所述第一行为日志对应的用户预期行为;在确定所述用户预期行为与所述第二行为日志相匹配时,将所述语料数据中的所述用户语音以及对应的语音识别结果判定为正反馈语料。3.根据权利要求1所述的方法,其特征在于,根据各所述待标注的语料数据中,第一行为日志与第二行为日志之间的关联关系,将各所述语料数据中的用户语音以及对应的语音识别结果判定为正反馈语料或者负反馈语料,包括:如果确定第二行为日志对应的用户行为为设定时间段内对所述第一行为日志的修正行为,则将所述语料数据中的所述用户语音以及对应的语音识别结果判定为负反馈语料。4.根据权利要求1所述的方法,其特征在于,所述目标应用程序包括:地图类应用程序。5.根据权利要求2所述的方法,其特征在于,根据第一行为日志的日志类型,获取与所述第一行为日志对应的用户预期行为,包括:如果确定所述第一行为日志的日志类型为使用与所述用户语音对应的语音识别结果作为目的地发起位置检索服务,则确定所述用户预期行为为用户在与所述位置检索服务匹配的检索结果页面中选择发起与所述目的地匹配的路线检索服务的选项。6.根据权利要求2所述的方法,其特征在于,根据第一行为日志的日志类型,获取与所述第一行为日志对应的用户预期行为,包括:如果确定所述第一行为日志的日志类型为将与所述用户语音对应的语音识别结果作为目的地发起路线检索服务,则确定所述用户预期行为为用户在与所述路线检索服务匹配的路线检索页面中选择导航至所述目的地的选项。7.根据权利要求2所述的方法,其特征在于,根据第一行为日志的日志类型,获取与所述第一行为日志对应的用户预期行为,包括:如果确定所述第一行为日志的日志类型为将与所述用户语音对应的语音识别结果作为目的地发起路线导航服务,则确定所述用户预期行为为用户成功抵达所述目的地。8.根据权利要求3所述的方法,其特征在于,确定第二行为日志对应的用户行为为设定时间段内对所述第一行为日志的修正行为,包括:如果确定所述第二行为日志对应的用户行为为重新输入修正语音,且与所述修...

【专利技术属性】
技术研发人员:丁世强黄际洲蒋忠伟马文韬
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1