用于识别音频中的关键短语的方法、装置、设备和介质制造方法及图纸

技术编号:20160555 阅读:33 留言:0更新日期:2019-01-19 00:13
本公开的实施例提供了用于识别音频中的关键短语的方法、装置、设备和计算机可读存储介质。一种用于识别音频中的关键短语的方法包括获取待识别的音频数据。该方法还包括利用经训练的关键短语识别模型来识别音频数据中的关键短语。该关键短语识别模型基于第一训练数据和第二训练数据而被训练,其中第一训练数据标识第一训练文本中的词语的特征信息并且第二训练数据标识第二训练文本中的关键短语。以此方式,本公开的实施例能够准确且高效地识别音频数据中的关键信息。

【技术实现步骤摘要】
用于识别音频中的关键短语的方法、装置、设备和介质
本公开的实施例总体涉及数据处理领域,并且更具体地,涉及用于识别音频中的关键短语的方法、装置、设备和计算机可读存储介质。
技术介绍
随着计算机技术的发展和智能终端的普及,人们越来越多地使用智能手机或智能音箱等终端设备来收听各种有声节目,诸如有声小说、儿童故事、培训课程等等。由于有声资源的提供方通常仅将录制好的音频数据上传至服务器并配以简单的标题和文字说明,当用户针对这些资源进行检索时,系统通常仅根据标题及文字说明进行检索。由于不能够全面快速地理解音频数据的内容,这样的检索效果可能无法满足用户需求。例如,当用户发出的查询命令中的关键词未被包括在音频数据的标题或文字说明中时,该音频数据将不会被检索到。
技术实现思路
根据本公开的示例实施例,提供了用于识别音频中的关键短语的方案。在本公开的第一方面中,提供了一种用于训练关键短语识别模型的方法。该方法包括获取第一训练数据,第一训练数据标识第一训练文本中的词语的特征信息。该方法还包括获取第二训练数据,第二训练数据标识第二训练文本中的关键短语。该方法还包括基于第一训练数据和第二训练数据来训练关键短语识别模型,以用于识别音频数据中的关键短语。在本公开的第二方面中,提供了一种用于识别音频中的关键短语的方法。该方法包括获取待识别的音频数据。该方法还包括利用经训练的关键短语识别模型来识别音频数据中的关键短语。该关键短语识别模型基于第一训练数据和第二训练数据而被训练,其中第一训练数据标识第一训练文本中的词语的特征信息并且第二训练数据标识第二训练文本中的关键短语。在本公开的第三方面中,提供了一种用于训练关键短语识别模型的装置。该装置包括:第一获取模块,被配置为获取第一训练数据,第一训练数据标识第一训练文本中的词语的特征信息;第二获取模块,被配置为获取第二训练数据,第二训练数据标识第二训练文本中的关键短语;以及模型训练模块,被配置为基于第一训练数据和第二训练数据来训练关键短语识别模型,以用于识别音频数据中的关键短语。在本公开的第四方面中,提供了一种用于识别音频中的关键短语的装置。该装置包括:音频获取模块,被配置为获取待识别的音频数据;以及识别模块,被配置为利用经训练的关键短语识别模型来识别音频数据中的关键短语,其中关键短语识别模型基于第一训练数据和第二训练数据而被训练,第一训练数据标识第一训练文本中的词语的特征信息并且第二训练数据标识第二训练文本中的关键短语。在本公开的第五方面中,提供了一种电子设备,包括一个或多个处理器和存储装置。存储装置用于存储一个或多个程序。当一个或多个程序被一个或多个处理器执行时,使得一个或多个处理器执行根据本公开的第一方面的方法。在本公开的第六方面中,提供了一种电子设备,包括一个或多个处理器和存储装置。存储装置用于存储一个或多个程序。当一个或多个程序被一个或多个处理器执行时,使得一个或多个处理器执行根据本公开的第二方面的方法。在本公开的第七方面中,提供了一种计算机可读介质,其上存储有计算机程序,该计算机程序在被处理器执行时实现根据本公开的第一方面的方法。在本公开的第八方面中,提供了一种计算机可读介质,其上存储有计算机程序,该计算机程序在被处理器执行时实现根据本公开的第二方面的方法。应当理解,
技术实现思路
部分中所描述的内容并非旨在限定本公开的实施例的关键或重要特征,亦非用于限制本公开的范围。本公开的其它特征将通过以下的描述变得容易理解。附图说明结合附图并参考以下详细说明,本公开各实施例的上述和其他特征、优点及方面将变得更加明显。在附图中,相同或相似的附图标记表示相同或相似的元素,其中:图1示出了本公开的实施例能够在其中实现的示例系统的示意图;图2示出了根据本公开的实施例的用于训练关键短语识别模型的示例方法的流程图;图3示出了根据本公开的实施例的用于识别音频中的关键短语的示例方法的流程图;图4示出了根据本公开实施例的用于训练关键短语识别模型的装置的示意性框图;图5示出了根据本公开实施例的用于识别音频中的关键短语的装置的示意性框图;以及图6示出了能够实施本公开的多个实施例的计算设备的框图。具体实施方式下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例,然而应当理解的是,本公开可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例,相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是,本公开的附图及实施例仅用于示例性作用,并非用于限制本公开的保护范围。在本公开的实施例的描述中,术语“包括”及其类似用语应当理解为开放性包含,即“包括但不限于”。术语“基于”应当理解为“至少部分地基于”。术语“一个实施例”或“该实施例”应当理解为“至少一个实施例”。术语“第一”、“第二”等等可以指代不同的或相同的对象。下文还可能包括其他明确的和隐含的定义。如以上提及的,随着计算机技术的发展和智能终端的普及,人们越来越多地使用智能手机或智能音箱等终端设备来收听各种有声节目,诸如有声小说、儿童故事、培训课程等等。由于有声资源的提供方通常仅将录制好的音频数据上传至服务器并配以简单的标题和文字说明,当用户针对这些资源进行检索时,系统通常仅根据标题及文字说明进行检索。由于不能够全面快速地理解音频数据的内容,这样的检索效果可能无法满足用户需求。在此情况下,如何快速理解音频文件的内容,从而准确高效地识别其中的关键词或关键短语成为亟待解决的挑战。一些传统方案针对热门音频采用人工标注的方式来标注其中的关键词或关键短语,例如热门儿童故事中的主人公等。然而,这种方案效率较低,无法大规模应用。此外,传统方案中存在针对文本来进行关键词或关键短语的检索的方案。然而,这些方案无法针对音频数据进行准确高效的检索。根据本公开的实施例,提出了一种用于识别音频中的关键短语的方案。该方案利用经自然语言处理的训练样本和经人工序列标注的训练样本两者来训练关键短语识别模型。该方案将待识别的音频数据转换成对应的文本,并且利用经训练的关键短语识别模型来识别文本中的关键词或关键短语。以此方式,该方案能够准确且高效地理解音频数据的内容并提取其中的关键信息。因此,该方案能够被广泛地应用于各种有声应用或音频检索系统中。以下将参照附图来具体描述本公开的实施例。在本文中,术语“模型”可以从训练数据中学习到相应的输入与输出之间的关联,从而在训练完成后可以针对给定的输入,生成对应的输出。应当理解,“模型”也可以被称为“神经网络”、“学习模型”或“学习网络”。术语“关键短语”可以指代一段内容中出现的一个或多个关键词。“关键短语”可以基于用户的意图来被确定,其示例可以包括但不限于有声内容中的主人公、特定场景、时间或其组合。图1示出了本公开的实施例能够在其中实现的示例系统100的示意图。系统100总体上可以包括模型训练子系统110和模型应用子系统120。应当理解,仅出于示例性的目的描述系统100的结构和功能,而不暗示对于本公开的范围的任何限制。本公开的实施例还可以被应用到具有不同的结构和/或功能的环境中。在模型训练子系统110中,模型训练装置111可以获取第一训练数据101和第二训练数据102以用于训练关键短语识别模型103。例如,第一训练数据101可以本文档来自技高网
...

【技术保护点】
1.一种用于训练关键短语识别模型的方法,包括:获取第一训练数据,所述第一训练数据标识第一训练文本中的词语的特征信息;获取第二训练数据,所述第二训练数据标识第二训练文本中的关键短语;以及基于所述第一训练数据和所述第二训练数据来训练关键短语识别模型,以用于识别音频数据中的关键短语。

【技术特征摘要】
1.一种用于训练关键短语识别模型的方法,包括:获取第一训练数据,所述第一训练数据标识第一训练文本中的词语的特征信息;获取第二训练数据,所述第二训练数据标识第二训练文本中的关键短语;以及基于所述第一训练数据和所述第二训练数据来训练关键短语识别模型,以用于识别音频数据中的关键短语。2.根据权利要求1所述的方法,其中获取第一训练数据包括:获取所述第一训练文本;以及通过对所述第一训练文本进行预处理来生成所述第一训练数据。3.根据权利要求2所述的方法,其中获取所述第一训练文本包括:获取用于训练所述关键短语识别模型的第一音频样本;以及利用语音识别技术将所述第一音频样本转换成所述第一训练文本。4.根据权利要求2所述的方法,其中对所述第一训练文本进行预处理包括:将所述第一训练文本拆分成至少一个句子;以及利用自然语言处理技术来确定所述至少一个句子中的所述词语的所述特征信息。5.根据权利要求4所述的方法,其中所述特征信息包括所述词语的文本、词性、语义和语法信息中的至少一项。6.根据权利要求1所述的方法,其中获取所述第二训练数据包括:获取所述第二训练文本;以及通过对所述第二训练文本进行预处理来生成所述第二训练数据。7.根据权利要求6所述的方法,其中获取所述第二训练文本包括:获取用于训练所述关键短语识别模型的第二音频样本;以及利用语音识别技术将所述第二音频样本转换成所述第二训练文本。8.根据权利要求6所述的方法,其中对所述第二训练文本进行预处理包括:将所述第二训练文本拆分成至少一个句子;以及利用多个标签来标识所述至少一个句子中的所述关键短语。9.根据权利要求8所述的方法,其中利用多个标签来标识所述至少一个句子中的所述关键短语包括:利用第一标签来标识所述关键短语的起始字符;利用第二标签来标识所述关键短语的后续字符,所述后续字符在所述起始字符之后;以及利用第三标签来标识所述至少一个句子中不属于所述关键短语的字符。10.一种用于识别音频中的关键短语的方法,包括:获取待识别的音频数据;以及利用经训练的关键短语识别模型来识别所述音频数据中的关键短语,其中所述关键短语识别模型基于第一训练数据和第二训练数据而被训练,所述第一训练数据标识第一训练文本中的词语的特征信息并且所述第二训练数据标识第二训练文本中的关键短语。11.根据权利要求10所述的方法,其中识别所述音频数据中的关键短语包括:利用语音识别技术将所述音频数据转换成与所述音频数据相对应的文本;将所述文本拆分成至少一个句子;利用所述关键短语识别模型来确定所述至少一个句子中的字符的相应标签;以及基于所述相应标签来识别所述音频数据中的关键短语。12.根据权利要求11所述的方法,其中所述相应标签包括以下之一:第一标签,其指示所述字符为所述关键短语的起始字符;第二标签,其指示所述字符为所述关键短语的后续字符,其中所述后续字符在所述起始字符之后;以及第三标签,其指示所述字符不属于所述关键短语。13.根据权利要求12所述的方法,其中基于所述相应标签来识别所述音频数据中的关键短语包括:将由所述第一标签标识的所述起始字符和由所述第二标签标识的所述后续字符的集合识别为所述关键短语。14.一种用于训练关键短语识别模型的装置,包括:第一获取模块,被配置为获取第一训练数据,所述第一训练数据标识第一训练文本中的词语的特征信息;第二获取模块,被配置为获取第二训练数据,所述第二训练数据标识第二训练文本中的关键短语;以及模型训练模块,被配置为基于所述第一训练数据和所述第二训练数据来训练关键短语识别模型,以用于识别音频数据中的关键短语。15.根据权利要求14所述的装置,其中所述第一获取模块包括:第一获取单元,被配置为获取所述第一训...

【专利技术属性】
技术研发人员:王志华杨天行伍志鹏彭彬赵程缘
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1