音频数据标注方法、装置、电子设备及存储介质制造方法及图纸

技术编号:20871203 阅读:18 留言:0更新日期:2019-04-17 10:19
本发明专利技术涉及语音技术领域,公开了一种音频数据标注方法、装置、电子设备及存储介质,所述方法包括:获取音频数据;提取音频数据的声纹特征;根据声纹特征对音频数据进行聚类,将音频数据划分为至少一个簇;给同一个簇中的音频数据标注上同一用户标识。本发明专利技术实施例提供的技术方案,使得整个标注过程无需人工介入,实现了自动化标注音频数据,避免了人工标注错误率较高的问题,提高了音频数据标注的准确性,无需投入大量的人力,且能够24小时不间断的进行标注,提高了标注效率、降低成本。

【技术实现步骤摘要】
音频数据标注方法、装置、电子设备及存储介质
本专利技术涉及语音
,尤其涉及一种音频数据标注方法、装置、电子设备及存储介质。
技术介绍
声纹深度学习模型的训练需要用到大量标注有用户标识的音频数据。目前,对音频数据进行标注的方法主要有两种,一是通过录音设备录制指定人员的音频数据,二是由人工对采集的音频数据进行标注。第一种方法需要雇用专门的人员录制音频数据,成本高效率低,而且无法获取到足够多不同用户的音频数据,难以满足模型训练的需要。第二种方法同样需要雇用大量人员对音频数据进行标注,成本高效率低,而且由于每个人对声音的分辨能力不同,因此人工标注的方式无法保证标注的准确性。因此,现有的音频数据标注方法准确性低、成本高、效率低。
技术实现思路
本专利技术实施例提供一种音频数据标注方法、装置、电子设备及存储介质,以解决现有技术中音频数据标注方法准确性低、成本高、效率低的问题。第一方面,本专利技术一实施例提供了一种音频数据标注方法,包括:获取音频数据;提取音频数据的声纹特征;根据声纹特征对音频数据进行聚类,将音频数据划分为至少一个簇;给同一个簇中的音频数据标注上同一用户标识。第二方面,本专利技术一实施例提供了一种音频数据标注装置,包括:数据获取模块,用于获取音频数据;声纹特征提供模块,用于提取音频数据的声纹特征;聚类模块,用于根据声纹特征对音频数据进行聚类,将音频数据划分为至少一个簇;标注模块,用于给同一个簇中的音频数据标注上同一用户标识。第三方面,本专利技术一实施例提供了一种电子设备,包括收发机、存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,收发机用于在处理器的控制下接收和发送数据,处理器执行计算机程序时实现上述任一种方法的步骤。第四方面,本专利技术一实施例提供了一种计算机可读存储介质,其上存储有计算机程序指令,该计算机程序指令被处理器执行时实现上述任一种方法的步骤。本专利技术实施例提供的技术方案,使得整个标注过程无需人工介入,实现了自动化标注音频数据,避免了人工标注错误率较高的问题,提高了音频数据标注的准确性,无需投入大量的人力,且能够24小时不间断的进行标注,提高了标注效率、降低成本。此外,音频数据可通过用户使用的音频设备在线采集得到,实现了24小时不间断地采集音频数据,并扩大音频数据的采集范围,因此,可采集到大量不同用户在不同时间段的音频数据,实现训练数据的多样化,使得基于这些音频数据训练得到的声纹深度学习模型的识别度更加准确。附图说明为了更清楚地说明本专利技术实施例的技术方案,下面将对本专利技术实施例中所需要使用的附图作简单地介绍,显而易见地,下面所介绍的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术实施例提供的音频数据标注方法的应用场景示意图;图2为本专利技术一实施例提供的音频数据标注方法的流程示意图;图3为本专利技术一实施例提供的对音频数据进行聚类的流程示意图;图4为本专利技术一实施例提供的音频数据标注装置的结构示意图;图5为本专利技术一实施例提供的电子设备的结构示意图。具体实施方式为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述。附图中的任何元素数量均用于示例而非限制,以及任何命名都仅用于区分,而不具有任何限制含义。在具体实践过程中,现有的对音频数据进行标注的方法主要有两种,一是通过录音设备录制指定人员的音频数据,二是由人工对采集的音频数据进行标注。第一种方法需要雇用专门的人员录制音频数据,成本高效率低,而且无法获取到足够多不同用户的音频数据,难以满足模型训练的需要。第二种方法同样需要雇用大量人员对音频数据进行标注,成本高效率低,而且由于每个人对声音的分辨能力不同,因此人工标注的方式无法保证标注的准确性。因此,现有的音频数据标注方法准确性低、成本高、效率低。为此,本专利技术的专利技术人考虑到,通过用户使用的音频设备采集用户说话时生成的音频数据,提取音频数据的声纹特征,然后基于声纹特征对音频数据进行聚类,将具有相同或相似声纹特征的音频数据聚到一个簇中,能够聚为一簇的音频数据即认为是同一用户生成的音频数据,给同一簇中的所有音频数据标注上同一用户标识,这样就完成了对音频数据的标注。整个标注过程无需人工介入,实现了自动化标注音频数据,且具有标注准确性高、效率高、成本低廉的优势。此外,为了降低参与聚类的数据规模,可以根据音频设备的设备标识对音频数据进行划分,将同一音频设备采集的音频数据划分到同一集合内,分别对各个集合内的音频数据进行聚类,由于单个音频设备采集到的用户数量有限,因此,在各个集合内分别进行聚类可大大降低聚类规模,提高处理效率和聚类的准确性。进一步地,还可以根据音频数据的一些特征信息,对同一音频设备采集的音频数据进行初筛,将明显不属于同一用户的音频数据划分到不同的集合中,进一步降低参与聚类的数据规模。在介绍了本专利技术的基本原理之后,下面具体介绍本专利技术的各种非限制性实施方式。首先参考图1,其为本专利技术实施例提供的音频数据标注方法的一种应用场景示意图。在用户10使用音频设备11的过程中,音频设备11采集用户的音频数据,并将音频数据发送给服务器12,服务器12提取音频数据的声纹特征,根据声纹特征对音频数据进行聚类,将具有相同或相似声纹特征的音频数据聚为一簇,给同一个簇中的音频数据标注上同一用户标识,利用标注有用户标识的音频数据对声纹深度学习模型进行训练。这种应用场景下,音频设备11和服务器12之间通过网络进行通信连接,该网络可以为局域网、广域网等。音频设备11可以是独立的语音采集设备,音频设备11也可以是便携设备(例如:手机、平板、笔记本电脑等)或者具有语音交互功能的设备(如智能机器人、智能音箱)中内置的语音采集设备(如麦克风)。服务器12可以为任何能够提供数据处理、存储功能的服务器设备。下面结合图1所示的应用场景,对本专利技术实施例提供的技术方案进行说明。参考图2,本专利技术实施例提供一种音频数据标注方法,包括以下步骤:S201、获取音频数据。具体实施时,可通过用户使用的音频设备在线采集用户说话时产生的音频数据,这样可扩大音频数据的采集范围,可采集到大量不同用户在不同时间段的音频数据,实现训练数据的多样化,使得基于这些音频数据训练得到的声纹深度学习模型的识别度更加准确。S202、提取音频数据的声纹特征。本实施例中,可通过多种现有技术手段提取音频数据的声纹特征,例如,可通过GMM(混合高斯模型,GaussianMixtureModel)/I-vector提取音频数据的声纹特征,具体提取方法为现有技术,不再赘述。S203、根据声纹特征对音频数据进行聚类,将音频数据划分为至少一个簇。具体实施时,聚类的方法可以是:K-MEANS算法、层次聚类算法、基于密度的聚类算法或基于网格的聚类算法等。根据声纹特征对音频数据进行聚类,即是将具有相同或相似声纹特征的音频数据聚到一个簇中,能够聚为一簇的音频数据即认为是同一用户生成的音频数据。S204、给同一个簇中的音频数据标注上同一用户标识。本实施例中,用户标识可以是一个编号,即为聚类得到的每一簇分配一个唯一的编号。在使用音频数据对声纹深度学习模型进本文档来自技高网...

【技术保护点】
1.一种音频数据标注方法,其特征在于,包括:获取音频数据;提取所述音频数据的声纹特征;根据所述声纹特征对所述音频数据进行聚类,将所述音频数据划分为至少一个簇;给同一个簇中的音频数据标注上同一用户标识。

【技术特征摘要】
1.一种音频数据标注方法,其特征在于,包括:获取音频数据;提取所述音频数据的声纹特征;根据所述声纹特征对所述音频数据进行聚类,将所述音频数据划分为至少一个簇;给同一个簇中的音频数据标注上同一用户标识。2.根据权利要求1所述的方法,其特征在于,在对所述音频数据进行聚类之前,还包括:将同一音频设备采集的音频数据划分到同一集合中;所述根据所述声纹特征对所述音频数据进行聚类,将所述音频数据划分为至少一个簇,包括:针对同一集合中的音频数据,根据所述声纹特征对所述同一集合中的音频数据进行聚类,将所述同一集合中的音频数据划分为至少一个簇。3.根据权利要求2所述的方法,其特征在于,在根据所述声纹特征对所述音频数据进行聚类之前,还包括:通过预先训练好的性别分类模型确定所述音频数据对应的性别信息;所述将同一音频设备采集的音频数据划分到同一集合中,包括:将同一音频设备采集的性别信息相同的音频数据划分到同一集合中。4.根据权利要求1所述的方法,其特征在于,在提取所述音频数据的声纹特征之前,还包括:通过预先训练好的性别分类模型确定所述音频数据对应的性别信息;所述提取所述音频数据的声纹特征,包括:根据所述音频数据对应的性别信息,选择与所述性别信息对应的声纹特征提取模型提取所述音频数据的声纹特征。5.根据权利要求1至4中任一所述的方法,其特征在于,所述根据所述声纹特征对所述音频数据进行聚类,包括:将每个音频数据作为一个聚类节点,将所述音频数据的声纹特征作为所述聚类节点的声纹特征;根据所述声纹特征对所述聚类节点进行预设次数次第一聚类操作;所述第一聚类操作包括:计算任意两个聚类节点的声纹特征的相似度,针对任一聚类节点,根据所述相似度找到与所述任一聚类节点最相似的聚类节点,若所述任一聚类节点与所述最相似的聚类节点的相似度高于第一聚类阈值,则将所述任一聚类节点与所述最相似的聚类节点合并为一个新的聚类节点,并删除所述任一聚类节点...

【专利技术属性】
技术研发人员:乔登科
申请(专利权)人:北京猎户星空科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1