基于预训练模型的面试场景下ASR文本的数据增强方法技术

技术编号:35908146 阅读:23 留言:0更新日期:2022-12-10 10:47
本申请提出一种基于预训练模型的面试场景下ASR文本的数据增强方法,该方法包括:对预先获取的面试场景下的ASR文本进行预处理,并获取每条ASR文本的句向量;基于机器学习库将面试涉及的每个岗位下的ASR文本进行多级聚类,并通过预设的第一预训练模型归纳每个聚类对应的聚类文本;根据全部的聚类文本选取预设数量的初始数据,获取每条初始数据对应的正规化文本,并基于正规化文本生成每个聚类类别对应的一条标准化问题;获取每个岗位下的多个目标关键词,通过判断每条标准化问题中是否存在任一目标关键词对每条标准化问题进行分类。该方法可以从口语化文本中提取出多个高质量的问题文本,提高对面试ASR文本进行数据增强生成的数据的质量。成的数据的质量。成的数据的质量。

【技术实现步骤摘要】
基于预训练模型的面试场景下ASR文本的数据增强方法


[0001]本申请涉及自然语言处理
,尤其涉及一种基于预训练模型的面试场景下ASR文本的数据增强方法。

技术介绍

[0002]随着大规模预训练语言模型技术逐渐成熟,基于预训练语言模型的文本处理的普及率也逐渐提高。对于一个预训练好的模型,在不同的任务文本数据上进行微调,从而在不同的下游任务上进行应用,这一处理流程已经在各个领域内得到广泛应用。然而,这些模型的质量会在很大程度上受到文本数据质量的影响。因此,对文本数据进行数据增强,获取高质量的训练文本数据变得尤为重要。
[0003]其中,自动语音识别技术ASR文本数据是文本数据中的一个大类别,这类数据由于其来源特殊,因此通常文本质量相对较低,并且存在着包括断句不正确、字词识别不正确等问题。
[0004]相关技术中,在进行数据增强时通常是采用通过网络模型进行文本纠错后,通过同义改写的方式扩展数据数量,来实现文本增强。然而,对于面试这一特殊场景而言,由于其特殊性,从面试中获取的ASR文本数据还存在着无意义文本较多、口语词和连续重复词较多等情况。上述相关技术中的方式,在文本纠错时只能处理错别字和语法错误等表述上的错误,无法将ASR文本转换问更标准的书面文本,并且,在文本增强时对面试ASR文本进行同义改写会导致生成的文本质量过低,,不能从语句质量的层面对文本进行增强。
[0005]因此,对于面试场景下的ASR文本,如何从语句质量上进行数据增强,提高生成的文本质量成为目前亟需解决的问题。
专利
技术实现思路

[0006]本申请旨在至少在一定程度上解决相关技术中的技术问题之一。
[0007]为此,本申请的第一个目的在于提出一种基于预训练模型的面试场景下ASR文本的数据增强方法,该方法针对面试场景下的多个类别的海量ASR文本数据,通过纠错、聚类和增强的流程进行数据增强,可以从口语化文本中提取出多个高质量的问题文本,提高对面试ASR文本进行数据增强生成的数据的质量。
[0008]本申请的第二个目的在于提出一种基于预训练模型的面试场景下ASR文本的数据增强系统。
[0009]本申请的第三个目的在于提出一种非临时性计算机可读存储介质。
[0010]为达上述目的,本申请的第一方面实施例提出了一种基于预训练模型的面试场景下ASR文本的数据增强方法,包括以下步骤:
[0011]对预先获取的面试场景下的自动语音识别技术ASR文本进行预处理,并获取每条所述ASR文本的句向量;
[0012]基于机器学习库将面试涉及的每个岗位下的全部ASR文本进行多级聚类,并通过
预设的第一预训练模型归纳每个聚类类别对应的聚类文本;
[0013]根据全部的所述聚类文本选取预设数量的初始数据,获取每条所述初始数据对应的正规化文本,并基于所述正规化文本生成每个所述聚类类别对应的一条标准化问题;
[0014]获取每个岗位下的多个目标关键词,通过判断每条所述标准化问题中是否存在任一目标关键词对每条所述标准化问题进行分类。
[0015]可选地,在本申请的一个实施例中,对预先获取的大量面试场景下的自动语音识别技术ASR文本进行预处理,包括:剔除每条所述ASR文本中的停用词和语气词;合并发言人对应的内容相同的ASR文本;所述获取每条所述ASR文本的句向量,包括:将所述第一预训练模型在中文数据集上进行微调,通过微调后的第一预训练模型生成每条所述ASR文本的句向量。
[0016]可选地,在本申请的一个实施例中,机器学习库包括:Scikit

Learn库,所述基于机器学习库将面试涉及的每个岗位下的全部ASR文本进行多级聚类,包括:通过所述Scikit

Learn库中的Mini Batch K

means算法对每个岗位下的全部ASR文本的句向量进行行粗聚类,获得每个岗位对应的多个子类;通过所述Scikit

Learn库中的OPTICS库对每个所述子类进行基于密度的聚类,确定所述聚类类别,并获得每个所述聚类类别对应的所述聚类文本和噪音文本。
[0017]可选地,在本申请的一个实施例中,通过预设的第一预训练模型归纳每个聚类类别对应的聚类文本,包括:针对每个岗位,通过所述第一预训练模型生成当前岗位下全部的所述聚类文本和所述噪音文本的句向量;基于句向量,通过相似向量检索库判断每条所述噪音文本是否存在一条相似度超过相似度阈值目标聚类文本,若是,则将噪音文本归类至所述目标聚类文本对应的聚类类别中。
[0018]可选地,在本申请的一个实施例中,初始数据包括一组相似的聚类文本,所述获取每条所述初始数据对应的正规化文本,包括:通过人工标注确定每组相似的聚类文本的一条正规化文本;所述基于所述正规化文本生成每个所述聚类类别对应的一条标准化问题,包括:通过每个所述正规化文本微调预设的第二预训练模型,通过微调后的第二预训练模型输出每个所述聚类类别对应的一条标准化问题。
[0019]可选地,在本申请的一个实施例中,获取每个岗位下的多个目标关键词,包括:在预处理后的ASR文本库中,基于TF

IDF算法计算每个岗位在数量上限内的多个初始关键词;通过人工标注对每个岗位的所述初始关键词进行优化,获得每个岗位下的多个目标关键词。
[0020]为达上述目的,本申请的第二方面实施例提出了一种基于预训练模型的面试场景下ASR文本的数据增强系统,包括以下模块:
[0021]获取模块,用于对预先获取的面试场景下的自动语音识别技术ASR文本进行预处理,并获取每条所述ASR文本的句向量;
[0022]聚类模块,用于基于机器学习库将面试涉及的每个岗位下的全部ASR文本进行多级聚类,并通过预设的第一预训练模型归纳每个聚类类别对应的聚类文本;
[0023]生成模块,用于根据全部的所述聚类文本选取预设数量的初始数据,获取每条所述初始数据对应的正规化文本,并基于所述正规化文本生成每个所述聚类类别对应的一条标准化问题;
[0024]分类模块,用于获取每个岗位下的多个目标关键词,通过判断每条所述标准化问题中是否存在任一目标关键词对每条所述标准化问题进行分类。
[0025]可选地,在本申请的一个实施例中,获取模块,具体用于:剔除每条所述ASR文本中的停用词和语气词;合并发言人对应的内容相同的ASR文本;将所述第一预训练模型在中文数据集上进行微调,通过微调后的第一预训练模型生成每条所述ASR文本的句向量。
[0026]可选地,在本申请的一个实施例中,机器学习库包括:Scikit

Learn库,所述聚类模块,具体用于:通过所述Scikit

Learn库中的Mini Batch K

means算法对每个岗位下的全部ASR文本的句向量进行行粗聚类,获得每个岗位对应的多个子类;通过所述Scikit

Learn库中的OP本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于预训练模型的面试场景下ASR文本的数据增强方法,其特征在于,包括以下步骤:对预先获取的面试场景下的自动语音识别技术ASR文本进行预处理,并获取每条所述ASR文本的句向量;基于机器学习库将面试涉及的每个岗位下的全部ASR文本进行多级聚类,并通过预设的第一预训练模型归纳每个聚类类别对应的聚类文本;根据全部的所述聚类文本选取预设数量的初始数据,获取每条所述初始数据对应的正规化文本,并基于所述正规化文本生成每个所述聚类类别对应的一条标准化问题;获取每个岗位下的多个目标关键词,通过判断每条所述标准化问题中是否存在任一目标关键词对每条所述标准化问题进行分类。2.根据权利要求1所述的数据增强方法,其特征在于,所述对预先获取的大量面试场景下的自动语音识别技术ASR文本进行预处理,包括:剔除每条所述ASR文本中的停用词和语气词;合并发言人对应的内容相同的ASR文本;所述获取每条所述ASR文本的句向量,包括:将所述第一预训练模型在中文数据集上进行微调,通过微调后的第一预训练模型生成每条所述ASR文本的句向量。3.根据权利要求1所述的数据增强方法,其特征在于,所述机器学习库包括:Scikit

Learn库,所述基于机器学习库将面试涉及的每个岗位下的全部ASR文本进行多级聚类,包括:通过所述Scikit

Learn库中的Mini Batch K

means算法对每个岗位下的全部ASR文本的句向量进行行粗聚类,获得每个岗位对应的多个子类;通过所述Scikit

Learn库中的OPTICS库对每个所述子类进行基于密度的聚类,确定所述聚类类别,并获得每个所述聚类类别对应的所述聚类文本和噪音文本。4.根据权利要求3所述的数据增强方法,其特征在于,所述通过预设的第一预训练模型归纳每个聚类类别对应的聚类文本,包括:针对每个岗位,通过所述第一预训练模型生成当前岗位下全部的所述聚类文本和所述噪音文本的句向量;基于句向量,通过相似向量检索库判断每条所述噪音文本是否存在一条相似度超过相似度阈值目标聚类文本,若是,则将噪音文本归类至所述目标聚类文本对应的聚类类别中。5.根据权利要求1所述的数据增强方法,其特征在于,所述初始数据包括一组相似的聚类文本,所述获取每条所述初始数据对应的正规化文本,包括:通过人工标注确定每组相似的聚类文本的一条正规化文本;所述基于所述正规化文本生成每个所述...

【专利技术属性】
技术研发人员:陈亦舟
申请(专利权)人:北京智谱华章科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1