数据扩充处理方法及装置制造方法及图纸

技术编号:37670023 阅读:25 留言:0更新日期:2023-05-26 04:31
本申请提供了一种数据扩充处理方法及装置,通过获取录音文件,以及对录音文件进行语音识别,得到语音识别结果;利用目标词库对语音识别结果进行过滤,得到过滤结果;通过多种表达方式对过滤结果以及语音识别结果分别进行多个维度的特征提取,确定多个特征向量,每个特征向量包含至少一个维度的特征信息;根据多个特征向量、多个权重值以及预设相似阈值从语音识别结果和/或过滤结果对应的语句中确定扩增数据集,以及将扩增数据集添加到扩充数据库,权重值与特征向量相对应,扩充数据库用于对语音业务数据进行质检处理。实现了自动扩充词库中的标注数据。词库中的标注数据。词库中的标注数据。

【技术实现步骤摘要】
数据扩充处理方法及装置


[0001]本申请涉及自然语言处理领域,尤其涉及一种数据扩充处理方法及装置。

技术介绍

[0002]随着互联网信息技术在金融领域的应用程度越来越深,各企业在创新力度上的不断加强,市场竞争也在变得越来越激烈,各企业对客服体系服务质量的管理和控制已经变成了企业经营管理者日常的重要工作,而智能语音质检就是其中的主要组成部分。
[0003]目前,基于模型的智能语音质检方法由于准确率高、能充分理解语义等优点逐渐流行起来。但是该方法主要是利用有监督学习的方式,构建模型来对目标词汇进行检测,需要依赖数据库中的大量的已标注的数据。然而,现有技术中这些标注数据都需要人工进行标注,标注成本高效率低。
[0004]这就使得如何自动扩充词库中的标注数据成为了亟待解决的技术问题。

技术实现思路

[0005]本申请提供一种数据扩充处理方法及装置,以解决如何自动扩充词库中的标注数据的技术问题。
[0006]第一个方面,本申请提供一种数据扩充处理方法,包括:
[0007]获取录音文件,以及对录音文件进行语本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种数据扩充处理方法,其特征在于,包括:获取录音文件,以及对所述录音文件进行语音识别,得到语音识别结果;利用目标词库对所述语音识别结果进行过滤,得到过滤结果;通过多种表达方式对所述过滤结果以及所述语音识别结果分别进行多个维度的特征提取,确定多个特征向量,每个所述特征向量包含至少一个维度的特征信息;根据所述多个特征向量、多个权重值以及预设相似阈值从所述语音识别结果和/或所述过滤结果对应的语句中确定扩增数据集,以及将所述扩增数据集添加到扩充数据库,所述权重值与所述特征向量相对应,所述扩充数据库用于对语音业务数据进行质检处理。2.根据权利要求1所述的数据扩充处理方法,其特征在于,所述过滤结果包括至少一个词汇或语句,所述过滤结果中包括的所述词汇或所述语句与所述目标词库中包括的目标词相匹配。3.根据权利要求2所述的数据扩充处理方法,其特征在于,所述过滤结果中包括的所述词汇或所述语句与所述目标词库中包括的目标词的情感极性相同。4.根据权利要求1所述的数据扩充处理方法,其特征在于,所述多种表达方式包括第一表达方式,所述第一表达方式用于表达与所述目标词库中的目标词相同或相似的语境语义;通过第一表达方式对所述过滤结果以及所述语音识别结果分别进行第一维度的特征提取的具体实现方式包括:利用所述第一表达方式,为所述过滤结果以及所述语音识别结果中的每个语句添加句首标识,得到至少一个第一语句;对至少一个所述第一语句进行多层特征提取,在提取结果中确定每个所述第一语句的所述句首标识对应的第一隐向量;将每个所述第一语句中的所述目标词进行遮盖处理或去除处理,确定至少一个所述第二语句;对每个所述第二语句进行多层特征提取,在提取结果中确定每个所述第二语句的所述句首标识对应的第二隐向量;根据所述第一隐向量以及所述第二隐向量确定第一特征向量,所述特征向量包括所述第一特征向量。5.根据权利要求1所述的数据扩充处理方法,其特征在于,所述多种表达方式包括:第二表达方式,所述第二表达方式用于表达所述目标词库中的目标词对应的上位化语境;通过第二表达方式对所述过滤结果以及所述语音识别结果分别进行第二维度的特征提取的具体实现方式包括:利用所述第二表达方式,对所述过滤结果以及所述语音识别结果分别进行多层特征提取,确定所述过滤结果以及所述语音识别结果中包括的所述目标词对应的每个标记的第三隐向量...

【专利技术属性】
技术研发人员:曹磊蒋宁肖冰李长林
申请(专利权)人:马上消费金融股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1