【技术实现步骤摘要】
文本分类模型的训练方法、文本分类处理方法及装置
[0001]本申请涉及自然语言处理
,尤其涉及一种文本分类模型的训练方法、文本分类处理方法及装置。
技术介绍
[0002]自动语音识别技术(Automatic Speech Recognition,ASR)是一种将人的语音转换为文本的技术,语音识别是一个多学科交叉的领域,其与声学、语音学、语言学和数字信号处理理论紧密相连。
[0003]在进行语音质检时,当坐席机器人和客户通话时,经常会有噪声混合到通话的通话数据中,在使用ASR对录音数据进行文本转换时,噪音数据也会被转译出来,因此就会对通话文本的转译结果造成干扰,导致语义不通顺的问题。
技术实现思路
[0004]本申请提供一种文本分类模型的训练方法、文本分类处理方法及装置,以解决语义不通顺的问题。
[0005]第一方面,本申请提供一种文本分类模型的训练方法,包括:将N通语音样本转换为N个文本样本,每个所述文本样本包括至少M个句子,所述M和N均为大于1的整数;从每个所述文本样本中各选取至少一个 ...
【技术保护点】
【技术特征摘要】
1.一种文本分类模型的训练方法,其特征在于,所述训练方法包括:将N通语音样本转换为N个文本样本,每个所述文本样本包括至少M个句子,M和N均为大于1的整数;从每个所述文本样本中各选取至少一个句子作为噪音样本,形成噪音样本集;利用所述噪音样本集中的至少一个噪音样本和至少一个文本样本中的连续多个句子,构造正样本数据集,以及利用所述至少一个文本样本中的连续多个句子构造负样本数据集;利用所述正样本数据集和所述负样本数据集对待训练的文本分类模型进行迭代训练。2.根据权利要求1所述的文本分类模型的训练方法,其特征在于,所述利用所述噪音样本集中的至少一个噪音样本和所述至少一个文本样本中的连续多个句子,构造正样本数据集,包括:构造n1个正样本,对n1个所述正样本分别进行第一标注,得到n1个有第一标注的正样本,n1个所述有第一标注的正样本构成所述正样本数据集;构造每个所述正样本的具体实现方式有:从至少一个所述文本样本中的任意一个文本样本中的至少M个句子中随机选取连续的m个句子,和从所述噪音样本集中随机选取至少一个噪音样本,将所述连续的m个句子首尾拼接后再与所述至少一个噪音样本进行首尾拼接,得到所述正样本,其中,所述连续的m个句子靠前,所述至少一个噪音样本靠后,所述m小于所述M。3.根据权利要求1所述的文本分类模型的训练方法,其特征在于,所述利用所述至少一个文本样本中的连续多个句子构造负样本数据集,包括:构造n2个负样本,对n2个所述负样本分别进行第二标注,得到n2个有第二标注的负样本,所述n2个有第二标注的负样本构造成所述负样本数据集;构造每个所述负样本的具体实现方式有:从至少一个所述文本样本中的任意一个文本样本中的至少M个句子中随机选取连续的m+1个句子,将所述连续的m+1个句子首尾拼接,得到所述负样本数据集,所述m+1小于所述M。4.根据权利要求1所述的文本分类模型的训练方法,其特征在于,所述利用所述噪音样本集中的至少一个噪音样本和所述至少一个文本样本中的多个句子,构造正样本数据集,和利用所述至少一个文本样本中的多个句子构造负样本数据集包括:从所述至少一个文本样本中的至少M个句子中选取连续的多个句子,利用所述噪音样本集中的至少一个噪音样本和所述至少一个文本样本中的至少M个句子中的连续多个句子构造正样本数据集;从所述至少一个文本样本中的至少M个句子中选取连续的多个句子,从所述至少一个文本样本中的至少M个句子中选取连续的多个句子构造负样本数据集;其中,从每个所述文本样本中的至少M个句子中选取连续的多个句子的选取次数是基于每个所述文本样本中的句子的个数确定的;在所述文本样本的句子个数大于N个所述文本样本的句子个数的平均值的情况下,所述选取次数取第一数值;在所述文本样本的句子个数不大于N个所述文本样本的句子个数...
【专利技术属性】
技术研发人员:李长林,肖冰,曹磊,罗奇帅,
申请(专利权)人:马上消费金融股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。