一种文本分析模型的训练方法、文本分析方法及装置制造方法及图纸

技术编号:39289213 阅读:22 留言:0更新日期:2023-11-07 10:58
本申请涉及数据处理技术和车联网技术领域,尤其涉及一种文本分析模型的训练方法、文本分析方法及装置,该方法为:基于预设的训练样本集合,对待训练的文本分析模型进行多轮迭代训练,获得目标文本分析模型;训练样本集合中的部分训练样本中包括:携带干扰内容的样本文本及其对应的各真实标签;在每轮迭代中,执行以下操作:对选取的样本文本进行编码处理,获得相应的文本编码特征;基于所述文本编码特征,获得表征所述样本文本的需求类型的意图预测结果、槽位值预测结果,以及干扰内容预测结果;再进行调参,这样,能够实现对携带有干扰内容的文本内容的有效处理,提高了文本分析模型的数据处理能力,对存在干扰内容的文本进行有效分析。效分析。效分析。

【技术实现步骤摘要】
一种文本分析模型的训练方法、文本分析方法及装置


[0001]本申请涉及数据处理
,尤其涉及一种文本分析模型的训练方法、文本分析方法及装置。

技术介绍

[0002]相关技术下,在进行文本分析时,通常采用构建的文本分析模型,实现包括意图识别和槽位识别的自然语言理解任务,分析确定文本中表达的意图,以及文本中参与表达意图的关键信息所对应的槽位值。
[0003]然而,现有的文本分析模型仅能对正常文本进行分析,而对于诸如由音频数据转换得到的语音文本而言,由于语音文本中无法避免的会存在诸如语气词、重复词等干扰内容,这为文本模型的分析带来了极大的难度;基于已有的文本分析模型无法实现对存在干扰内容的语音文本进行准确分析,难以有效识别出语音文本中表达的意图,故无法保障对于语音文本的分析效果,这极大地降低了得到的语音文本分析结果的可靠性。

技术实现思路

[0004]本申请实施例提供一种文本分析模型的训练方法、文本分析方法及装置,以解决现有技术下无法对包括干扰内容的语音文本进行有效分析,难以基于语音文本得到可靠的分析结果的问题。
本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本分析模型的训练方法,其特征在于,包括:基于预设的训练样本集合,对待训练的文本分析模型进行多轮迭代训练,获得训练后的目标文本分析模型;其中,所述训练样本集合中的部分训练样本中包括:携带干扰内容的样本文本及其对应的各真实标签;以及,在每轮迭代中,执行以下操作:对选取的样本文本进行编码处理,获得相应的文本编码特征;基于所述文本编码特征,对所述样本文本进行意图分类,获得表征所述样本文本的需求类型的意图预测结果;基于所述文本编码特征,对所述样本文本进行槽位值分类,获得用于表征所述样本文本中各个元素各自对应的槽位值的槽位值预测结果;基于所述文本编码特征,对所述文本编码特征进行干扰内容分类,获得用于从所述样本文本中标识出所述干扰内容的干扰内容预测结果;基于所述意图预测结果、所述槽位值预测结果和所述干扰内容预测结果,及其各自与相应的真实标签之间的分类差异,对所述文本分析模型进行调参。2.如权利要求1所述的方法,其特征在于,所述基于所述文本编码特征,对所述文本编码特征进行干扰内容分类,获得用于标识所述干扰内容的干扰内容预测结果,包括:采用所述文本分析模型中的干扰内容分类子网络,基于所述文本编码特征中与所述样本文本中各个元素的元素特征,分别分类确定所述各个元素各自对应的子预测结果;基于所述各个元素各自对应的子预测结果,获得用于标识出所述样本文本中干扰内容的干扰内容预测结果。3.如权利要求1所述的方法,其特征在于,所述对选取的样本文本进行编码处理,获得相应的文本编码特征,包括:采用所述文本分析模型中预训练后的文本编码子网络,对所述样本文本中包括的各个元素进行编码处理,得到由各个元素特征构成的文本编码特征,其中,所述文本编码子网络是采用各类文本数据进行多轮预训练后得到的。4.如权利要求1所述的方法,其特征在于,所述样本文本对应的各真实标签包括:意图分类标签、槽位值分类标签,以及干扰内容分类标签;所述基于所述意图预测结果、所述槽位值预测结果和所述干扰分类预测结果,及其各自与相应的真实标签之间的分类差异,对所述文本分析模型进行调参,包括:基于所述意图预测结果与对应的意图分类标签之间的分类差异,计算意图分类损失;基于所述槽位值预测结果与对应的槽位值分类标签之间的分类差异,计算槽位值分类损失;基于所述干扰内容预测结果与对应的干扰定位标签之间的分类差异,计算干扰内容分类损失;基于所述意图分类损失、所述槽位值分类损失,以及所述干扰内容分类损失,对所述文本分类模型进行调参。5.如权利要求1

4任一项所述的方法,其特征在于,所述训练样本集合是采用如下方式构建的:获取原始文本集合,并按照预设的数量比例,从所述原始文本集合中获取需要添加干扰内容的各原始文本,其中,原始文本中不携带有干扰内容,且每个原始文本关联有对应的
原始意图分类标签和原始槽位值标签;按照预设的干扰内容添加方式,在获取的每个原始文本中添加干扰内容,得到样本文本,并分别标注每个样本文本对应的意图分类标签、槽位值分类标签,以及干扰内容分类标签。6.如权利要求5所述的方法,其特征在于,标注每个样本文本对应的槽位值分类标签,包括:针对每个样本文本,执行以下操作:基于所述样本文本对应的原始槽位值标签,确定所述样本文本中、在添加的干扰内容左右两侧的邻近元素各自对应的槽位值;根据各邻近元素各自对应的槽位值,配置所述干扰内容对应的槽位值分类结果,以及基于所述样本文本中各个元素各自对应的槽位值分类结果,得到对应的槽位值分类标签。7.如权利要求6所述的方法,其特征在于,所述原始槽位值标签中指示有至少一个槽位区域,槽位区域用于标识原始文本中参与描述需求类型的一种类型的文件内容;所述根据各邻近元素各自对应的槽位值,配置所述干扰内容对应的槽位值分类结果,包括:当确定各邻近元素的槽位值归属于相同的...

【专利技术属性】
技术研发人员:林炳怀王丽园
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1