文本分类模型的训练方法、文本分类方法及装置制造方法及图纸

技术编号:37706881 阅读:13 留言:0更新日期:2023-06-01 23:56
本发明专利技术提供了一种文本分类模型的训练方法、文本分类方法及装置。其中,文本分类模型的训练方法包括:获取预训练样本,其中,预训练样本包括标注不同对话角色的k轮对话文本内容,k为大于1的整数;对预训练样本进行特征提取,获得特征向量,其中,特征提取包括角色特征提取;根据特征向量获得损失值,并根据损失值对初始模型进行预训练,获得预训练模型;对预训练模型的参数进行微调,获得文本分类模型。本发明专利技术提供的技术方案能够提高文本分类模型的分类效果。效果。效果。

【技术实现步骤摘要】
文本分类模型的训练方法、文本分类方法及装置


[0001]本专利技术涉及神经网络
,具体涉及一种文本分类模型的训练方法及装置、文本分类方法及装置。

技术介绍

[0002]近年来,预训练模型在自然语言处理领域应用非常广泛。该类模型首先在大量无标签样本上通过自监督方式预先训练一个初始模型,学习到通用的文本表示,然后在应用时只需在特定任务(例如文本分类任务)上,对该模型进行微调。相比于从头开始训练,在预训练模型基础上进行微调所需训练样本更少,并且模型有更强的泛化能力。
[0003]然而,当前的预训练模型如BERT(Bidirectional Encoder Representation from Transformers,基于变换器的双向编码表征)模型等,训练语料通常是将对话文本内容直接拼接在一起,没有针对专门的对话场景,因此训练语料和应用时的对话场景语料差异比较大,影响了文本分类模型的分类准确度。

技术实现思路

[0004]有鉴于此,本专利技术实施例提供了一种文本分类模型的训练方法及装置、文本分类方法及装置,能够提高文本分类模型的分类效果。
[0005]根据本专利技术实施例的第一方面,提供一种文本分类模型的训练方法,包括:获取预训练样本,其中,预训练样本包括标注不同对话角色的k轮对话文本内容,k为大于1的整数,不同对话角色之间的一次问答过程为一轮对话;对预训练样本进行特征提取,获得特征向量,其中,特征提取包括角色特征提取;根据特征向量获得损失值,并根据损失值对初始模型进行预训练,获得预训练模型;对预训练模型的参数进行微调,获得文本分类模型。
[0006]在本专利技术的一个实施例中,k轮对话文本内容中的前t轮对话为上下文文本信息,k轮对话文本内容中的后k

t轮对话为答复文本信息,所述答复文本信息为与所述上下文文本信息的上下文关系对应的答复文本;t为小于k的整数,损失值包括第一损失值,其中,上述根据特征向量获得损失值,并根据损失值对初始模型进行预训练,获得预训练模型,包括:根据特征向量获得答复文本信息为上下文文本信息的答复文本的概率,并根据所述概率获得第一损失值;根据第一损失值对初始模型进行预训练,获得预训练模型。
[0007]在本专利技术的一个实施例中,上述根据特征向量获得答复文本信息为上下文文本信息的答复文本的概率,并根据概率获得第一损失值,包括:将特征向量输入到初始模型,利用初始模型对上下文文本信息进行上下文文本特征提取,获得上下文特征矩阵,以及利用初始模型对答复文本信息进行答复文本特征提取,获得答复特征矩阵;根据上下文特征矩阵和答复特征矩阵,获得答复文本信息为与上下文文本信息的上下文关系对应的答复文本的概率;根据概率,利用损失函数获得第一损失值。
[0008]在本专利技术的一个实施例中,损失值包括第二损失值,其中,上述方法还包括:对预训练样本中的部分词进行掩码处理,获得掩码后的文本信息;其中,上述对预训练样本进行
特征提取,获得特征向量,包括:对掩码后的文本信息进行特征提取,获得特征向量;其中,上述根据特征向量获得损失值,并根据损失值对初始模型进行预训练,获得预训练模型,包括:根据特征向量获得掩码位置的预测结果,并获得第二损失值;根据第二损失值对初始模型进行预训练,获得预训练模型。
[0009]在本专利技术的一个实施例中,上述对预训练模型的参数进行微调,获得文本分类模型,包括:获取训练样本,其中,训练样本包括对话文本信息和分类标签,对话文本信息包括标注不同对话角色的至少一轮对话文本内容;利用预训练模型对对话文本信息进行特征提取,获得特征向量,其中,特征提取包括角色特征提取;根据特征向量进行文本分类,获得分类预测结果,并根据分类预测结果和分类标签获得第三损失值;根据第三损失值对预训练模型的参数进行微调,获得文本分类模型。
[0010]在本专利技术的一个实施例中,特征提取还包括对话轮数特征提取,对话轮数特征用于标识k轮对话文本内容中每轮对话内容所处的轮次。
[0011]在本专利技术的一个实施例中,预训练模型包括基于变换器的双向编码表征BERT模型。
[0012]在本专利技术的一个实施例中,文本分类模型包括意图分类模型。
[0013]根据本专利技术实施例的第二方面,提供一种文本分类方法,包括:获取对话文本信息,其中,对话文本信息包括标注不同对话角色的至少一轮对话文本内容;对对话文本信息进行特征提取,获得特征向量,其中,特征提取包括角色特征提取;根据特征向量进行文本分类。
[0014]在本专利技术的一个实施例中,至少一轮对话文本内容包括多轮对话文本内容,其中,特征提取还包括提取对话轮数特征,对话轮数特征用于标识多轮对话文本内容中每轮对话内容所处的轮次。
[0015]在本专利技术的一个实施例中,文本分类包括意图分类。
[0016]根据本专利技术实施例的第三方面,提供一种文本分类模型的训练装置,包括:获取模块,用于获取预训练样本,其中,预训练样本包括标注不同对话角色的k轮对话文本内容,k为大于1的整数,不同对话角色之间的一次问答过程为一轮对话;特征提取模块,用于对预训练样本进行特征提取,获得特征向量,其中,特征提取包括角色特征提取;预训练模块,用于根据特征向量获得损失值,并根据损失值对初始模型进行预训练,获得预训练模型;微调模块,用于对预训练模型的参数进行微调,获得文本分类模型。
[0017]根据本专利技术实施例的第四方面,提供一种文本分类装置,包括:获取模块,用于获取对话文本信息,其中,对话文本信息包括标注不同对话角色的至少一轮对话文本内容;特征提取模块,用于对对话文本信息进行特征提取,获得特征向量,其中,特征提取包括角色特征提取;分类模块,用于根据特征向量进行文本分类。
[0018]根据本专利技术实施例的第五方面,提供一种计算机可读存储介质,其上存储有计算机可执行指令,其特征在于,所述可执行指令被处理器执行时实现如上述任一项所述的方法。
[0019]根据本专利技术实施例的第六方面,提供一种电子设备,其特征在于,所述电子设备包括:处理器;用于存储所述处理器可执行指令的存储器;所述处理器,用于执行上述任一项所述的方法。
[0020]根据本专利技术实施例提供的技术方案,通过在输入的预训练样本中添加了区分对话角色的特殊标记,并提取角色特征(例如Role Embedding),可以使模型学习到不同身份话术对最终文本分类的影响,从而提高文本分类的准确性。
附图说明
[0021]为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0022]图1所示为本专利技术一实施例提供的文本分类模型的训练方法的流程示意图。
[0023]图2所示为本专利技术一实施例提供的预训练模型的结构示意图。
[0024]图3所示为本专利技术一实施例提供的嵌入层的结构示意图。<本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本分类模型的训练方法,其特征在于,包括:获取预训练样本,其中,所述预训练样本包括标注不同对话角色的k轮对话文本内容,k为大于1的整数,不同对话角色之间的一次问答过程为一轮对话;对所述预训练样本进行特征提取,获得特征向量,其中,所述特征提取包括角色特征提取;根据所述特征向量获得损失值,并根据所述损失值对初始模型进行预训练,获得预训练模型;对所述预训练模型的参数进行微调,获得文本分类模型。2.根据权利要求1所述的方法,其特征在于,所述k轮对话文本内容中的前t轮对话为上下文文本信息,所述k轮对话文本内容中的后k

t轮对话为答复文本信息,所述答复文本信息为与所述上下文文本信息的上下文关系对应的答复文本;t为小于k的整数,所述损失值包括第一损失值,其中,所述根据所述特征向量获得损失值,并根据所述损失值对初始模型进行预训练,获得预训练模型,包括:根据所述特征向量获得所述答复文本信息为所述上下文文本信息的答复文本的概率,并根据所述概率获得所述第一损失值;以及根据所述第一损失值对所述初始模型进行预训练,获得所述预训练模型。3.根据权利要求2所述的方法,其特征在于,所述根据所述特征向量获得所述答复文本信息为所述上下文文本信息的答复文本的概率,并根据所述概率获得所述第一损失值,包括:将所述特征向量输入到所述初始模型,利用所述初始模型对所述上下文文本信息进行上下文文本特征提取,获得上下文特征矩阵,以及利用所述初始模型对所述答复文本信息进行答复文本特征提取,获得答复特征矩阵;根据所述上下文特征矩阵和所述答复特征矩阵,获得所述答复文本信息为与所述上下文文本信息的上下文关系对应的答复文本的概率;根据所述概率,利用损失函数获得所述第一损失值。4.根据权利要求1所述的方法,其特征在于,所述损失值包括第二损失值,其中,所述方法还包括:对所述预训练样本中的部分词进行掩码处理,获得掩码后的文本信息;其中,所述对所述预训练样本进行特征提取,获得特征向量,包括:对所述掩码后的文本信息进行特征提取,获得所述特征向量;其中,所述根据所述特征向量获得损失值,并根据所述损失值对初始模型进行预训练,获得预训练...

【专利技术属性】
技术研发人员:杨森蒋宁王洪斌肖冰李宽
申请(专利权)人:马上消费金融股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1