文本语句分类方法和分类装置、电子设备及存储介质制造方法及图纸

技术编号:36085009 阅读:23 留言:0更新日期:2022-12-24 11:00
本申请实施例提供了一种文本语句分类方法和分类装置、电子设备及存储介质,属于人工智能技术领域。该方法包括:将训练样本集的每个样本对数据输入至初始文本语句分类模型,分别对样本语句进行特征提取,得到第一文本特征和第二文本特征;对第一文本特征进行特征约束以更新第一文本特征;对第一文本特征进行文本分类处理以得到多个样本预测概率值;对多个样本预测概率值进行数值比较以确定目标样本标签;根据正样本标签和目标样本标签对初始文本语句分类模型的模型参数进行调整,以得到目标文本语句分类模型;通过目标文本语句分类模型对获取的初始文本语句进行分类以得到目标类别。本申请实施例能够提高对文本语句分类的准确性。确性。确性。

【技术实现步骤摘要】
文本语句分类方法和分类装置、电子设备及存储介质


[0001]本申请涉及人工智能
,尤其涉及一种文本语句分类方法和分类装置、电子设备及存储介质。

技术介绍

[0002]目前,文本分类任务是自然语言处理中的一项基础且重要的任务。这项任务在工业场景下有着极多的应用,比如负面情绪识别、意图识别等。但是实际的工业场景下,标注的样本量较少、样本分布不均衡且文本的内容与标签的关联性不明显等问题,使得现有的文本分类模型的分类效果不佳。因此,如何在少样本场景下提高对文本语句分类的准确性,成为了亟待解决的技术问题。

技术实现思路

[0003]本申请实施例的主要目的在于提出一种文本语句分类方法和分类装置、电子设备及存储介质,旨在提高模型对文本语句分类的准确性。
[0004]为实现上述目的,本申请实施例的第一方面提出了一种文本语句分类方法,所述方法包括:
[0005]获取训练样本集,所述训练样本集包括多个样本对数据,每个所述样本对数据包括正样本语句、所述正样本语句对应的正样本标签、负样本语句和所述负样本语句对应的负样本标签;...

【技术保护点】

【技术特征摘要】
1.一种文本语句分类方法,其特征在于,所述方法包括:获取训练样本集,所述训练样本集包括多个样本对数据,每个所述样本对数据包括正样本语句、所述正样本语句对应的正样本标签、负样本语句和所述负样本语句对应的负样本标签;获取初始文本语句分类模型,所述初始文本语句分类模型包括预训练子模型、特征约束子模型和文本分类子模型;将每个所述样本对数据的所述正样本语句和所述负样本语句输入至所述初始文本语句分类模型,通过所述预训练子模型分别对所述正样本语句和所述负样本语句进行特征提取,得到所述正样本语句的第一文本特征和所述负样本语句的第二文本特征;通过所述特征约束子模型和所述第二文本特征对所述第一文本特征进行特征约束,以更新所述第一文本特征;通过所述文本分类子模型对所述第一文本特征进行文本分类处理,得到所述正样本语句属于每个类别标签的样本预测概率值;对所述正样本语句的多个所述样本预测概率值进行数值比较,确定所述正样本语句的目标样本标签;根据所述正样本语句的所述正样本标签和所述目标样本标签对所述初始文本语句分类模型的模型参数进行调整,并基于所述训练样本集继续训练调整后的所述初始文本语句分类模型,直至所述初始文本语句分类模型的模型损失值满足预设训练结束条件,以得到目标文本语句分类模型;获取待分类的初始文本语句,通过所述目标文本语句分类模型对所述初始文本语句进行分类,得到目标类别。2.根据权利要求1所述的方法,其特征在于,在所述通过所述文本分类子模型对所述第一文本特征进行文本分类处理,得到所述正样本语句属于每个类别标签的样本预测概率值之后,所述方法还包括:通过所述特征约束子模型对所述第一文本特征、所述第二文本特征、所述正样本标签和所述负样本标签进行特征约束计算,得到对比损失值;根据所述正样本标签和所述样本预测概率值得到交叉熵损失值;根据所述对比损失值和所述交叉熵损失值得到模型损失值。3.根据权利要求2所述的方法,其特征在于,所述预训练子模型包括特征编码处理和自注意力处理,所述将每个所述样本对数据的所述正样本语句和所述负样本语句输入至所述初始文本语句分类模型,通过所述预训练子模型分别对所述正样本语句和所述负样本语句进行特征提取,得到所述正样本语句的第一文本特征和所述负样本语句的第二文本特征,包括:将每个所述样本对数据的所述正样本语句和所述负样本语句输入至所述初始文本语句分类模型;分别对所述正样本语句中的每个文本字和所述负样本语句中的每个文本字进行所述特征编码处理,得到所述正样本语句对应的正样本字特征和所述负样本语句对应的负样本字特征;分别对全部所述正样本字特征和全部所述负样本字特征进行所述自注意力处理,得到
所述正样本语句的第一文本特征和所述负样本语句的第二文本特征。4.根据权利要求3所述的方法,其特征在于,在所述将每个所述样本对数据的所述正样本语句和所述负样本语句输入至所述初始文本语句分类模型之前,所述方法还包括:根据预设的文本长度阈值分别对所述正样本语句和所述负样本语句进行长度比较,当所述正样本语句的文本长度小于所述文本长度阈值,根据所述文本长度阈值对所述正样本语句进行补零操作,并更新所述正样本语句,直至所述正样本语句的文本长度等于所述文本长度阈值;当所述负样本语句的文本长度小于所述文本长度阈值,根据所述文本长度阈值对所述负样本语句进行补零操作,并更新所述负样本语句,直至所述负样本语句的文本长度等于...

【专利技术属性】
技术研发人员:欧阳升王健宗
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1