文本分类模型训练方法、装置、计算机设备和存储介质制造方法及图纸

技术编号:39741499 阅读:6 留言:0更新日期:2023-12-17 23:42
本申请涉及一种文本分类模型训练方法、装置、计算机设备、存储介质和计算机程序产品。涉及人工智能的智能语言处理领域,所述方法先通过携带类别标签的第一模型训练文本对初始分类器进行过拟合训练,得到文本基分类器,从而通过分类器收集各分类类别的关键词,再通过文本基分类器以注意力机制识别待标注的第二模型训练文本中的类别关键词来构建关键词典,从而通过文本基分类器的置信度和关键词典结合来进行无标签模型训练文本的类别标注处理,从而构建出大量的带标签模型训练,能有效克服模型训练过程中的稀疏性问题。型训练过程中的稀疏性问题。型训练过程中的稀疏性问题。

【技术实现步骤摘要】
文本分类模型训练方法、装置、计算机设备和存储介质


[0001]本申请涉及计算机
,特别是涉及一种文本分类模型训练方法、装置、计算机设备、存储介质和计算机程序产品。

技术介绍

[0002]随着计算机技术与人工智能技术的发展,出现了自然语言处理(Nature Language processing,NLP)技术。自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。而在这其中,文本分类是一类常见的自然语言处理技术,也是情感分析、主题分类以及意图识别等任务的基础。文本分类是指通过计算机对文本按照一定的分类习题或标准进行自动分类标记。
[0003]而目前文本分类一般通过基于深度学习的文本分类器来实现,然而文本分类器需要大批量的标注数据来进行训练,因此现有的文本分类方法面临着训练数据的稀疏性问题。

技术实现思路

[0004]基于此,有必要针对上述技术问题,提供一种能够有效克服标记数据稀疏性问题的文本分类模型训练方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。
[0005]第一方面,本申请提供了一种文本分类模型训练方法。所述方法包括:
[0006]通过携带类别标签的第一模型训练文本对初始分类器进行过拟合训练,得到文本基分类器,所述初始分类器通过注意力机制收集类别标签表征的分类类别的类别关键词;
[0007]基于所述文本基分类器通过注意力机制提取第二模型训练文本中的每个分类类别各自的类别关键词,构建包含各所述类别关键词的每个分类类别各自的关键词典,并确定每个分类类别各自的置信度,所述第二模型训练文本不携带类别标签;
[0008]基于所述置信度和所述关键词典,确定所述第二模型训练文本的类别标签,得到携带有类别标签的第二模型训练文本;
[0009]通过携带有类别标签的第二模型训练文本,对所述文本基分类器进行训练,得到目标文本分类模型。
[0010]第二方面,本申请还提供了一种文本分类模型训练装置。所述装置包括:
[0011]进行过拟合训练,得到文本基分类器,所述初始分类器通过注意力机制收集类别标签表征的分类类别的类别关键词;
[0012]词典构建模块,用于基于所述文本基分类器通过注意力机制提取第二模型训练文本中的每个分类类别各自的类别关键词,构建包含各所述类别关键词的每个分类类别各自的关键词典,并确定每个分类类别各自的置信度,所述第二模型训练文本不携带类别标签;
[0013]文本标注模块,用于基于所述置信度和所述关键词典,确定所述第二模型训练文本的类别标签,得到携带有类别标签的第二模型训练文本;
[0014]第二模型训练模块,用于通过携带有类别标签的第二模型训练文本,对所述文本基分类器进行训练,得到目标文本分类模型。
[0015]第三方面,本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
[0016]通过携带类别标签的第一模型训练文本对初始分类器进行过拟合训练,得到文本基分类器,所述初始分类器通过注意力机制收集类别标签表征的分类类别的类别关键词;
[0017]基于所述文本基分类器通过注意力机制提取第二模型训练文本中的每个分类类别各自的类别关键词,构建包含各所述类别关键词的每个分类类别各自的关键词典,并确定每个分类类别各自的置信度,所述第二模型训练文本不携带类别标签;
[0018]基于所述置信度和所述关键词典,确定所述第二模型训练文本的类别标签,得到携带有类别标签的第二模型训练文本;
[0019]通过携带有类别标签的第二模型训练文本,对所述文本基分类器进行训练,得到目标文本分类模型。
[0020]第四方面,本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
[0021]通过携带类别标签的第一模型训练文本对初始分类器进行过拟合训练,得到文本基分类器,所述初始分类器通过注意力机制收集类别标签表征的分类类别的类别关键词;
[0022]基于所述文本基分类器通过注意力机制提取第二模型训练文本中的每个分类类别各自的类别关键词,构建包含各所述类别关键词的每个分类类别各自的关键词典,并确定每个分类类别各自的置信度,所述第二模型训练文本不携带类别标签;
[0023]基于所述置信度和所述关键词典,确定所述第二模型训练文本的类别标签,得到携带有类别标签的第二模型训练文本;
[0024]通过携带有类别标签的第二模型训练文本,对所述文本基分类器进行训练,得到目标文本分类模型。
[0025]第五方面,本申请还提供了一种计算机程序产品。所述计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现以下步骤:
[0026]通过携带类别标签的第一模型训练文本对初始分类器进行过拟合训练,得到文本基分类器,所述初始分类器通过注意力机制收集类别标签表征的分类类别的类别关键词;
[0027]基于所述文本基分类器通过注意力机制提取第二模型训练文本中的每个分类类别各自的类别关键词,构建包含各所述类别关键词的每个分类类别各自的关键词典,并确定每个分类类别各自的置信度,所述第二模型训练文本不携带类别标签;
[0028]基于所述置信度和所述关键词典,确定所述第二模型训练文本的类别标签,得到携带有类别标签的第二模型训练文本;
[0029]通过携带有类别标签的第二模型训练文本,对所述文本基分类器进行训练,得到目标文本分类模型。
[0030]上述文本分类模型训练方法、装置、计算机设备、存储介质和计算机程序产品,先通过携带类别标签的第一模型训练文本对初始分类器进行过拟合训练,得到文本基分类
器,并且初始分类器包含注意力机制,因此可以通过对初始分类器的过拟合训练过程来充分收集类别标签表征的分类类别下的类别关键词;而后基于文本基分类器通过注意力机制提取第二模型训练文本中的每个分类类别各自的类别关键词,即通过收集完类别关键词文本基分类器从第二模型训练文本中识别提取出可以代表各个类别标签的关键词,并构建包含各类别关键词的每个分类类别各自的关键词典,同时确定每个分类类别各自的置信度;而后基于置信度和关键词典,通过关键词典来对文本基分类器确定的置信度进行辅助来判断确定第二模型训练文本的类别标签,得到携带有类别标签的第二模型训练文本;最后通过携带有类别标签的第二模型训练文本,对文本基分类器进行训练,得到目标文本分类模型。本申请中通过分类器收集各分类类别的关键词后,再通过文本基分类器以注意力机制识别待标注的第二模型训练文本中本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本分类模型训练方法,其特征在于,所述方法包括:通过携带类别标签的第一模型训练文本对初始分类器进行过拟合训练,得到文本基分类器,所述初始分类器通过注意力机制收集类别标签表征的分类类别的类别关键词;基于所述文本基分类器通过注意力机制提取第二模型训练文本中的每个分类类别各自的类别关键词,构建包含各所述类别关键词的每个分类类别各自的关键词典,并确定每个分类类别各自的置信度,所述第二模型训练文本不携带类别标签;基于所述置信度和所述关键词典,确定所述第二模型训练文本的类别标签,得到携带有类别标签的第二模型训练文本;通过携带有类别标签的第二模型训练文本,对所述文本基分类器进行训练,得到目标文本分类模型。2.根据权利要求1所述的方法,其特征在于,所述基于所述文本基分类器通过注意力机制提取第二模型训练文本中的每个分类类别各自的类别关键词,构建包含各所述类别关键词的每个分类类别各自的关键词典包括:对所述文本基分类器的注意力层进行注意力可视化处理;将所述第二模型训练文本输入所述文本基分类器,通过注意力可视化处理后的注意力层从所述第二模型训练文本提取每个分类类别各自的类别关键词,构建包含各所述类别关键词的每个分类类别各自的关键词典。3.根据权利要求2所述的方法,其特征在于,所述通过注意力可视化处理后的注意力层从所述第二模型训练文本提取每个分类类别各自的类别关键词包括:通过注意力可视化处理后的注意力层,识别所述第二模型训练文本中各个词语在每个分类类别的权重参数;基于所述各个词语在每个分类类别的权重参数,从所述第二模型训练文本中提取权重参数高于权重阈值的类别关键词。4.根据权利要求2所述的方法,其特征在于,所述对所述文本基分类器的注意力层进行注意力可视化处理包括:基于注意力层命名构建注意力层输出函数;基于所述注意力层输出函数、参数转化函数和表格生成函数,对所述文本基分类器的注意力层进行注意力可视化处理。5.根据权利要求1至4任意一项所述的方法,其特征在于,所述基于所述置信度和所述关键词典,确定所述第二模型训练文本的类别标签,得到携带有类别标签的第二模型训练文本包括:对所述第二模型训练文本进行分词,得到所述第二模型训练文本与所述每个分类类别各自的关键词典的匹配词;基于所述每个分类类别各自的置信度和所述每个分类类别各自的匹配词,确定所述第二模型训练文本的类别标签;基于所述类别标签对所述第二模型训练文本进行标注,得到带类别标签的第二模型训练文本。6.根据权利要求5所述的方法,其特征在于,所述对所述第二模型训练文本进行分词,得到所述第二模型训练文本与所述每个分类类别各自的关键词典的匹配词包括:
对所述第二模型训练文本进行分词处理,得到文本分词结果;当在所述关键词典中查找到所述文本分词结果时,将所述查找到的文本分词结果作为匹配词,得到所述第二模型训练文本与所述每个分类类别各自的关键词典的匹配词。7.根据权利要求5所述的方法,其特征在于,所述基于所述每个分类类别各自的置信度和所述每个分类类别各自的匹配词,确定所述第二模型训练文本的类别标签包括:确定所述每个分类类别各自的置信度中的最大置信度;当所述最大置信度大于或等于置信度阈值时,确定所述最大置信度对应分类类别的匹配词数量;当所述匹配词数量大于或等于第一数量阈值时,确定所述第二模型...

【专利技术属性】
技术研发人员:杨志欣
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1