文本的分类方法、装置、存储介质及电子设备制造方法及图纸

技术编号:37348977 阅读:16 留言:0更新日期:2023-04-22 21:45
本公开涉及一种文本的分类方法、装置、存储介质及电子设备,涉及计算机技术领域,该方法包括:获取目标文本。根据目标文本和目标分类模板,得到目标输入数据,目标分类模板包括目标参数向量和目标自然语言模板,目标参数向量是根据第一训练样本数据对第一预设网络模型训练得到的,第一训练样本数据是标注有类别的样本数据,第一预设网络模型包括预设参数向量和预设分类模型。将目标输入数据输入预设的目标文本分类模型,以得到目标文本分类模型输出的目标文本类别,目标文本分类模型是根据第二训练样本数据对第二预设网络模型训练得到的,第二训练样本数据是未标注类别的样本数据,第二预设网络模型包括目标参数向量和预设分类模型。分类模型。分类模型。

【技术实现步骤摘要】
文本的分类方法、装置、存储介质及电子设备


[0001]本公开涉及计算机
,具体地,涉及一种文本的分类方法、装置、存储介质及电子设备。

技术介绍

[0002]针对多分类问题,目前已有的典型小样本学习方法包括自然语言模版法PET(Pattern

Exploting Training)、参数向量模版法P

Tuning,针对标注样本数据集合,训练对应的模型。自然语言模版法PET需要手工构造模版,不同的模版效果差异比较大,而参数向量模版法P

Tuning学习到的模版缺乏可解释性。并且这两种方法只针对标注样本数据集合进行模型训练,对于大量的无标注样本数据,无法进行充分利用。

技术实现思路

[0003]本公开的目的是提供一种文本的分类方法、装置、存储介质及电子设备,用于提高文本分类的准确度。
[0004]根据本公开实施例的第一方面,提供一种文本的分类方法,所述方法包括:获取目标文本;根据所述目标文本和目标分类模板,得到目标输入数据,所述目标分类模板包括目标参数向量和目标自然语言模板,所述目标参数向量是根据第一训练样本数据对第一预设网络模型训练得到的,所述第一训练样本数据是标注有类别的样本数据,所述第一预设网络模型包括预设参数向量和预设分类模型;将所述目标输入数据输入预设的目标文本分类模型,以得到所述目标文本分类模型输出的目标文本类别,所述目标文本分类模型是根据第二训练样本数据对第二预设网络模型训练得到的,所述第二训练样本数据是未标注类别的样本数据,所述第二预设网络模型包括所述目标参数向量和所述预设分类模型。
[0005]可选地,所述第一训练样本数据包括至少一个预设分类模板;所述目标参数向量和所述目标文本分类模型是通过以下方式确定的:针对每个所述预设分类模板,根据所述第一训练样本数据对所述第一预设网络模型进行训练,得到所述预设分类模板对应的候选参数向量;针对每个所述候选参数向量,根据所述第二训练样本数据对所述候选参数向量对应的待用网络模型进行训练,得到所述候选参数向量对应的候选文本分类模型,所述待用网络模型包括所述候选向量参数和所述预设分类模型;根据预设验证数据集,从所述候选参数向量和所述候选文本分类模型中确定所述目标参数向量和所述目标文本分类模型,所述预设验证数据集包括样本验证文本和所述样本验证文本对应的样本验证类别。
[0006]可选地,所述第一训练样本数据包括第一样本输入数据和所述第一样本输入数据对应的第一样本类别;所述根据所述第一训练样本数据对所述第一预设网络模型进行训
练,得到所述预设分类模板对应的候选参数向量包括:根据所述第一样本输入数据和所述第一样本类别对所述第一预设网络模型进行训练,得到所述候选参数向量。
[0007]可选地,所述第一样本输入数据包括所述预设分类模板和第一样本文本,所述预设分类模板包括预设参数向量和预设自然语言模板;所述根据所述第一样本输入数据和所述第一样本类别对所述第一预设网络模型进行训练,得到所述候选参数向量包括:根据所述第一样本文本和所述预设分类模板,得到所述第一样本输入数据;将所述第一样本输入数据作为所述第一预设网络模型的输入,并将所述第一样本类别作为所述第一预设网络模型的输出,对所述第一预设网络模型进行训练,得到所述候选参数向量。
[0008]可选地,所述第二训练样本数据包括第二样本输入数据和所述第二样本输入数据对应的第二样本输出数据;所述根据所述第二训练样本数据对所述候选参数向量对应的待用网络模型进行训练,得到所述候选参数向量对应的候选文本分类模型包括:针对每个所述候选参数向量,根据所述第二样本输入数据和所述第二样本输出数据对所述待用网络模型进行训练,得到所述候选文本分类模型。
[0009]可选地,所述第二样本输入数据包括候选分类模板和第二样本文本,所述候选分类模板包括所述候选参数向量和所述预设自然语言模板;所述第二样本输出数据为从预设样本文本中提取的文本,所述第二样本文本为从所述预设样本文本中提取所述第二样本输出数据之后得到的文本;所述根据所述第二样本输入数据和所述第二样本输出数据对所述待用网络模型进行训练,得到所述候选文本分类模型包括:根据所述第二样本文本和所述候选分类模板,得到所述第二样本输入数据;将所述第二样本输入数据作为所述待用网络模型的输入,并将所述第二样本输出数据作为所述待用网络模型的输出,对所述待用网络模型进行训练,得到所述候选文本分类模型。
[0010]可选地,所述根据预设验证数据集,从所述候选参数向量和所述候选文本分类模型中确定所述目标参数向量和所述目标文本分类模型包括:针对每个所述候选参数向量,根据所述样本验证文本和所述候选参数向量对应的所述候选分类模板,得到验证输入数据;将所述验证输入数据作为所述候选参数向量对应的所述候选文本分类模型的输入,得到所述候选文本分类模型输出的目标验证类别;根据所述目标验证类别和所述样本验证类别,确定每个候选网络模型的分类准确度,所述候选网络模型包括所述候选参数向量和所述候选参数向量对应的所述候选文本分类模型;将分类准确度最高的所述候选网络模型中的所述候选参数向量作为所述目标参数向量,并将分类准确度最高的所述候选网络模型中的所述候选文本分类模型作为所述目标文本分类模型。
[0011]根据本公开实施例的第二方面,提供一种文本的分类装置,所述装置包括:获取模块,用于获取目标文本;输入模块,用于根据所述目标文本和目标分类模板,得到目标输入数据,所述目标
分类模板包括目标参数向量和目标自然语言模板,所述目标参数向量是根据第一训练样本数据对第一预设网络模型训练得到的,所述第一训练样本数据是标注有类别的样本数据,所述第一预设网络模型包括预设参数向量和预设分类模型;分类模块,用于将所述目标输入数据输入预设的目标文本分类模型,以得到所述目标文本分类模型输出的目标文本类别,所述目标文本分类模型是根据第二训练样本数据对第二预设网络模型训练得到的,所述第二训练样本数据是未标注类别的样本数据,所述第二预设网络模型包括所述目标参数向量和所述预设分类模型。
[0012]可选地,所述第一训练样本数据包括至少一个预设分类模板;所述目标参数向量和所述目标文本分类模型是通过以下方式确定的:针对每个所述预设分类模板,根据所述第一训练样本数据对所述第一预设网络模型进行训练,得到所述预设分类模板对应的候选参数向量;针对每个所述候选参数向量,根据所述第二训练样本数据对所述候选参数向量对应的待用网络模型进行训练,得到所述候选参数向量对应的候选文本分类模型,所述待用网络模型包括所述候选向量参数和所述预设分类模型;根据预设验证数据集,从所述候选参数向量和所述候选文本分类模型中确定所述目标参数向量和所述目标文本分类模型,所述预设验证数据集包括样本验证文本和所述样本验证文本对应的样本验证类别。
[0013]可选地,所述第一训练样本数据包括第一样本输入数据和所述第一样本输入数据对应的第一样本类别;所述根据所述第一训练样本数据对所述第一预设网络模型进行本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本的分类方法,其特征在于,所述方法包括:获取目标文本;根据所述目标文本和目标分类模板,得到目标输入数据,所述目标分类模板包括目标参数向量和目标自然语言模板,所述目标参数向量是根据第一训练样本数据对第一预设网络模型训练得到的,所述第一训练样本数据是标注有类别的样本数据,所述第一预设网络模型包括预设参数向量和预设分类模型;将所述目标输入数据输入预设的目标文本分类模型,以得到所述目标文本分类模型输出的目标文本类别,所述目标文本分类模型是根据第二训练样本数据对第二预设网络模型训练得到的,所述第二训练样本数据是未标注类别的样本数据,所述第二预设网络模型包括所述目标参数向量和所述预设分类模型。2.根据权利要求1所述的方法,其特征在于,所述第一训练样本数据包括至少一个预设分类模板;所述目标参数向量和所述目标文本分类模型是通过以下方式确定的:针对每个所述预设分类模板,根据所述第一训练样本数据对所述第一预设网络模型进行训练,得到所述预设分类模板对应的候选参数向量;针对每个所述候选参数向量,根据所述第二训练样本数据对所述候选参数向量对应的待用网络模型进行训练,得到所述候选参数向量对应的候选文本分类模型,所述待用网络模型包括所述候选向量参数和所述预设分类模型;根据预设验证数据集,从所述候选参数向量和所述候选文本分类模型中确定所述目标参数向量和所述目标文本分类模型,所述预设验证数据集包括样本验证文本和所述样本验证文本对应的样本验证类别。3.根据权利要求2所述的方法,其特征在于,所述第一训练样本数据包括第一样本输入数据和所述第一样本输入数据对应的第一样本类别;所述根据所述第一训练样本数据对所述第一预设网络模型进行训练,得到所述预设分类模板对应的候选参数向量包括:根据所述第一样本输入数据和所述第一样本类别对所述第一预设网络模型进行训练,得到所述候选参数向量。4.根据权利要求3所述的方法,其特征在于,所述第一样本输入数据包括所述预设分类模板和第一样本文本,所述预设分类模板包括预设参数向量和预设自然语言模板;所述根据所述第一样本输入数据和所述第一样本类别对所述第一预设网络模型进行训练,得到所述候选参数向量包括:根据所述第一样本文本和所述预设分类模板,得到所述第一样本输入数据;将所述第一样本输入数据作为所述第一预设网络模型的输入,并将所述第一样本类别作为所述第一预设网络模型的输出,对所述第一预设网络模型进行训练,得到所述候选参数向量。5.根据权利要求2所述的方法,其特征在于,所述第二训练样本数据包括第二样本输入数据和所述第二样本输入数据对应的第二样本输出数据;所述根据所述第二训练样本数据对所述候选参数向量对应的待用网络模型进行训练,得到所述候选参数向量对应的候选文本分类模型包括:针对每个所述候选参数向量,根据所述第二样本输入数据和所述第二样本输出数据对所...

【专利技术属性】
技术研发人员:苏海波李霖枫杜晓梦刘译璟
申请(专利权)人:北京百分点科技集团股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1