基于多元组的文本分类、文本分类模型训练的方法及装置制造方法及图纸

技术编号:34935739 阅读:16 留言:0更新日期:2022-09-15 07:32
本发明专利技术公开了一种基于多元组的文本分类、文本分类模型训练的方法及装置,该方法包括:将文本输入多元组文本分类网络中进行类别分析,得到文本的文本特征;确定文本所属行业对象的层级多个类别的平均文本特征,并分析文本的文本特征与其平均文本特征之间的匹配度,及根据匹配度从所有类别中,筛选最大匹配度的类别,作为文本的类别。可见,本发明专利技术通过多元组文本分类网络对文本进行多层级标签的文本特征分析,并结合文本所属行业的层级下多个类别的平均文本特征对网络分析出的文本特征进行比较,能够提高文本所属具体类别的分析准确性,得到精准的多层级标签,从而使得分类出的标签精准表达文本含义以及便于对文本进行分类归纳。纳。纳。

【技术实现步骤摘要】
基于多元组的文本分类、文本分类模型训练的方法及装置


[0001]本专利技术涉及文本分类
,尤其涉及一种基于多元组的文本分类、文本分类模型训练的方法及装置。

技术介绍

[0002]文本分类对识别文本所表达的精确含义有着重大意义。目前,通常是对文本进行单层级标签分类,即只为一段文本赋予一个单层级的标签,比如文本“xx男士皮鞋”被分类成服饰鞋包。
[0003]然而,实践发现,现有单层级标签分类方法所识别出的文本标签准确性非常低,导致分类出的标签无法精准的表达文本含义,不利于对文本进行分类归纳。因此,提出一种如何提高文本分类的准确性,从而使得分类出的标签精准表达文本含义以及便于对文本进行分类归纳的技术方案显得尤为重要。

技术实现思路

[0004]本专利技术所要解决的技术问题在于,提供一种基于多元组的文本分类、文本分类模型训练的方法及装置,能够提高文本分类的准确性,从而使得分类出的标签精准表达文本含义以及便于对文本进行分类归纳。
[0005]为了解决上述技术问题,本专利技术第一方面公开了一种基于多元组的文本分类方法,所述方法包括:将待识别类别的目标文本输入预先训练出的多元组文本分类网络中进行类别分析,并获取所述多元组文本分类网络输出的分析结果,所述分析结果包括所述目标文本的文本特征;确定所述目标文本所属行业对象的目标层级下多个类别中每个类别的平均文本特征,并分析所述目标文本的文本特征与所述目标层级下每个所述类别的平均文本特征之间的匹配度;根据所述目标层级下每个所述类别对应的匹配度,从所述目标层级所有所述类别中,筛选最大匹配度的所述类别,作为所述目标文本的类别。
[0006]作为一种可选的实施方式,在本专利技术第一方面中,所述方法还包括:确定所述行业对象对应的样本文本集合,所述行业对象存在多个层级,每个所述层级均存在对应的类别且从级别最低所述层级开始上一层级对应的类别范围大于下一层级对应的类型范围,所述样本文本集合包含不同所述层级的类别对应的样本文本;根据所述样本文本集合中的样本文本以及预设正系数,确定所述行业对象在不同所述层级的损失;基于所述行业对象在所有所述层级下的损失,训练预先确定出的文本分类网络,直至所述文本分类网络收敛,得到多元组文本分类网络,并确定收敛后的所述多元组文本分类网络,作为预先训练出的多元组文本分类网络。
[0007]作为一种可选的实施方式,在本专利技术第一方面中,所述根据所述样本文本集合中的样本文本以及预设正系数,确定所述行业对象在不同所述层级的损失,包括:从所述行业对象中级别最低的层级开始,在所述样本文本集合中,选择级别最低的所述层级的第一样本文本作为锚样本文本、与所述第一样本文本同层级且类别相同的第二样本文本作为正样本文本及与所述第一样本文本同层级且类别不同的第三样本文本作为负样本文本;基于所述锚样本文本、所述正样本文本、所述负样本文本以及所述预设正系数,计算所述行业对象在当前层级下的损失;将已经参与计算损失的前一层级的所述负样本文本更新为当前层级的所述正样本文本,并在所述样本文本集合中,确定与所述锚样本文本同属当前层级且不同属前一层级的样本文本作为所述负样本文本;将与当前层级匹配的预设正系数更新为已经参与计算损失的前一层级的所述预设正系数,并重复执行所述的基于所述锚样本文本、所述正样本文本、所述负样本文本以及所述预设正系数,计算所述行业对象在当前层级下的损失的操作,直至计算完毕所述行业对象在最后一个层级下的损失。
[0008]作为一种可选的实施方式,在本专利技术第一方面中,所述基于所述锚样本文本、所述正样本文本、所述负样本文本以及所述预设正系数,计算所述行业对象在当前层级下的损失,包括:计算所述正样本文本与所述锚样本文本之间的距离以及所述负样本文本与所述锚样本文本之间的距离,并根据所述正样本文本对应的距离、所述负样本文本对应的距离以及所述预设正系数,计算所述行业对象在当前层级下的损失;其中,所述行业对象在第i层级下的损失的计算公式如下:式中,loss
i
表示所述行业对象在第i个层级下的损失,c
i
、c
i+1
均为所述预设正系数,且c
i+1
>c
i
;x
a1
表示所述锚样本文本,x
pi
表示第i个所述正样本文本,x
ni
表示第i个所述负样本文本,d(x
pi
,x
a1
)表示所述正样本文本与所述锚样本文本之间的距离,d(x
ni
,x
a1
)表示所述负样本文本与所述锚样本文本之间的距离。
[0009]作为一种可选的实施方式,在本专利技术第一方面中,所述基于所述行业对象在所有所述层级下的损失,训练预先确定出的文本分类网络,直至所述文本分类网络收敛,得到多元组文本分类网络,包括:计算所述行业对象的所有所述层级的损失之和,作为所述行业对象的层级总损失;基于所述层级总损失训练预先确定出的文本分类网络,直至所述文本分类网络收敛,得到多元组文本分类网络;其中,所述行业对象的层级总损失的计算公式如下:
式中,所述loss为所述行业对象的层级总损失,所述N为所述行业对象的所有层级的数量。
[0010]作为一种可选的实施方式,在本专利技术第一方面中,所述基于所述行业对象在所有所述层级下的损失,训练预先确定出的文本分类网络,直至所述文本分类网络收敛,得到多元组文本分类网络之后,所述方法还包括:将所述样本文本集合中所有所述样本文本输入收敛后的所述多元组文本分类网络中进行前向分析,得到每个所述样本文本的文本特征;针对所述行业对象的任一层级的任一类别,从所有所述样本文本中每个所述样本文本的文本特征中,筛选所述类别对应的文本特征,并确定所述类别下所有所述样本文本的文本特征的平均文本特征,所述行业对象的每个所述层级每个所述类别对应的平均文本特征用于分析待分析文本的类别。
[0011]作为一种可选的实施方式,在本专利技术第一方面中,所述确定所述类别下所有所述样本文本的文本特征的平均文本特征,包括:针对所述行业对象的任一类别,确定所述类别下的每个所述样本文本的文本特征的特征维度;根据所有所述样本文本的数量、每个所述样本文本的文本特征的特征维度,计算所述类别下所有所述样本文本的文本特征的平均文本特征。
[0012]本专利技术第二方面公开了一种基于多元组的文本分类模型训练方法,所述方法包括:确定行业对象对应的样本文本集合,所述样本行业对象存在多个层级,每个所述层级均存在对应的类别且从级别最低所述层级开始上一层级对应的类别范围大于下一层级对应的类型范围,所述样本文本集合包含不同所述层级的类别对应的样本文本;根据所述样本文本集合中的样本文本以及预设正系数,确定所述样本行业对象在不同所述层级的损失;基于所述样本行业对象在所有所述层级下的损失,训练预先确定出的文本分类网络,直至所述文本分类网络收敛,得到多元组文本分类网络,收敛后的所述多元组文本分类网络用于分析待识别文本的类别。
[0013]本专利技术第三本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于多元组的文本分类方法,其特征在于,所述方法包括:将待识别类别的目标文本输入预先训练出的多元组文本分类网络中进行类别分析,并获取所述多元组文本分类网络输出的分析结果,所述分析结果包括所述目标文本的文本特征;确定所述目标文本所属行业对象的目标层级下多个类别中每个所述类别的平均文本特征,并分析所述目标文本的文本特征与所述目标层级下每个所述类别的平均文本特征之间的匹配度;根据所述目标层级下每个所述类别对应的匹配度,从所述目标层级所有所述类别中,筛选最大匹配度的所述类别,作为所述目标文本的类别。2.根据权利要求1所述的基于多元组的文本分类方法,所述方法还包括:确定所述行业对象对应的样本文本集合,所述行业对象存在多个层级,每个所述层级均存在对应的类别且从级别最低所述层级开始上一层级对应的类别范围大于下一层级对应的类型范围,所述样本文本集合包含不同所述层级的类别对应的样本文本;根据所述样本文本集合中的样本文本以及预设正系数,确定所述行业对象在不同所述层级的损失;基于所述行业对象在所有所述层级下的损失,训练预先确定出的文本分类网络,直至所述文本分类网络收敛,得到多元组文本分类网络,并确定收敛后的所述多元组文本分类网络,作为预先训练出的多元组文本分类网络。3.根据权利要求2所述的基于多元组的文本分类方法,其特征在于,所述根据所述样本文本集合中的样本文本以及预设正系数,确定所述行业对象在不同所述层级的损失,包括:从所述行业对象中级别最低的层级开始,在所述样本文本集合中,选择级别最低的所述层级的第一样本文本作为锚样本文本、与所述第一样本文本同层级且类别相同的第二样本文本作为正样本文本及与所述第一样本文本同层级且类别不同的第三样本文本作为负样本文本;基于所述锚样本文本、所述正样本文本、所述负样本文本以及所述预设正系数,计算所述行业对象在当前层级下的损失;将已经参与计算损失的前一层级的所述负样本文本更新为当前层级的所述正样本文本,并在所述样本文本集合中,确定与所述锚样本文本同属当前层级且不同属前一层级的样本文本作为所述负样本文本;将与当前层级匹配的预设正系数更新为已经参与计算损失的前一层级的所述预设正系数,并重复执行所述的基于所述锚样本文本、所述正样本文本、所述负样本文本以及所述预设正系数,计算所述行业对象在当前层级下的损失的操作,直至计算完毕所述行业对象在最后一个层级下的损失。4.根据权利要求3所述的基于多元组的文本分类方法,其特征在于,所述基于所述锚样本文本、所述正样本文本、所述负样本文本以及所述预设正系数,计算所述行业对象在当前层级下的损失,包括:计算所述正样本文本与所述锚样本文本之间的距离以及所述负样本文本与所述锚样本文本之间的距离,并根据所述正样本文本对应的距离、所述负样本文本对应的距离以及所述预设正系数,计算所述行业对象在当前层级下的损失;
其中,所述行业对象在第i层级下的损失的计算公式如下:式中,loss
i
表示所述行业对象在第i个层级下的损失,c
i
、c
i+1
均为所述预设正系数,且c
i+1
>c
i
;x
a1
表示所述锚样本文本,x
pi
表示第i个所述正样本文本,x
ni
表示第i个所述负样本文本,d(x
pi
,x
a1
)表示所述正样本文本与所述锚样本文本之间的距...

【专利技术属性】
技术研发人员:陈莹莹钟艺豪
申请(专利权)人:有米科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1