基于多元组的文本分类、文本分类模型训练的方法及装置制造方法及图纸

技术编号：34935739 阅读：16 留言：0更新日期：2022-09-15 07:32

本发明专利技术公开了一种基于多元组的文本分类、文本分类模型训练的方法及装置，该方法包括：将文本输入多元组文本分类网络中进行类别分析，得到文本的文本特征；确定文本所属行业对象的层级多个类别的平均文本特征，并分析文本的文本特征与其平均文本特征之间的匹配度，及根据匹配度从所有类别中，筛选最大匹配度的类别，作为文本的类别。可见，本发明专利技术通过多元组文本分类网络对文本进行多层级标签的文本特征分析，并结合文本所属行业的层级下多个类别的平均文本特征对网络分析出的文本特征进行比较，能够提高文本所属具体类别的分析准确性，得到精准的多层级标签，从而使得分类出的标签精准表达文本含义以及便于对文本进行分类归纳。纳。纳。

全部详细技术资料下载

【技术实现步骤摘要】
基于多元组的文本分类、文本分类模型训练的方法及装置

[0001]本专利技术涉及文本分类
，尤其涉及一种基于多元组的文本分类、文本分类模型训练的方法及装置。

技术介绍

[0002]文本分类对识别文本所表达的精确含义有着重大意义。目前，通常是对文本进行单层级标签分类，即只为一段文本赋予一个单层级的标签，比如文本“xx男士皮鞋”被分类成服饰鞋包。
[0003]然而，实践发现，现有单层级标签分类方法所识别出的文本标签准确性非常低，导致分类出的标签无法精准的表达文本含义，不利于对文本进行分类归纳。因此，提出一种如何提高文本分类的准确性，从而使得分类出的标签精准表达文本含义以及便于对文本进行分类归纳的技术方案显得尤为重要。

技术实现思路

[0004]本专利技术所要解决的技术问题在于，提供一种基于多元组的文本分类、文本分类模型训练的方法及装置，能够提高文本分类的准确性，从而使得分类出的标签精准表达文本含义以及便于对文本进行分类归纳。
[0005]为了解决上述技术问题，本专利技术第一方面公开了一种基于多元组的文本分类方法，所述方法包括：将待识别类别的目标文本输入预先训练出的多元组文本分类网络中进行类别分析，并获取所述多元组文本分类网络输出的分析结果，所述分析结果包括所述目标文本的文本特征；确定所述目标文本所属行业对象的目标层级下多个类别中每个类别的平均文本特征，并分析所述目标文本的文本特征与所述目标层级下每个所述类别的平均文本特征之间的匹配度；根据所述目标层级下每个所述类别对应的匹配度，从所述目...

【技术保护点】

【技术特征摘要】
1.一种基于多元组的文本分类方法，其特征在于，所述方法包括：将待识别类别的目标文本输入预先训练出的多元组文本分类网络中进行类别分析，并获取所述多元组文本分类网络输出的分析结果，所述分析结果包括所述目标文本的文本特征；确定所述目标文本所属行业对象的目标层级下多个类别中每个所述类别的平均文本特征，并分析所述目标文本的文本特征与所述目标层级下每个所述类别的平均文本特征之间的匹配度；根据所述目标层级下每个所述类别对应的匹配度，从所述目标层级所有所述类别中，筛选最大匹配度的所述类别，作为所述目标文本的类别。2.根据权利要求1所述的基于多元组的文本分类方法，所述方法还包括：确定所述行业对象对应的样本文本集合，所述行业对象存在多个层级，每个所述层级均存在对应的类别且从级别最低所述层级开始上一层级对应的类别范围大于下一层级对应的类型范围，所述样本文本集合包含不同所述层级的类别对应的样本文本；根据所述样本文本集合中的样本文本以及预设正系数，确定所述行业对象在不同所述层级的损失；基于所述行业对象在所有所述层级下的损失，训练预先确定出的文本分类网络，直至所述文本分类网络收敛，得到多元组文本分类网络，并确定收敛后的所述多元组文本分类网络，作为预先训练出的多元组文本分类网络。3.根据权利要求2所述的基于多元组的文本分类方法，其特征在于，所述根据所述样本文本集合中的样本文本以及预设正系数，确定所述行业对象在不同所述层级的损失，包括：从所述行业对象中级别最低的层级开始，在所述样本文本集合中，选择级别最低的所述层级的第一样本文本作为锚样本文本、与所述第一样本文本同层级且类别相同的第二样本文本作为正样本文本及与所述第一样本文本同层级且类别不同的第三样本文本作为负样本文本；基于所述锚样本文本、所述正样本文本、所述负样本文本以及所述预设正系数，计算所述行业对象在当前层级下的损失；将已经参与计算损失的前一层级的所述负样本文本更新为当前层级的所述正样本文本，并在所述样本文本集合中，确定与所述锚样本文本同属当前层级且不同属前一层级的样本文本作为所述负样本文本；将与当前层级匹配的预设正系数更新为已经参与计算损失的前一层级的所述预设正系数，并重复执行所述的基于所述锚样本文本、所述正样本文本、所述负样本文本以及所述预设正系数，计算所述行业对象在当前层级下的损失的操作，直至计算完毕所述行业对象在最后一个层级下的损失。4.根据权利要求3所述的基于多元组的文本分类方法，其特征在于，所述基于所述锚样本文本、所述正样本文本、所述负样本文本以及所述预设正系数，计算所述行业对象在当前层级下的损失，包括：计算所述正样本文本与所述锚样本文本之间的距离以及所述负样本文本与所述锚样本文本之间的距离，并根据所述正样本文本对应的距离、所述负样本文本对应的距离以及所述预设正系数，计算所述行业对象在当前层级下的损失；
其中，所述行业对象在第i层级下的损失的计算公式如下：式中，loss
i
表示所述行业对象在第i个层级下的损失，c
i
、c
i+1
均为所述预设正系数，且c
i+1
＞c
i
；x
a1
表示所述锚样本文本，x
pi
表示第i个所述正样本文本，x
ni
表示第i个所述负样本文本，d（x
pi
，x
a1
）表示所述正样本文本与所述锚样本文本之间的距...

【专利技术属性】
技术研发人员：陈莹莹，钟艺豪，
申请(专利权)人：有米科技股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人