基于中心损失的文本层级分类方法及装置制造方法及图纸

技术编号：34801445 阅读：18 留言：0更新日期：2022-09-03 20:08

本发明专利技术公开了一种基于中心损失的文本层级分类方法及装置，该方法包括：确定欲分类的目标处理文本；将所述目标处理文本输入至训练好的层级分类神经网络模型，以输出得到所述目标处理文本对应的多个相互之间存在层级关系的类别；所述层级分类神经网络模型在训练中采用中心损失函数进行优化直至所述中心损失函数最小化；所述中心损失函数的值用于表征训练文本的文本向量与任一对应的训练输出类别的中心表征向量之间的训练向量距离。可见，本发明专利技术能够利用基于中心损失函数训练得到的层级分类算法模型对文本进行层级分类，以实现对文本的多层级分类，从而能够提高文本分类的精度和效率，有助于后续利用分类后的文本进行进一步的智能算法处理。步的智能算法处理。步的智能算法处理。

全部详细技术资料下载

【技术实现步骤摘要】
基于中心损失的文本层级分类方法及装置

[0001]本专利技术涉及自然语言处理
，尤其涉及一种基于中心损失的文本层级分类方法及装置。

技术介绍

[0002]随着自然语言处理算法技术的发展，越来越多的企业开始利用算法来进行文本分类，并利用分类后的文本来实现各种算法效果，如自动生成文本或自动识别文本。但现有技术在进行文本分类时，没有考虑到文本在多个层级分类上的联系，也没有在算法层面思考如何训练出可以更高效实现这一效果的算法模型。可见，现有技术存在缺陷，亟待解决。

技术实现思路

[0003]本专利技术所要解决的技术问题在于，提供一种基于中心损失的文本层级分类确定方法及装置，能够提高文本分类的精度和效率，有助于后续利用分类后的文本进行进一步的智能算法处理。
[0004]为了解决上述技术问题，本专利技术第一方面公开了一种基于中心损失的文本层级分类方法，所述方法包括：
[0005]确定欲分类的目标处理文本；
[0006]将所述目标处理文本输入至训练好的层级分类神经网络模型，以输出得到所述目标处理文本对应的多个相互之间存在层级关系的类别；所述层级分类神经网络模型在训练中采用中心损失函数进行优化直至所述中心损失函数最小化；所述中心损失函数的值用于表征训练文本的文本向量与任一对应的训练输出类别的中心表征向量之间的训练向量距离。
[0007]作为一种可选的实施方式，在本专利技术第一方面中，所述中心损失函数的值用于表征所述训练文本的文本向量与每一对应的训练输出类别的中心表征向量之间的训练...

【技术保护点】

【技术特征摘要】
1.一种基于中心损失的文本层级分类方法，其特征在于，所述方法包括：确定欲分类的目标处理文本；将所述目标处理文本输入至训练好的层级分类神经网络模型，以输出得到所述目标处理文本对应的多个相互之间存在层级关系的类别；所述层级分类神经网络模型在训练中采用中心损失函数进行优化直至所述中心损失函数最小化；所述中心损失函数的值用于表征训练文本的文本向量与任一对应的训练输出类别的中心表征向量之间的训练向量距离。2.根据权利要求1所述的基于中心损失的文本层级分类方法，其特征在于，所述中心损失函数的值用于表征所述训练文本的文本向量与每一对应的训练输出类别的中心表征向量之间的训练向量距离的总和。3.根据权利要求1所述的基于中心损失的文本层级分类方法，其特征在于，所述多个相互之间存在层级关系的类别中，每一上级类别的中心表征向量与其直接下属的下级类别的中心表征向量之间的类别向量距离小于预设的类别距离阈值。4.根据权利要求3所述的基于中心损失的文本层级分类方法，其特征在于，所述类别距离阈值与，所述上级类别和/或所述下级类别在所有类别中所属的层级次序，成反比。5.根据权利要求4所述的基于中心损失的文本层级分类方法，其特征在于，所述中心损失函数的值还用于表征所述训练文本对应的所有所述训练输出类别中任一上级类别对应的距离差值和零之间的最大值；所述距离差值为所述上级类别对应的所述类别向量距离与所述类别距离阈值的差值。6.根据权利要求5所述的基于中心损失的文本层级分类方法，其特征在于，所述中心损失函数的值还用于表征所述训练文本对应的所有所述训练输出类别中所有上级类别对应的距离差值和零之间的最大值的总和。7.根据权利要求1所述的基于中心损失的文本层级分类方法...

【专利技术属性】
技术研发人员：钟艺豪，李展铿，
申请(专利权)人：有米科技股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人