【技术实现步骤摘要】
本专利技术涉及层级文本分类方法,具体而言,涉及一种基于自反馈神经网络的层级文本分类方法及系统。
技术介绍
1、层级文本分类模型应用于政务、新闻、电商、法律、医疗、客服等领域,实现工单,内容、商品、文件、病历的精细化多层级分类,提升检索、管理与分析效率,优化用户体验。以工单分类为例,工单分类是构建政务问答系统的核心环节,通过有效的工单分类,可以快速确认工单的标签类别,进而为基于rag的政务问答系统明确知识库的检索范围,提高热线坐席的效率和问答的准确性。此外,工单分类有助于政府跟踪热门事件,细粒度地了解民生诉求,为政策决策提供数据支持。然而,工单分类体系复杂,具有多层上下级标签,传统的扁平化分类方法并未充分考虑层级标签的内在依赖性,导致分类结果常常出现上下级标签的不一致性,尤其是在处理细粒度类别和长尾分布数据时更为明显。
2、层级文本分类模型的核心目标是对文本进行多层次、多粒度的语义归属划分。在现实场景中,层级分类体系是最常见的分类体系,一个文本同时属于不同的类别,且每一个类别下面还包含若干层细分子类。例如在科学论文分类中,一篇
...【技术保护点】
1.一种基于自反馈神经网络的层级文本分类方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的一种基于自反馈神经网络的层级文本分类方法,其特征在于:在步骤S100中,将原始的样本数据进行去重、去噪声数据清洗、脱敏以及按照标签类别比例进行数据划分,得到层级分类样本其中x为输入文本样本,Y为对应x所属的所有根到叶的路径;将层级分类样本分别送入对应的文本编码器或标签结构编码器中,文本编码器负责处理输入文本的特征,生成对文本内容的向量表示,标签结构编码器负责处理与文本相关的标签或结构特征;文本编码器和标签结构编码器通过可选连接或强制连接的方式进行交互获得混合语
...【技术特征摘要】
1.一种基于自反馈神经网络的层级文本分类方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的一种基于自反馈神经网络的层级文本分类方法,其特征在于:在步骤s100中,将原始的样本数据进行去重、去噪声数据清洗、脱敏以及按照标签类别比例进行数据划分,得到层级分类样本其中x为输入文本样本,y为对应x所属的所有根到叶的路径;将层级分类样本分别送入对应的文本编码器或标签结构编码器中,文本编码器负责处理输入文本的特征,生成对文本内容的向量表示,标签结构编码器负责处理与文本相关的标签或结构特征;文本编码器和标签结构编码器通过可选连接或强制连接的方式进行交互获得混合语义表示,即全局语义表示。
3.根据权利要求1所述的一种基于自反馈神经网络的层级文本分类方法,其特征在于:在步骤s200中,在构建基于自反馈神经网络的层级文本分类模型时,给定文本样本集合x={x1,x2,...,xn},其中n代表文本总数,htc任务的目标是预测其一个或多个标签集合y={y1,y2,...,ym},其中m代表标签总数,标签集合y为一个具有层次结构的标签集合,该集合表示为一个有向无环图或树结构,其中每个节点y代表一个标签,边表示标签之间的层次关系,同时也表示给定样本x从根节点到叶节点的路径,反映该样本在标签层级结构中的位置;
4.根据权利要求1所述的一种基于自反馈神经网络的层级...
【专利技术属性】
技术研发人员:韩中元,郭明灿,孔蕾蕾,曹豪杰,刘畅,黄满成,
申请(专利权)人:佛山大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。