标签分类系统及标签分类模型的训练系统技术方案

技术编号:31450439 阅读:26 留言:0更新日期:2021-12-18 11:13
标签分类系统及标签分类模型的训练系统,所述标签分类系统包括:待处理数据获取模块,适于获取待处理数据,所述待处理数据包括待处理语料;语义提取模块,适于提取所述待处理数据的语义特征;逻辑运算模块,适于将提取得到的语义特征和所述待处理数据进行逻辑运算处理,得到所述待处理数据的融合特征;数值计算模块,适于根据所述待处理数据的融合特征,计算各候选类别标签的数值,以表征各候选类别标签与所述待处理语料的关联程度;标签获取模块,适于根据各候选类别标签的数值,获取数值符合预设的第一选取条件的候选类别标签,得到类别标签预测集合。采用上述方案,能够提高标签分类预测结果的准确率。签分类预测结果的准确率。签分类预测结果的准确率。

【技术实现步骤摘要】
标签分类系统及标签分类模型的训练系统


[0001]本说明书实施例涉及信息处理
,尤其涉及一种标签分类系统及标签分类模型的训练系统。

技术介绍

[0002]在互联网信息大爆炸的时代,为了能够从互联网的海量信息中快速获取所需信息,会对互联网信息进行分类并标注相应分类的标签(Tag),这种标签通常采用与信息关联性很强且便于识别的关键特征来表示,以便于用户进行检索和筛选。
[0003]目前,互联网信息的标签标注通常采用人工分类和自动分类两种方式。其中,人工方式成本高、效率低,无法满足互联网信息的增长速度。自动分类方式前期需要采用大量的训练数据对标签分类模型进行训练,并且现有的标签分类模型结构泛化能力弱、通用性差,导致标签分类预测结果的准确率较低。

技术实现思路

[0004]有鉴于此,本说明书实施例提供了一种标签分类系统及标签分类模型的训练系统,能够提高标签分类预测结果的准确率。
[0005]本说明书实施例提供了一种标签分类系统,包括:
[0006]待处理数据获取模块,适于获取待处理数据,所述待处理数据包括待处理语料;
[0007]语义提取模块,适于提取所述待处理数据的语义特征;
[0008]逻辑运算模块,适于将提取得到的语义特征和所述待处理数据进行逻辑运算处理,得到所述待处理数据的融合特征;
[0009]数值计算模块,适于根据所述待处理数据的融合特征,计算各候选类别标签的数值,以表征各候选类别标签与所述待处理语料的关联程度;
[0010]标签获取模块,适于根据各候选类别标签的数值,获取数值符合预设的第一选取条件的候选类别标签,得到类别标签预测集合。
[0011]本专利技术实施例还提供了一种标签分类系统,包括:
[0012]待处理数据获取模块,适于获取待处理数据,所述待处理数据包括待处理语料;
[0013]标签分类预测模块,适于采用预设的标签分类模型提取所述待处理数据的语义特征,并将提取得到的语义特征和所述待处理数据进行逻辑运算处理,得到所述待处理数据的融合特征,以及基于所述待处理数据的融合特征,计算各候选类别标签用于标注所述待处理语料的数值,获取数值符合预设的第一选取条件的候选类别标签,得到类别标签预测集合。
[0014]本专利技术实施例还提供了一种标签分类模型的训练系统,包括:
[0015]训练数据获取模块,适于获取训练数据和所述训练数据的类别标签真实集合,所述训练数据包括训练语料;
[0016]模型训练模块,适于将所述训练数据和所述类别标签真实集合输入初始的标签分
类模型,以提取所述训练数据的语义特征,并将提取得到的语义特征和所述训练数据进行逻辑运算,得到所述训练数据的融合特征,以及基于所述融合特征,计算各候选类别标签的数值,以表征各候选类别标签与所述训练语料的关联程度,获取数值符合预设的第一选取条件的候选类别标签,得到所述训练数据的类别标签预测集合;
[0017]误差计算模块,适于将所述类别标签真实集合和所述类别标签预测集合进行误差计算,得到结果误差值;
[0018]匹配模块,适于根据所述结果误差值,确定所述标签分类模型是否符合训练完成条件,并在所述标签分类模型符合训练完成条件时,确定所述标签分类模型完成训练;
[0019]模型参数调整模块,适于在所述标签分类模型不符合训练完成条件时,对所述标签分类模型的参数进行调整。
[0020]采用本说明书实施例的标签分类方案,在获取待处理数据后,通过将提取得到的所述待处理数据的语义特征和所述待处理数据进行逻辑运算,可以融合待处理数据中的原始语义信息和语义特征中经过提取的语义信息,从而避免语义特征提取错误或关键语义信息缺失对标签分类预测结果带来的影响,使得融合后的特征包含丰富的语义信息,可以表征内容复杂或来源多变的待处理数据,有利于灵活处理单标签任务或多标签分类任务,并且能够更加准确地计算各候选类别标签的数值,获取正确的候选类别标签来表示待处理语料中存在的分类信息,故而提高标签分类结果的准确率。
附图说明
[0021]图1是本说明书实施例中一种标签分类系统的结构示意图;
[0022]图2是本说明书实施例中另一种标签分类系统的结构示意图;
[0023]图3是本说明书实施例中一种标签分类模型的结构示意图;
[0024]图4是本说明书实施例中一种迭代层的结构示意图;
[0025]图5是本说明书实施例中另一种标签分类模型的结构示意图;
[0026]图6是本说明书实施例中另一种标签分类模型的结构示意图;
[0027]图7是本说明书实施例中另一种标签分类模型的结构示意图;
[0028]图8是本说明书实施例中一种标签分类模型的训练系统的结构示意图;
[0029]图9是本说明书实施例中另一种标签分类模型的结构示意图。
具体实施方式
[0030]如前所述,在互联网信息大爆炸的时代,为了能够从互联网的海量信息中快速获取所需信息,会对互联网信息进行分类并标注相应分类的标签(Tag)。目前,互联网信息的标签标注通常采用人工和机器学习两种方式。
[0031]其中,人工方式成本高、效率低,无法满足互联网信息的增长速度。机器学习方式前期需要采用大量的训练数据对标签分类模型进行训练。
[0032]然而,现有的标签分类模型结构泛化能力弱、通用性差,只能对网络信息进行单一的标签分类,无法高效处理更加复杂的多标签分类(Multi-label Classification)任务。
[0033]这是因为在多标签分类任务中,需要用多个类别标签表征图片或文档的内容信息。所以,预设的类别标签集合之间并非完全独立,而是存在一定的依赖关系或者互斥关
系。但由于多标签分类任务往往涉及的标签数量较多,构成了类别标签之间的复杂关联,从而导致多标签分类任务相对于单标签分类任务而言更加难以分析,增加了标签分类模型的构建难度和训练难度,导致标签分类预测结果的准确率较低。
[0034]针对上述问题,本说明书实施例提供一种标签分类方案,在获取待处理数据后,通过提取所述待处理数据的语义特征,以及将提取得到的语义特征和所述待处理数据进行逻辑运算处理,可以得到所述待处理数据的融合特征,从而可以根据所述待处理数据的融合特征计算各候选类别标签的数值,得到用于表示待处理语料中的分类信息的类别标签预测集合。
[0035]为使本领域技术人员更加清楚地了解及实施本说明书实施例的构思、实现方案及优点,以下参照附图,通过具体应用场景进行详细说明。
[0036]参照图1所示的一种标签分类系统的结构示意图,在本说明书实施例中,标签分类系统100可以包括:
[0037]待处理数据获取模块101,适于获取待处理数据,所述待处理数据包括待处理语料;
[0038]语义提取模块102,适于提取所述待处理数据的语义特征;
[0039]逻辑运算模块103,适于将提取得到的语义特征和所述待处理本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种标签分类系统,其特征在于,包括:待处理数据获取模块,适于获取待处理数据,所述待处理数据包括待处理语料;语义提取模块,适于提取所述待处理数据的语义特征;逻辑运算模块,适于将提取得到的语义特征和所述待处理数据进行逻辑运算处理,得到所述待处理数据的融合特征;数值计算模块,适于根据所述待处理数据的融合特征,计算各候选类别标签的数值,以表征各候选类别标签与所述待处理语料的关联程度;标签获取模块,适于根据各候选类别标签的数值,获取数值符合预设的第一选取条件的候选类别标签,得到类别标签预测集合。2.根据权利要求1所述的标签分类系统,其特征在于,所述语义提取模块适于根据预设的各组特征提取参数,分别提取所述待处理数据的语义特征,得到各组的语义特征;所述逻辑运算模块适于对各组的语义特征和所述待处理数据进行逻辑运算,得到融合特征。3.根据权利要求2所述的标签分类系统,其特征在于,所述逻辑运算模块包括:权重分配子模块,适于将至少一组语义特征输入预设的非线性函数中进行非线性映射处理,并根据处理结果为其他组的语义特征和所述待处理数据分配权重系数;加权计算子模块,适于根据分配的权重系数,将所述其他组的语义特征和所述待处理数据进行加权逻辑运算。4.根据权利要求1-3任一项所述的标签分类系统,其特征在于,还包括:位于所述逻辑运算模块和所述数值计算模块之间的迭代模块;所述迭代模块,适于在确定满足预设的迭代条件后,获取本轮的融合特征,并提取所述融合特征的语义特征,以及将所述融合特征提取得到的语义特征和所述融合特征进行逻辑运算,得到迭代后的融合特征;在确定不满足所述迭代条件后,将迭代后的融合特征作为所述待处理数据的融合特征,用以确定各候选类别标签的数值。5.根据权利要求1所述的标签分类系统,其特征在于,所述待处理数据获取模块还适于在提取所述待处理数据的语义特征之前,识别所述待处理语料中存在的属性信息,并获取所述属性信息对应的属性标签,得到属性标签序列,所述属性信息包括:所述待处理语料中各划分单元的位置信息和所述待处理语料的语法信息中至少一种;所述标签分类系统还包括:数据组合模块,适于将所述待处理语料和属性标签序列进行组合处理,得到组合后的待处理数据,用以提取语义特征。6.根据权利要求5所述的标签分类系统,其特征在于,所述数值计算模块适于根据所述待处理数据的融合特征,生成融合特征向量,所述融合特征向量的维度与预设的候选类别标签集合中候选类别标签的总数一致,所述融合特征向量中各元素的数值表征相...

【专利技术属性】
技术研发人员:沈大框张莹陈成才
申请(专利权)人:上海智臻智能网络科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1