一种多维文本数据分类方法、训练方法和装置制造方法及图纸

技术编号:30370873 阅读:13 留言:0更新日期:2021-10-16 17:50
本申请涉及多维文本数据分类领域,公开了一种多维文本数据分类方法、训练方法和装置。多维文本数据分类训练包括:将多维文本数据分为非结构化数据和结构化数据;对所述非结构化数据进行合并与分词;根据分词结果使用TF

【技术实现步骤摘要】
一种多维文本数据分类方法、训练方法和装置


[0001]本申请涉及多维文本数据分类领域,特别涉及一种多维文本数据分类方法、训练方法和装置。

技术介绍

[0002]在许多工业和商业实践中,需要对文本内容进行自动分类。例如,在电网设备故障管理系统中,需要根据多个系统字段来预测故障类型。其中包括非结构化文本字段,和结构化文本字段或数值字段。
[0003]多维数据下的文本分类场景,在很多场合都可能发生,如在金融、交通等。如何有效准确的进行文本分类是一个非常有意义的技术问题。

技术实现思路

[0004]本申请的目的在于提供一种多维文本数据分类方法、训练方法和装置,本申请的多维文本数据分类方法、训练方法和装置适用于小样本数据,并可以基于关键词高效分类。
[0005]本申请公开了一种多维文本数据分类训练方法,包括:
[0006]将多维文本数据分为非结构化数据和结构化数据;
[0007]对所述非结构化数据进行合并与分词;
[0008]根据分词结果使用TF

IDF生成每个类别的类关键词列表;
[0009]对所述类关键词列表进行优化,得到最优化的类关键词列表;
[0010]基于所述最优化的类关键词列表对所述非结构化数据进行分类,获输出向量S=<s1,s2,...,sk>,其中k为类别数,si的值与所述非结构化数据属于第i种类别的概率相关,i的范围是1至k;
[0011]从所述结构化数据提取结构数据特征向量;/>[0012]将所述向量S与所述结构数据特征向量拼接后作为训练样本,对分类器进行训练;
[0013]其中,通过重复执行以下步骤实现对所述类关键词列表进行优化:
[0014]基于所述类关键词列表对所述非结构化数据进行分类;
[0015]评估分类性能,并根据分类性能的评估结果对所述类关键词列表中的类关键词权重进行优选。
[0016]在一个优选例中,所述根据分词结果使用TF

IDF生成每个类别的类关键词列表,进一步包括:
[0017]按照分类的类别将语料进行分组;
[0018]使用TF

IDF对所有类别中的词进行统计,找到每个类别中的TF

IDF分值最高的前J个词作为该类别的类关键词列表,J为大于1的整数。
[0019]在一个优选例中,所述基于所述类关键词列表对所述非结构化数据进行分类,进一步包括;
[0020]统计输入的所述非结构化数据中各个关键词适配各种类别的命中次数;以命中次
数最多的类别作为所述非结构化数据的类别。
[0021]在一个优选例中,所述评估分类性能,并根据分类性能的评估结果对所述类关键词列表中的类关键词权重进行优选,进一步包括:
[0022]依次对每个关键词加重或减少权重后评估对分类准确性的影响,直到获得最优化的类关键词列表,所述最优化的类关键词列表包括类关键词及对应最优权重。
[0023]本申请还公开了一种多维文本数据分类方法包括:
[0024]将输入的多维文本数据分为非结构化数据和结构化数据;
[0025]对所述非结构化数据进行合并与分词;
[0026]基于各类别所对应的最优化关键词列表对所述非结构化数据进行分类并输出向量S=<s1,s2,...,sk>,其中k为类别数,si的值与所述非结构化数据属于第i种类别的概率相关,i的范围是1至k;
[0027]从所述结构化数据提取结构数据特征向量;
[0028]根据所述向量S和所述结构数据特征向量进行分类。
[0029]在一个优选例中,所述根据所述向量S和所述结构数据特征向量进行分类,进一步包括:
[0030]当所述多维文本数据仅有非结构化部分时,取向量S中数值最大的类别作为分类结果。
[0031]在一个优选例中,所述根据所述向量S和所述结构数据特征向量进行分类,进一步包括:
[0032]当数据包括结构化数据和非结构化数据时,将所述向量S与所述结构数据特征向量拼接后输入训练好的分类器,得到分类结果。
[0033]本申请还公开了一种多维文本数据分类训练装置包括:
[0034]存储器,用于存储计算机可执行指令;以及,
[0035]处理器,与所述存储器耦合,用于在执行所述计算机可执行指令时实现如前文描述的方法中的步骤。
[0036]本申请还公开了一种多维文本数据分类装置包括:
[0037]存储器,用于存储计算机可执行指令;以及,
[0038]处理器,与所述存储器耦合,用于在执行所述计算机可执行指令时实现如前文描述的方法中的步骤。
[0039]本申请还公开了一种计算机可读存储介质所述计算机可读存储介质中存储有计算机可执行指令,所述计算机可执行指令被处理器执行时实现如前文描述的方法中的步骤。
[0040]本申请的多维文本数据分类方法、训练方法和装置具有如下技术效果:
[0041](1)适用于小样本数据,可基于关键词提取对文本高效分类;
[0042](2)对每个类别对应的关键词表中的关键词进行重要性评估的方法,并基于重要性对该词汇进行加权,以提高文本分类准确性;
[0043](3)适用于非结构化与结构化信息共存的文本。
[0044]本申请的说明书中记载了大量的技术特征,分布在各个技术方案中,如果要罗列出本申请所有可能的技术特征的组合(即技术方案)的话,会使得说明书过于冗长。为了避
免这个问题,本申请上述
技术实现思路
中公开的各个技术特征、在下文各个实施方式和例子中公开的各技术特征、以及附图中公开的各个技术特征,都可以自由地互相组合,从而构成各种新的技术方案(这些技术方案均应该视为在本说明书中已经记载),除非这种技术特征的组合在技术上是不可行的。例如,在一个例子中公开了特征A+B+C,在另一个例子中公开了特征A+B+D+E,而特征C和D是起到相同作用的等同技术手段,技术上只要择一使用即可,不可能同时采用,特征E技术上可以与特征C相组合,则,A+B+C+D的方案因技术不可行而应当不被视为已经记载,而A+B+C+E的方案应当视为已经被记载。
附图说明
[0045]图1是根据本申请第一实施方式的多维文本数据分类训练方法的流程示意图;
[0046]图2是根据本申请第二实施方式的多维文本数据分类方法的流程示意图。
具体实施方式
[0047]在以下的叙述中,为了使读者更好地理解本申请而提出了许多技术细节。但是,本领域的普通技术人员可以理解,即使没有这些技术细节和基于以下各实施方式的种种变化和修改,也可以实现本申请所要求保护的技术方案。
[0048]为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请的实施方式作进一步地详细描述。
[0049]本申请的第一实施方式涉及一种多维文本数据分类本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种多维文本数据分类训练方法,其特征在于,包括:将多维文本数据分为非结构化数据和结构化数据;对所述非结构化数据进行合并与分词;根据分词结果使用TF

IDF生成每个类别的类关键词列表;对所述类关键词列表进行优化,得到最优化的类关键词列表;基于所述最优化的类关键词列表对所述非结构化数据进行分类,获输出向量S=<s1,s2,...,sk>,其中k为类别数,si的值与所述非结构化数据属于第i种类别的概率相关,i的范围是1至k;从所述结构化数据提取结构数据特征向量;将所述向量S与所述结构数据特征向量拼接后作为训练样本,对分类器进行训练;其中,通过重复执行以下步骤实现对所述类关键词列表进行优化:基于所述类关键词列表对所述非结构化数据进行分类;评估分类性能,并根据分类性能的评估结果对所述类关键词列表中的类关键词权重进行优选。2.如权利要求1所述的多维文本数据分类训练方法,其特征在于,所述根据分词结果使用TF

IDF生成每个类别的类关键词列表,进一步包括:按照分类的类别将语料进行分组;使用TF

IDF对所有类别中的词进行统计,找到每个类别中的TF

IDF分值最高的前J个词作为该类别的类关键词列表,J为大于1的整数。3.如权利要求1所述的多维文本数据分类训练方法,其特征在于,所述基于所述类关键词列表对所述非结构化数据进行分类,进一步包括;统计输入的所述非结构化数据中各个关键词适配各种类别的命中次数;以命中次数最多的类别作为所述非结构化数据的类别。4.如权利要求1所述的多维文本数据分类训练方法,其特征在于,所述评估分类性能,并根据分类性能的评估结果对所述类关键词列表中的类关键词权重进行优选,进一步包括:依次对每个关键词加重或...

【专利技术属性】
技术研发人员:王健
申请(专利权)人:上海弘玑信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1