一种数据分类方法、装置和电子设备制造方法及图纸

技术编号:31918219 阅读:16 留言:0更新日期:2022-01-15 13:00
本申请提供了一种数据分类方法、装置和电子设备,所述数据分类方法包括:获取第一待分类数据;将所述第一待分类数据与K个分类词表进行匹配,得到与所述K个分类词表一一对应的K个频次,其中,一个所述分类词表对应一个类别标签,所述分类词表包括至少一个关键词,所述K为大于1的整数;在所述K个频次中的最大频次与次大频次之间的差值小于或等于预设值的情况下,基于预设规则在所述K个分类词表对应的K个类别标签中确定所述第一待分类数据的类别标签。本申请技术方案至少可以解决现有的文本分类方法存在的分类准确性较差的问题。类方法存在的分类准确性较差的问题。类方法存在的分类准确性较差的问题。

【技术实现步骤摘要】
一种数据分类方法、装置和电子设备


[0001]本申请涉及自然语言处理领域,具体涉及一种数据分类方法、装置和电子设备。

技术介绍

[0002]在自然语言处理领域中,大量业务场景均涉及到需要对文本进行分类的问题,例如,在搜索引擎、问答系统、会话系统等场景均需要对文本进行分类。目前,在对文本进行分类时,主要是采用人工筛选关键词进行分类,然而,采用现有的分类方法存在分类的准确性较差的问题。

技术实现思路

[0003]本申请涉及一种数据分类方法、装置和电子设备,可以解决现有的文本分类方法存在的分类准确性较差的问题。
[0004]第一方面,本申请实施例提供了一种数据分类方法,包括:
[0005]获取第一待分类数据;
[0006]将所述第一待分类数据与K个分类词表进行匹配,得到与所述K个分类词表一一对应的K个频次,其中,一个所述分类词表对应一个类别标签,所述分类词表包括至少一个关键词,所述K为大于1的整数;
[0007]在所述K个频次中的最大频次与次大频次之间的差值小于或等于预设值的情况下,基于预设规则在所述K个分类词表对应的K个类别标签中确定所述第一待分类数据的类别标签。
[0008]第二方面,本申请实施例提供了一种数据分类装置,包括:
[0009]获取模块,用于获取第一待分类数据;
[0010]匹配模块,用于将所述第一待分类数据与K个分类词表进行匹配,得到与所述K个分类词表一一对应的K个频次,其中,一个所述分类词表对应一个类别标签,所述分类词表包括至少一个关键词,所述K为大于1的整数;
[0011]第一确定模块,用于在所述K个频次中的最大频次与次大频次之间的差值小于或等于预设值的情况下,基于预设规则在所述K个分类词表对应的K个类别标签中确定所述第一待分类数据的类别标签。
[0012]第三方面,本申请实施例还提供了一种电子设备,包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如上述第一方面所述的方法步骤。
[0013]第四方面,本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上述第一方面所述的方法步骤。
[0014]本申请实施例中,在将待分类数据分别与K个分类词表进行匹配,得到与K个分类词表一一对应的K个频次之后,进一步通过确定最大频次与次大频次之间的差值来确定待
分类数据的类别,当所述差值小于或等于所述预设值的情况下,则说明在此情况下,基于分类词表对待分类数据进行分类的分类效果较差,因此,进一步基于预设规则对待分类数据进行分类,以提高对文本分类的准确性。
附图说明
[0015]为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0016]图1是本申请实施例提供的数据分类方法的流程图;
[0017]图2是本申请实施例中生成K个关键词集合的流程图;
[0018]图3是本申请实施例中生成分类词表过程的流程图;
[0019]图4是本申请实施例中进行文本分类过程的流程图;
[0020]图5是本申请实施例提供的数据分类装置的结构示意图之一;
[0021]图6是本申请实施例提供的数据分类装置的结构示意图之二。
具体实施方式
[0022]下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
[0023]相关技术中,在对文本进行分类时,主要是采用人工筛选关键词的方式进行分类。而当待分类数据为长文本数据,且存在多个待定类别时,采用人工筛选关键词的方式需要耗费大量人力物力,且在此情况下,可能出现遗漏部分关键词,或者,将部分关键词划分至错误的类别下等现象,进而可能导致分类效率低、分类的准确性低等问题。
[0024]基于此,本申请实施例中,通过构建K个分类词表,以实现自动匹配待分类数据中的关键词,从而提高分类效率和关键词匹配的准确性。同时,在基于分类词表对待分类数据中的关键词匹配,得到K个频次之后,进一步基于最大频次与次大频次之间的差值,确定基于分类词表匹配的方式进行标签分类的效果,在分类效果较好的情况下,将基于分类词表匹配的方式确定的标签作为待分类数据的类别标签,在分类效果较差的情况下,进一步基于预设规则在K个类别标签中确定待分类数据的类别标签,以进一步提高文本分类的准确性。
[0025]请参见图1,为本申请实施例提供的一种数据分类方法的流程图,所述方法包括:
[0026]步骤101、获取第一待分类数据;
[0027]步骤102、将所述第一待分类数据与K个分类词表进行匹配,得到与所述K个分类词表对应的K个频次,其中,一个所述分类词表对应一个类别标签,所述分类词表包括至少一个关键词,所述K为大于1的整数;
[0028]步骤103、在所述K个频次中的最大频次与次大频次之间的差值小于或等于预设值的情况下,基于预设规则在所述K个分类词表对应的K个类别标签中确定所述第一待分类数
据的类别标签。
[0029]其中,上述K个分类词表可以理解为预先构建的字典库。在某一特定应用场景下,可以预先确定K个类别标签,然后,通过获取大量待分类数据,从待分类数据中挖掘大量关键词,并将所挖掘得到的关键词分别划分至对应类别标签对应的分类词表内,从而完成分别词表的构建过程。例如,在金融领域,K个类别标签可以包括:“投资理财”、“信用贷款”、“金融诈骗”等类别标签。
[0030]上述第一待分类数据与所述分类词表分别为相同场景下的数据,例如,可以均为上述金融领域中的数据。
[0031]上述将所述第一待分类数据与K个分类词表进行匹配,可以是指:将所述K个分类词表中的每个关键词与第一待分类数据进行匹配,以确定每个关键词在第一待分类数据中出现的次数,从而得到与所述K个分类词表一一对应的K个频次,其中,一个分类词表对应一个频次,任意一个分类词表对应的频次为该分类词表中所有关键词在第一待分类数据中出现的次数之和。
[0032]可以理解的是,上述分类词表中的关键词可以用于判别对应的待分类数据是否属于所对应的分类标签,当某一待分类数据包括某一分类词表中的关键词的数量和种类越多时,该待分类数据属于该分类词表对应的类别标签的概率越大。相应地,当某一待分类数据不包括某一分类词表中的任意一个关键词时,则该待分类数据很可能不属于该分类词表对应的类别标签。
[0033]本申请实施例中,在得到上述K个频次之后,可以确定频次越大,频次对应的类别本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据分类方法,其特征在于,包括:获取第一待分类数据;将所述第一待分类数据与K个分类词表进行匹配,得到与所述K个分类词表对应的K个频次,其中,一个所述分类词表对应一个类别标签,所述分类词表包括至少一个关键词,所述K为大于1的整数;在所述K个频次中的最大频次与次大频次之间的差值小于或等于预设值的情况下,基于预设规则在所述K个分类词表对应的K个类别标签中确定所述第一待分类数据的类别标签。2.根据权利要求1所述的方法,其特征在于,所述基于预设规则在所述K个分类词表对应的K个类别标签中确定所述第一待分类数据的类别标签,包括:计算所述第一待分类数据与每个所述分类词表之间的相似度;将所述K个分类词表中,与所述第一待分类数据的相似度最高的分类词表所对应的类别标签,确定为所述第一待分类数据的类别标签。3.根据权利要求2所述的方法,其特征在于,所述计算所述第一待分类数据与每个所述分类词表之间的相似度,包括:确定所述第一待分类数据的第一文本向量,以及,确定与所述K个分类词表对应的K个第二文本向量,其中,所述第二文本向量为所述第二文本向量对应的分类词表中所有关键词的文本向量的平均值;基于所述第一文本向量与每个所述第二文本向量之间的向量距离,确定所述第一待分类数据与每个所述分类词表之间的相似度。4.根据权利要求1所述的方法,其特征在于,所述分类词表的构建方法包括:获取待分类数据集,所述待分类数据集包括至少两条第二待分类数据;对所述待分类数据集中的第二待分类数据进行聚类处理,得到与每个所述类别标签对应的第二待分类数据;基于每个类别标签对应的第二待分类数据,确定每个类别标签对应的分类词表。5.根据权利要求4所述的方法,其特征在于,所述基于每个类别标签对应的第二待分类数据,确定每个类别标签对应的分类词表,包括:在目标标签对应的第二待分类数据中,确定与所述目标标签相似度较高的前n条第二待分类数据,所述目标标签为所述K个类别标签中的任意类别标签,所述n为大于零的整数;对所述n条第二待分类数据进行分词处理,得到与所述目标标签对应的关键词集合;基于所述关键词集合,生成所述目标标签对应的分类词表。6.根据权利要求5所述的方法,其特征在于,所述基于所述关键词集合...

【专利技术属性】
技术研发人员:李长林蒋宁王洪斌吴海英权佳成曹磊
申请(专利权)人:马上消费金融股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1