一种文本分类方法、装置、电子设备及存储介质制造方法及图纸

技术编号:34956631 阅读:11 留言:0更新日期:2022-09-17 12:35
本申请公开了一种文本分类方法、装置、电子设备及存储介质,可应用于地图领域,涉及自然语言处理技术领域。该方法为:基于对短文本训练集进行词汇挖掘处理所获得的候选词汇集,进行词汇重组处理,获得词汇组合集,对词汇组合集进行文本表达式挖掘处理,获得初始文本表达式集;分别对初始文本表达式集包含的各初始文本表达式进行语法解析,获得相应的词汇索引序列;从初始文本表达式集中,分别筛选出与短文本训练集中的多个短文本匹配的目标文本表达式,将各目标文本表达式关联的词汇索引序列和短文本对应的分类标识设置为一个分类组;基于获得的各分类组,获得目标分类规则库。这样,可以用目标分类规则库对待分类短文本快速分类,提高分类效率。提高分类效率。提高分类效率。

【技术实现步骤摘要】
一种文本分类方法、装置、电子设备及存储介质


[0001]本申请涉及自然语言处理
,尤其涉及一种文本分类方法、装置、电子设备及存储介质。

技术介绍

[0002]随着人工智能和计算机技术的发展,越来越多的对象选择在互联网上通过文本进行信息的表达和传递,从而涉及到文本处理的场景越来越多,例如、基于短文本在电子地图中搜索位置、基于文本在视频软件中搜索视频等。
[0003]目前,一般使用基于双向编码器语言表征模型(Bidirectional Encoder Representation from Transformers,BERT)各种变形所确定的深度学习模型,进行短文本分类处理。
[0004]然而,深度学习模型虽然泛化性能比较好,但是深度学习模型需要依赖大量高质量标注数据以及预先训练的模型,这样,当前述大量高质量标注数据中并未包括新类别的短文本标注数据时,会导致对新类别的短文本的分类准确性较差,以及,当希望提高对新类别的短文本的分类准确性时,需要重新进行标注以及确定新的预训练模型,从而导致整个分类过程较为繁琐,进而导致对短文本的分类效率较低。
[0005]并且,由于深度学习模型的训练过程属于黑盒模型,因此,当训练对象希望对深度学习模型中的某一个分类规则进行调整时,无法精准对该分类规则进行调整,从而导致对该分类规则对应的短文本的分类准确性较低。
[0006]显然,相关技术下进行短文本分类时,存在对短文本进行分类效率较低且准确率较低的技术问题。

技术实现思路

[0007]本申请实施例中提供了一种文本分类方法、装置、电子设备及存储介质,用于提高对短文本分类的效率和准确性。
[0008]一方面,提供一种文本分类方法,所述方法包括:
[0009]基于对短文本训练集进行词汇挖掘处理所获得的候选词汇集,进行词汇重组处理,获得词汇组合集,并对所述词汇组合集进行文本表达式挖掘处理,获得初始文本表达式集;
[0010]分别对所述初始文本表达式集包含的各初始文本表达式进行语法解析,获得相应的词汇索引序列;每个词汇索引序列包括至少一个词汇在相应的初始文本表达式中的索引位置;
[0011]从所述初始文本表达式集中,分别筛选出与所述短文本训练集中的多个短文本匹配的目标文本表达式,以及将各目标文本表达式关联的词汇索引序列和短文本对应的分类标识设置为一个分类组;
[0012]基于获得的各分类组,获得目标分类规则库,所述目标分类规则库用于对待分类
短文本进行分类。
[0013]一方面,提供一种文本分类装置,所述装置包括:
[0014]处理单元,用于基于对短文本训练集进行词汇挖掘处理所获得的候选词汇集,进行词汇重组处理,获得词汇组合集,并对所述词汇组合集进行文本表达式挖掘处理,获得初始文本表达式集;
[0015]解析单元,用于分别对所述初始文本表达式集包含的各初始文本表达式进行语法解析,获得相应的词汇索引序列;每个词汇索引序列包括至少一个词汇在相应的初始文本表达式中的索引位置;
[0016]筛选单元,用于从所述初始文本表达式集中,分别筛选出与所述短文本训练集中的多个短文本匹配的目标文本表达式,以及将各目标文本表达式关联的词汇索引序列和短文本对应的分类标识设置为一个分类组;
[0017]获得单元,用于基于获得的各分类组,获得目标分类规则库,所述目标分类规则库用于对待分类短文本进行分类。
[0018]可选的,所述装置还包括挖掘单元,用于:
[0019]对所述短文本训练集进行词汇挖掘处理,获得至少一个字符词汇组;每个字符词汇组包括多个字符个数相同的词汇,且归属不同字符词汇组的词汇包含的字符个数不同;
[0020]基于各字符词汇组对应的词汇评估值,对所述至少一个字符词汇组进行筛选,获得至少一个第一词汇组;每个词汇评估值是基于相应的字符词汇组在所述多个短文本中的出现频率,以及与其它字符词汇组的组合频率确定的;
[0021]从所述至少一个第一词汇组中,选取出在所述多个短文本中的词汇词频,符合第一阈值的候选词汇,并基于获得的各候选词汇,获得所述候选词汇集。
[0022]可选的,所述挖掘单元还用于:
[0023]分别针对每个所述字符词汇组执行以下操作:
[0024]从对一个字符词汇组进行拆分处理,获得的至少两个子词汇组各自对应的第一评估值中,选取出符合第一筛选条件的第一目标评估值;其中,每个第一评估值表征相应的子词汇组在所述多个短文本中的出现频率;
[0025]从对所述一个字符词汇组进行联想处理,获得的至少两个联想词汇各自对应的第二评估值中,选取出符合第二筛选条件的第二目标评估值;其中,每个第二评估值表征相应的联想词汇在所述多个短文本中的出现频率;
[0026]基于所述第一目标评估值和所述第二目标评估值,确定所述一个字符词汇组的词汇评估值。
[0027]可选的,所述挖掘单元,还用于:
[0028]基于所述一个字符词汇组包含的词汇个数,确定至少一种拆分方式,每种拆分方式用于将所述一个字符词汇组拆分为至少两个子词汇组;
[0029]分别按照所述至少一种拆分方式,将所述一个字符词汇组拆分为相应的至少两个子词汇组。
[0030]可选的,所述挖掘单元还用于:
[0031]分别确定所述一个字符词汇组包含的各个词汇,各自对应的以其为后缀的至少一个联想词汇;
[0032]分别确定所述一个字符词汇组包含的各个词汇,各自对应的以其为前缀的至少一个联想词汇。
[0033]可选的,所述处理单元,用于:
[0034]基于所述候选词汇集,构建目标词典树;所述目标词典树的根节点为空,除根节点外的每个叶节点均包含一个词汇;
[0035]针对每个叶节点执行以下操作:
[0036]分别获得一个叶节点,与各个其他叶节点之间的第一路径;每个第一路径包括:以所述一个叶节点包含的词汇作为起始词汇,以及以相应的其他叶节点包含的词汇作为结束词汇,所组成的词汇组合;
[0037]基于获得的各词汇组合,获得词汇组合集。
[0038]可选的,所述处理单元还用于:
[0039]从所述词汇组合集中多个词汇组合各自对应的出现频率中,选取符合第二阈值的出现频率所对应的候选词汇组合;其中,每个出现频率,基于相应词汇组合在所述多个短文本中的出现的次数,以及所述多个短文本的数量确定的;
[0040]分别将每个所述候选词汇组合中的词汇与其他候选词汇组合中的词汇,按照预设排列规则以至少一个语法符号连接,获得多个第一初始文本表达式;
[0041]将每个所述第一初始文本表达式,与预设文本表达式库进行匹配,获得相应的包含第一初始文本表达式的第二初始文本表达式;
[0042]基于获得的各第一初始文本表达式和第二初始文本表达式,获得初始文本表达式集。
[0043]可选的,所述解析单元,用于:
[0044]将所述初始文本表达式集包含的各初本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本分类方法,其特征在于,所述方法包括:基于对短文本训练集进行词汇挖掘处理所获得的候选词汇集,进行词汇重组处理,获得词汇组合集,并对所述词汇组合集进行文本表达式挖掘处理,获得初始文本表达式集;分别对所述初始文本表达式集包含的各初始文本表达式进行语法解析,获得相应的词汇索引序列;每个词汇索引序列包括至少一个词汇在相应的初始文本表达式中的索引位置;从所述初始文本表达式集中,分别筛选出与所述短文本训练集中的多个短文本匹配的目标文本表达式,以及将各目标文本表达式关联的词汇索引序列和短文本对应的分类标识设置为一个分类组;基于获得的各分类组,获得目标分类规则库,所述目标分类规则库用于对待分类短文本进行分类。2.如权利要求1所述的方法,其特征在于,所述基于对短文本训练集进行词汇挖掘处理所获得的候选词汇集,进行词汇重组处理之前,还包括:对所述短文本训练集进行词汇挖掘处理,获得至少一个字符词汇组;每个字符词汇组包括多个字符个数相同的词汇,且归属不同字符词汇组的词汇包含的字符个数不同;基于各字符词汇组对应的词汇评估值,对所述至少一个字符词汇组进行筛选,获得至少一个第一词汇组;每个词汇评估值是基于相应的字符词汇组在所述多个短文本中的出现频率,以及与其它字符词汇组的组合频率确定的;从所述至少一个第一词汇组中,选取出在所述多个短文本中的词汇词频,符合第一阈值的候选词汇,并基于获得的各候选词汇,获得所述候选词汇集。3.如权利要求2所述的方法,其特征在于,所述基于各字符词汇组对应的词汇评估值,对所述至少一个字符词汇组进行筛选处理之前,还包括:分别针对每个所述字符词汇组执行以下操作:从对一个字符词汇组进行拆分处理,获得的至少两个子词汇组各自对应的第一评估值中,选取出符合第一筛选条件的第一目标评估值;其中,每个第一评估值表征相应的子词汇组在所述多个短文本中的出现频率;从对所述一个字符词汇组进行联想处理,获得的至少两个联想词汇各自对应的第二评估值中,选取出符合第二筛选条件的第二目标评估值;其中,每个第二评估值表征相应的联想词汇在所述多个短文本中的出现频率;基于所述第一目标评估值和所述第二目标评估值,确定所述一个字符词汇组的词汇评估值。4.如权利要求3所述的方法,其特征在于,所述对一个字符词汇组进行拆分处理,包括:基于所述一个字符词汇组包含的词汇个数,确定至少一种拆分方式,每种拆分方式用于将所述一个字符词汇组拆分为至少两个子词汇组;分别按照所述至少一种拆分方式,将所述一个字符词汇组拆分为相应的至少两个子词汇组。5.如权利要求3所述的方法,其特征在于,所述对所述一个字符词汇组进行联想处理,包括以下操作中的至少一种:分别确定所述一个字符词汇组包含的各个词汇,各自对应的以其为后缀的至少一个联
想词汇;分别确定所述一个字符词汇组包含的各个词汇,各自对应的以其为前缀的至少一个联想词汇。6.如权利要求1或2所述的方法,其特征在于,所述基于对短文本训练集进行词汇挖掘处理所获得的候选词汇集,进行词汇重组处理,获得词汇组合集,包括:基于所述候选词汇集,构建目标词典树;所述目标词典树的根节点为空,除根节点外的每个叶节点均包含一个词汇;针对每个叶节点执行以下操作:分别获得一个叶节点,与各个其他叶节点之间的第一路径;每个第一路径包括:以所述一个叶节点包含的词汇作为起始词汇,以及以相应的其他叶节点包含的词汇作为结束词汇,所组成的词汇组合;基于获得的各词汇组合,获得词汇组合集。7.如权利要求6所述的方法,其特征在于,所述对所述词汇组合集进行文本表达式挖掘处理,获得初始文本表达式集,包括:从所述词汇组合集中多个词汇组合各自对应的出现频率中,选取符合第二阈值的出现频率所对应的候选词汇...

【专利技术属性】
技术研发人员:解春欣张金晶吴荣强
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1