【技术实现步骤摘要】
词典扩充方法及装置、电子设备、存储介质
本公开涉及人工智能
,具体涉及一种词典扩充方法及装置、电子设备、计算机可读存储介质。
技术介绍
随着人工智能技术的发展,依赖人工智能技术进行文本分类的应用场景越来越普遍。其中,在文本分类的应用中,存在根据设定的词典来对文本进行分类的情况,具体而言,即从文本中提取关键词,根据关键词在词典中所对应的分类类别来对应确定文本所归属的分类类别。在此种应用中,文本分类的实现基于所构建作为文本分类依据的词典。现有技术中,词典的构建是人工在海量的文本素材中进行词组选取并对词组进行标签标注,所标注的标签即为词组所对应的分类类别,然后将所选取的词组以及对应的分类类别进行存储,实现词典的构建。而人工构建词典一方面工作量大,另一方面速率慢。因而,亟待一种解决现有技术中词典构建工作量大且速率慢的问题的方法。
技术实现思路
为了解决现有技术对词典构建工作量大和速率慢的问题,本公开的实施例提供了一种词典扩充方法及装置、电子设备、计算机可读存储介质,以实现自动进行词典扩充。其 ...
【技术保护点】
1.一种词典扩充方法,其特征在于,所述词典对应于文本分类模型,所述文本分类模型根据所述词典进行文本分类,所述方法包括:/n获取为所述文本分类模型所采集的若干样本文本,以及获取为所述样本文本所标注的标签数据,所述标签数据指示所述样本文本在所设定分类维度上所归属的分类类别;/n对于根据所述样本文本所获得的候选词组,根据所述标签数据进行统计,获得在每一分类维度的各分类类别上包括所述候选词组的样本文本数量;/n根据所获得的所述样本文本数量,计算所述候选词组在每一分类维度的各分类类别上的卡方值;/n对于每一分类维度的各分类类别,根据所述卡方值进行词组筛选,筛选得到的候选词组作为将文本 ...
【技术特征摘要】
1.一种词典扩充方法,其特征在于,所述词典对应于文本分类模型,所述文本分类模型根据所述词典进行文本分类,所述方法包括:
获取为所述文本分类模型所采集的若干样本文本,以及获取为所述样本文本所标注的标签数据,所述标签数据指示所述样本文本在所设定分类维度上所归属的分类类别;
对于根据所述样本文本所获得的候选词组,根据所述标签数据进行统计,获得在每一分类维度的各分类类别上包括所述候选词组的样本文本数量;
根据所获得的所述样本文本数量,计算所述候选词组在每一分类维度的各分类类别上的卡方值;
对于每一分类维度的各分类类别,根据所述卡方值进行词组筛选,筛选得到的候选词组作为将文本分类至所述词组自身所对应分类维度下的分类类别的依据;
将筛选得到的所述候选词组和所对应分类维度下对应分类类别关联存储至所述词典中。
2.根据权利要求1所述的方法,其特征在于,所述对于根据所述样本文本所获得的候选词组,根据所述标签数据进行统计,获得在每一分类维度的各分类类别上包括所述候选词组的样本文本数量之前,所述方法还包括:
对所述样本文本进行分词,获得由若干词构成的词序列;
对每一所述样本文本所对应词序列中的词进行组合,获得若干短语;
根据所述词和所述短语生成候选词组集合,所述候选词组集合中的词和短语作为所述候选词组。
3.根据权利要求1所述的方法,其特征在于,所述根据所获得的所述样本文本数量,计算所述候选词组在每一分类维度的各分类类别上的卡方值,包括:
为进行卡方值计算,将每一分类维度的每一分类类别分别作为目标维度和目标类别,以及将每一候选词组分别作为目标词组;
根据所述样本文本数量,在所述目标维度上的分类类别为目标类别和在所述目标维度上的分类类别不是目标类别这两个维度上,分别统计得到包含所述目标词组的样本文本的第一实际数量和不包含所述目标词组的样本文本的第二实际数量;
根据在所述两个维度上所分别统计得到的所述第一实际数量和所述第二实际数量计算所述目标词组在所述目标维度的所述目标类别上的卡方值。
4.根据权利要求3所述的方法,其特征在于,所述根据在所述两个维度上所分别统计得到的所述第一实际数量和所述第二实际数量计算所述目标词组在所述目标维度的所述目标类别上的卡方值,包括:
根据在所述两个维度上所分别统计得到的所述第一实际数量和所述第二实际数量,在所述两个维度上,分别计算得到包含所述目标词组的样本文本的第一理论数量和不包含所述目标词组的样本文本的第二理论数量;
根据所述目标词组在所述两个维度上分别对应的所述第一实际数量、第二实际数量、第一理论数量和第二理论数量,按照公式进行卡方值的计算:
其中χi2表示目标词组i的卡方值;
Ni、Pi...
【专利技术属性】
技术研发人员:郑立颖,徐亮,金戈,
申请(专利权)人:平安科技深圳有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。