文本类别的识别方法和装置、存储介质及电子装置制造方法及图纸

技术编号:33395486 阅读:16 留言:0更新日期:2022-05-11 23:15
本申请公开了一种文本类别的识别方法和装置、存储介质及电子装置,其中,上述方法包括:获取待识别文本的至少一个文本关键词;根据至少一个文本关键词中的每个文本关键词与多个类别中的每个类别对应的权重值,确定与每个类别对应的类别权重;将与每个类别对应的类别权重中最大的类别权重所对应的类别,确定为候选类别;在与候选类别对应的类别权重大于或者等于目标阈值的情况下,将候选类别确定为与待识别文本对应的类别。通过本申请,解决了相关技术中的文本类别的识别方法存在由于需要结合上下文实现对语义的理解导致对于短文本识别的准确性低的问题。识别的准确性低的问题。识别的准确性低的问题。

【技术实现步骤摘要】
文本类别的识别方法和装置、存储介质及电子装置


[0001]本申请涉及互联网领域,具体而言,涉及一种文本类别的识别方法和装置、存储介质及电子装置。

技术介绍

[0002]目前,可以使用用于识别文本类别的神经网络进行文本分类,通过神经网络捕获上下文的语义逻辑,转变成时序序列,进而基于时序识别结合上下文实现对语义的理解,确定文本的类别。
[0003]然而,上述识别文本类别的方式,由于需要结合上下文实现对语义的理解,因此对于训练样本的文本长度和样本量均有较高的要求。对于识别短文本类别的场景,例如,按照公司名称识别公司所属的行业类别,由于文本信息量较少,很难结合上下文实现对语义的理解,因此,文本识别的准确性低。
[0004]由此可见,相关技术中的文本类别的识别方法,存在由于需要结合上下文实现对语义的理解导致对于短文本识别的准确性低的问题。

技术实现思路

[0005]本申请实施例提供了一种文本类别的识别方法和装置、存储介质及电子装置,以至少解决相关技术中的文本类别的识别方法存在由于需要结合上下文实现对语义的理解导致对于短文本识别的准确性低的问题。
[0006]根据本申请实施例的一个方面,提供了一种文本类别的识别方法,包括:获取待识别文本的至少一个文本关键词;根据所述至少一个文本关键词中的每个文本关键词与多个类别中的每个类别对应的权重值,确定与所述每个类别对应的类别权重;将与所述每个类别对应的类别权重中最大的类别权重所对应的类别,确定为候选类别;在与所述候选类别对应的类别权重大于或者等于目标阈值的情况下,将所述候选类别确定为与所述待识别文本对应的类别。
[0007]根据本申请实施例的另一个方面,还提供了一种文本类别的识别装置,包括:获取单元,用于获取待识别文本的至少一个文本关键词;第一确定单元,用于根据所述至少一个文本关键词中的每个文本关键词与多个类别中的每个类别对应的权重值,确定与所述每个类别对应的类别权重;第二确定单元,用于将与所述每个类别对应的类别权重中最大的类别权重所对应的类别,确定为候选类别;第三确定单元,用于在与所述候选类别对应的类别权重大于或者等于目标阈值的情况下,将所述候选类别确定为与所述待识别文本对应的类别。
[0008]在一个示例性实施例中,所述装置还包括:提取单元,用于在所述获取待识别文本的至少一个文本关键词之前,按照目标词典中的多个参考关键词,从所述待识别文本中提取出所述至少一个文本关键词,其中,所述多个参考关键词中的每个参考关键词与所述多个类别中的至少一个类别对应的权重值不为零。
[0009]在一个示例性实施例中,所述装置还包括:执行单元,用于在所述按照目标词典中的多个参考关键词,从所述待识别文本中提取出所述至少一个文本关键词之前,对所述待识别文本执行过滤操作,得到过滤后的所述待识别文本,其中,所述过滤操作用于过滤所述待识别文本中以下之一的信息:异常值信息,预定字符,无效文本信息,所述无效文本信息为在所述多个类别中,对应的权重值均为零的文本信息。
[0010]在一个示例性实施例中,所述执行单元包括:提取模块,用于按照所述多个参考关键词,从所述待识别文本中提取出至少一个候选关键词;移除模块,用于在所述至少一个候选关键词中包含具有重叠部分的关键词的情况下,移除所述具有重叠部分的关键词中,除了包含最多文本的关键词以外的其他关键词。
[0011]在一个示例性实施例中,所述装置还包括:第一提示单元,用于在所述按照目标词典中的多个参考关键词,从所述待识别文本中提取出所述至少一个文本关键词之后,在所述待识别文本包含除了所述至少一个文本关键词以外的其他文本信息的情况下,向第一设备发送第一提示信息,其中,所述第一提示信息用于提示所述待识别文本中存在异常文本信息。
[0012]在一个示例性实施例中,所述装置还包括:第一分词单元,用于在所述获取待识别文本的至少一个文本关键词之前,按照所述多个参考关键词,对已标注文本集中的每个已标注文本进行分词处理,得到所述每个已标注文本包含的参考关键词,其中,所述已标注文本为已标注对应类别的文本;第四确定单元,用于根据所述每个参考关键词在所述每个类别的已标注文本中出现的次数、以及所述每个类别的已标注文本中包含所述每个参考关键词的已标注文本的总数量,确定所述每个参考关键词与所述每个类别对应的词频;第五确定单元,用于根据所述已标注文本集中包含所述每个参考关键词的已标注文本的数量、以及所述已标注文本集中包含的已标注文本的总数量,确定与所述每个参考关键词对应的逆向文档频率;第六确定单元,用于根据所述每个参考关键词与所述每个类别对应的词频、以及与所述每个参考关键词对应的逆向文档频率,确定所述每个参考关键词与所述每个类别对应的权重值。
[0013]在一个示例性实施例中,所述装置还包括:更新单元,用于在所述按照所述多个参考关键词,对已标注文本集中的每个已标注文本进行分词处理,得到所述每个已标注文本包含的参考关键词之后,在所述已标注文本集中的目标已标注文本中存在异常分词的情况下,更新所述多个参考关键词;第二分词单元,用于按照更新后的所述多个参考关键词,对所述每个已标注文本重新进行分词处理,得到所述每个已标注文本所包含的参考关键词。
[0014]在一个示例性实施例中,所述获取单元包括:确定模块,用于在所述至少一个文本关键词包含一个文本关键词的情况下,将所述一个文本关键词与所述每个类别对应的权重值,确定为与所述每个类别对应的类别权重;求和模块,用于在所述至少一个文本关键词包含多个文本关键词的情况下,对所述每个文本关键词与所述每个类别对应的权重值进行求和操作,得到与所述每个类别对应的类别权重。
[0015]在一个示例性实施例中,所述装置还包括:第二提示单元,用于在所述将与所述每个类别对应的类别权重中最大的类别权重所对应的类别,确定为候选类别之后,在与所述候选类别对应的类别权重小于目标阈值的情况下,向第二设备发送第二提示信息,其中,所述第二提示信息用于提示未识别出所述待识别文本的类别。
[0016]根据本申请实施例的又一方面,还提供了一种计算机可读的存储介质,该计算机可读的存储介质中存储有计算机程序,其中,该计算机程序被设置为运行时执行上述文本类别的识别方法。
[0017]根据本申请实施例的又一方面,还提供了一种电子装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,上述处理器通过计算机程序执行上述的文本类别的识别方法。
[0018]在本申请实施例中,采用根据文本关键词在不同类别的权重确定文本所属类别的方式,获取待识别文本的至少一个文本关键词;根据至少一个文本关键词中的每个文本关键词与多个类别中的每个类别对应的权重值,确定与每个类别对应的类别权重;将与每个类别对应的类别权重中最大的类别权重所对应的类别,确定为候选类别;在与候选类别对应的类别权重大于或者等于目标阈值的情况下,将候选类别确定为与待识别文本对应的类别,由于通过为不同的文本关键词设置与不同类别对应的权重值,可以基于文本包含的文本关本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本类别的识别方法,其特征在于,包括:获取待识别文本的至少一个文本关键词;根据所述至少一个文本关键词中的每个文本关键词与多个类别中的每个类别对应的权重值,确定与所述每个类别对应的类别权重;将与所述每个类别对应的类别权重中最大的类别权重所对应的类别,确定为候选类别;在与所述候选类别对应的类别权重大于或者等于目标阈值的情况下,将所述候选类别确定为与所述待识别文本对应的类别。2.根据权利要求1所述的方法,其特征在于,在所述获取待识别文本的至少一个文本关键词之前,所述方法还包括:按照目标词典中的多个参考关键词,从所述待识别文本中提取出所述至少一个文本关键词,其中,所述多个参考关键词中的每个参考关键词与所述多个类别中的至少一个类别对应的权重值不为零。3.根据权利要求2所述的方法,其特征在于,在所述按照目标词典中的多个参考关键词,从所述待识别文本中提取出所述至少一个文本关键词之前,所述方法还包括:对所述待识别文本执行过滤操作,得到过滤后的所述待识别文本,其中,所述过滤操作用于过滤所述待识别文本中以下之一的信息:异常值信息,预定字符,无效文本信息,所述无效文本信息为在所述多个类别中,对应的权重值均为零的文本信息。4.根据权利要求2所述的方法,其特征在于,所述按照目标词典中的多个参考关键词,从所述待识别文本中提取出所述至少一个文本关键词,包括:按照所述多个参考关键词,从所述待识别文本中提取出至少一个候选关键词;在所述至少一个候选关键词中包含具有重叠部分的关键词的情况下,移除所述具有重叠部分的关键词中,除了包含最多文本的关键词以外的其他关键词。5.根据权利要求2所述的方法,其特征在于,在所述按照目标词典中的多个参考关键词,从所述待识别文本中提取出所述至少一个文本关键词之后,所述方法还包括:在所述待识别文本包含除了所述至少一个文本关键词以外的其他文本信息的情况下,向第一设备发送第一提示信息,其中,所述第一提示信息用于提示所述待识别文本中存在异常文本信息。6.根据权利要求2所述的方法,其特征在于,在所述获取待识别文本的至少一个文本关键词之前,所述方法还包括:按照所述多个参考关键词,对已标注文本集中的每个已标注文本进行分词处理,得到所述每个已标注文本包含的参考关键词,其中,所述已标注文本为已标注对应类别的文本;根据所述每个参考关键词在所述每个类别的已标注文本中出现的次数、以及所述每个类别的已标注文本中包含所述每个参考关键词的已标注文本的总数量,确定所述每个参考关键词与所述每个类别对应的词频;根据所述已标注文本集中包含所述每个参考关键...

【专利技术属性】
技术研发人员:王广敏
申请(专利权)人:兴业消费金融股份公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1