文本分类方法和计算机设备技术

技术编号:21089821 阅读:19 留言:0更新日期:2019-05-11 10:03
本公开提供了一种文本分类方法,包括:获取待分类文本;基于所述待分类文本的全文本数据,获得第一分类结果;基于从所述全文本数据中提取的一个或多个子文本数据,获得第二分类结果;以及,根据所述第一分类结果和所述第二分类结果,确定所述待分类文本的分类结果。本公开还提供了一种计算机设备。

Text Classification Method and Computer Equipment

【技术实现步骤摘要】
文本分类方法和计算机设备
本公开涉及一种文本分类方法和计算机设备。
技术介绍
文本分类是在给定分类体系下,根据文本内容确定文本类别的过程。文本分类是自然语言处理的一个重要部分,具有广泛的应用,包括新闻分类、邮件分类、垃圾邮件识别、违规网页识别等。现有的文本分类方案基于文本的整体内容进行分类,由于文本的整体内容中存在大量与文本分类无关的干扰信息,可能导致文本分类的判别性特征湮没在干扰信息中,进而无法得到准确的分类结果。
技术实现思路
本公开的一个方面提供了一种文本分类方法,包括:获取待分类文本;基于所述待分类文本的全文本数据,获得第一分类结果;基于从所述全文本数据中提取的一个或多个子文本数据,获得第二分类结果;以及,根据所述第一分类结果和所述第二分类结果,确定所述待分类文本的分类结果。可选地,上述基于所述待分类文本的全文本数据,获得第一分类结果包括:将所述全文本数据输入对应于多个预置类别的全文本分类模型,基于所述全文本分类模型确定所述全文本数据关于所述多个预置类别中的各预置类别的第一得分,将第一得分最高的预置类别作为与所述全文本数据对应的类别。可选地,在上述基于从所述全文本数据中提取的一个或多个子文本数据,获得第二分类结果之前,上述方法还包括:从所述全文本数据中提取一个或多个子文本数据。上述从所述全文本数据中提取一个或多个子文本数据包括:利用预设关键词集合中的关键词与所述全文本数据进行匹配;对于匹配成功的第一关键词,从所述全文本数据中提取所述第一关键词之前的第一预设长度的字符串和/或所述第一关键词之后的第二预设长度的字符串;以及,将提取出的字符串和所述第一关键词按照在所述全文本数据中的位置顺序组合为一个子文本数据。可选地,上述基于从所述全文本数据中提取的一个或多个子文本数据,获得第二分类结果包括:对于第一子文本数据,将所述第一子文本数据输入对应于所述多个预置类别的子文本分类模型,基于所述子文本分类模型确定所述第一子文本数据关于所述多个预置类别中的各预置类别的第二得分;以及,基于所述一个或多个子文本数据中的各子文本数据关于各预置类别的第二得分计算所述一个或多个子文本数据关于各预置类别的第三得分,将第三得分最高的预置类别作为与所述一个或多个子文本数据对应的类别。可选地,上述基于所述一个或多个子文本数据中的各子文本数据关于各预置类别的第二得分计算一个或多个子文本数据关于各预置类别的第三得分包括:对于多个预置类别中的任一预置类别,将各子文本数据关于该预置类别的第二得分进行加权求和,得到所述一个或多个子文本数据关于该预置类别的第三得分。可选地,上述根据所述第一分类结果和所述第二分类结果,确定所述待分类文本的分类结果包括:根据所述全文本数据关于各预置类别的第一得分和所述一个或多个子文本数据关于各预置类别的第三得分,计算得到所述待分类文本关于各预置类别的综合得分,将综合得分最高的预置类别作为与所述待分类文本对应的类别。可选地,上述根据所述全文本数据关于各预置类别的第一得分和所述一个或多个子文本数据关于各预置类别的第三得分,计算得到所述待分类文本关于各预置类别的综合得分包括:设置与所述全文本数据对应的第一权重和与所述一个或多个子文本数据对应的第二权重;以及,对于所述多个预置类别中的任一预置类别,根据所述第一权重和所述第二权重,对所述全文本数据关于该预置类别的第一得分和所述一个或多个子文本数据关于该预置类别的第三得分进行加权求和,得到所述待分类文本关于该预置类别的综合得分。可选地,上述基于从所述全文本数据中提取的一个或多个子文本数据,获得第二分类结果包括:对于第一子文本数据,将所述第一子文本数据输入对应于所述多个预置类别的子文本分类模型,基于所述子文本分类模型确定所述第一子文本数据关于各预置类别的得分,将得分最高的预置类别作为与所述第一子文本数据对应的类别。当与所述一个或多个子文本中的各子文本数据对应的类别中存在第一类别时,确定与所述一个或多个子文本数据对应的类别为第一类别;以及,当与所述一个或多个子文本中的各子文本数据对应的类别均为第二类别时,确定与所述一个或多个子文本数据对应的类别为第二类别。可选地,所述预置类别包括第一类别和第二类别。上述根据所述第一分类结果和所述第二分类结果,确定所述待分类文本的分类结果包括:当与所述全文本数据对应的类别和与所述一个或多个子文本数据对应的类别均为第二类别时,确定与所述待分类文本对应的类别为第二类别;以及,当与所述全文本数据对应的类别和/或与所述一个或多个子文本数据对应的类别为第一类别时,确定与所述待分类文本对应的类别为第一类别。本公开的另一方面提供了一种文本分类装置,包括:获取模块、第一分类模块、第二分类模块和综合分类模块。获取模块用于获取待分类文本。第一分类模块用于基于所述待分类文本的全文本数据,获得第一分类结果。第二分类模块用于基于从所述全文本数据中提取的一个或多个子文本数据,获得第二分类结果。以及,综合分类模块用于根据所述第一分类结果和所述第二分类结果,确定所述待分类文本的分类结果。可选地,第一分类模块用于将所述全文本数据输入对应于多个预置类别的全文本分类模型,基于所述全文本分类模型确定所述全文本数据关于所述多个预置类别中的各预置类别的第一得分,将第一得分最高的预置类别作为与所述全文本数据对应的类别。可选地,所述装置还包括子文本提取模块,用于在所述第二分类模块基于从所述全文本数据中提取的一个或多个子文本数据,获得第二分类结果之前,从所述全文本数据中提取一个或多个子文本数据。其中,子文本提取模块包括匹配子模块、提取子模块和组合子模块。匹配子模块用于利用预设关键词集合中的关键词与所述全文本数据进行匹配。提取子模块用于对于匹配成功的第一关键词,从所述全文本数据中提取所述第一关键词之前的第一预设长度的字符串和/或所述第一关键词之后的第二预设长度的字符串。以及,组合子模块用于将提取出的字符串和所述第一关键词按照在所述全文本数据中的位置顺序组合为一个子文本数据。可选地,所述第二分类模块包括第一预测子模块和计算子模块。第一预测子模块用于对于第一子文本数据,将所述第一子文本数据输入对应于所述多个预置类别的子文本分类模型,基于所述子文本分类模型确定所述第一子文本数据关于所述多个预置类别中的各预置类别的第二得分。以及,计算子模块用于基于所述一个或多个子文本数据中的各子文本数据关于各预置类别的第二得分计算所述一个或多个子文本数据关于各预置类别的第三得分,将第三得分最高的预置类别作为与所述一个或多个子文本数据对应的类别。可选地,计算子模块具体用于对于所述多个预置类别中的任一预置类别,将各子文本数据关于该预置类别的第二得分进行加权求和,得到所述一个或多个子文本数据关于该预置类别的第三得分。可选地,综合分类模块包括综合计算子模块,用于根据所述全文本数据关于各预置类别的第一得分和所述一个或多个子文本数据关于各预置类别的第三得分,计算得到所述待分类文本关于各预置类别的综合得分,将综合得分最高的预置类别作为与所述待分类文本对应的类别。可选地,综合计算子模块用于设置与所述全文本数据对应的第一权重和与所述一个或多个子文本数据对应的第二权重;以及,对于所述多个预置类别中的任一预置类别,根据所述第一权重和所本文档来自技高网...

【技术保护点】
1.一种文本分类方法,包括:获取待分类文本;基于所述待分类文本的全文本数据,获得第一分类结果;基于从所述全文本数据中提取的一个或多个子文本数据,获得第二分类结果;以及根据所述第一分类结果和所述第二分类结果,确定所述待分类文本的分类结果。

【技术特征摘要】
1.一种文本分类方法,包括:获取待分类文本;基于所述待分类文本的全文本数据,获得第一分类结果;基于从所述全文本数据中提取的一个或多个子文本数据,获得第二分类结果;以及根据所述第一分类结果和所述第二分类结果,确定所述待分类文本的分类结果。2.根据权利要求1所述的方法,其中,所述基于所述待分类文本的全文本数据,获得第一分类结果包括:将所述全文本数据输入对应于多个预置类别的全文本分类模型,基于所述全文本分类模型确定所述全文本数据关于所述多个预置类别中的各预置类别的第一得分,将第一得分最高的预置类别作为与所述全文本数据对应的类别。3.根据权利要求1所述的方法,其中,在所述基于从所述全文本数据中提取的一个或多个子文本数据,获得第二分类结果之前,所述方法还包括:从所述全文本数据中提取一个或多个子文本数据;所述从所述全文本数据中提取一个或多个子文本数据包括:利用预设关键词集合中的关键词与所述全文本数据进行匹配;对于匹配成功的第一关键词,从所述全文本数据中提取所述第一关键词之前的第一预设长度的字符串和/或所述第一关键词之后的第二预设长度的字符串;以及将提取出的字符串和所述第一关键词按照在所述全文本数据中的位置顺序组合为一个子文本数据。4.根据权利要求2所述的方法,其中,所述基于从所述全文本数据中提取的一个或多个子文本数据,获得第二分类结果包括:对于第一子文本数据,将所述第一子文本数据输入对应于所述多个预置类别的子文本分类模型,基于所述子文本分类模型确定所述第一子文本数据关于所述多个预置类别中的各预置类别的第二得分;以及基于所述一个或多个子文本数据中的各子文本数据关于各预置类别的第二得分计算所述一个或多个子文本数据关于各预置类别的第三得分,将第三得分最高的预置类别作为与所述一个或多个子文本数据对应的类别。5.根据权利要求4所述的方法,其中,所述基于所述一个或多个子文本数据中的各子文本数据关于各预置类别的第二得分计算一个或多个子文本数据关于各预置类别的第三得分包括:对于所述多个预置类别中的任一预置类别,将各子文本数据关于该预置类别的第二得分进行加权求和,得到所述一个或多个子文本数据关于该预置类别的第三得分。6.根据权利要求4所述的方法,其中,所述根据所述第一分类结果和所述...

【专利技术属性】
技术研发人员:李斌禹庆华
申请(专利权)人:北京奇安信科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1