文本分类方法及装置制造方法及图纸

技术编号:20745400 阅读:36 留言:0更新日期:2019-04-03 10:26
本公开提供一种文本分类方法及装置,涉及数据处理技术领域。本公开提供的文本分类方法及装置,基于预先构建的词袋库预先生成策略匹配库,以使策略匹配库包括词袋库中各词袋的关注词,并通过预先生成的策略匹配库,对输入的数据进行扫描匹配,输出匹配后的数据结果;并计算输出的数据结果的参量值,将计算得到的参量值与数据结果对应匹配的关注词的参量值进行比对,判断比对结果是否在预设的误差范围内,在判断过后,输出在预设的误差范围内数据结果,并进行分类处理,实现了快速对输入数据的分类处理,提高了数据分类的效率。

【技术实现步骤摘要】
文本分类方法及装置
本公开涉及数据处理
,具体而言,本公开涉及一种文本分类方法及装置。
技术介绍
随着大数据时代的发展,在一些需要处理和分析海量信息的高性能、高实时性的系统中,由于数据过于庞大,因此更需要对数据流量进行分类过滤,快速获取需要处理的文本数据,但是,目前,对于文本的分类,往往需要对输入的文本进行预处理、提取特征等操作,严重影响分类的效率。
技术实现思路
有鉴于此,本公开提供一种文本分类方法及装置。本公开提供一种文本分类方法,所述方法包括:基于预先生成的策略匹配库,对输入的数据进行扫描匹配,输出匹配后的数据结果;所述策略匹配库基于预先构建的词袋库生成,所述词袋库中包括多个词袋,各所述词袋包括多个关注词以及各所述关注词的参量值,所述策略匹配库包括各所述词袋的关注词。计算得到输出的数据结果的参量值。将计算得到的参量值与所述数据结果对应匹配的关注词的参量值进行比对,判断比对结果是否在预设的误差范围内。输出在所述预设的误差范围内的数据结果,并进行分类处理。进一步的,所述策略匹配库通过以下步骤生成:输入预先构建的词袋库并在匹配引擎中注册策略库。取出各所述词袋中的各所述关注词,并将各本文档来自技高网...

【技术保护点】
1.一种文本分类方法,其特征在于,所述方法包括:基于预先生成的策略匹配库,对输入的数据进行扫描匹配,输出匹配后的数据结果;所述策略匹配库基于预先构建的词袋库生成,所述词袋库中包括多个词袋,各所述词袋包括多个关注词以及各所述关注词的参量值,所述策略匹配库包括各所述词袋的关注词;计算得到输出的数据结果的参量值;将计算得到的参量值与所述数据结果对应匹配的关注词的参量值进行比对,判断比对结果是否在预设的误差范围内;输出在所述预设的误差范围内的数据结果,并进行分类处理。

【技术特征摘要】
1.一种文本分类方法,其特征在于,所述方法包括:基于预先生成的策略匹配库,对输入的数据进行扫描匹配,输出匹配后的数据结果;所述策略匹配库基于预先构建的词袋库生成,所述词袋库中包括多个词袋,各所述词袋包括多个关注词以及各所述关注词的参量值,所述策略匹配库包括各所述词袋的关注词;计算得到输出的数据结果的参量值;将计算得到的参量值与所述数据结果对应匹配的关注词的参量值进行比对,判断比对结果是否在预设的误差范围内;输出在所述预设的误差范围内的数据结果,并进行分类处理。2.根据权利要求1所述的文本分类方法,其特征在于,所述策略匹配库通过以下步骤生成:输入预先构建的词袋库并在匹配引擎中注册策略库;取出各所述词袋中的各所述关注词,并将各所述关注词通过预编译函数编译到注册的策略库中,生成策略匹配库,以对输入的数据进行扫描匹配。3.根据权利要求1所述的文本分类方法,其特征在于,所述词袋库通过以下的步骤构建:输入语料库,对所述语料库中的各类文档进行中文分词操作,得到多个分词;对各所述分词进行特征提取,得到多个关注词;对所述多个关注词进行分类合并,去除无用词,得到各类文档对应的词表;基于各类文档对应的词表,对各类文档进行降维处理,并将各类文档与对应词表中的关注词进行关联,得到各类文档对应的词袋;对各类文档对应词袋中的关注词计算参量值,并将计算的参量值标注于对应词袋中的关注词,得到词袋库。4.根据权利要求3所述的文本分类方法,其特征在于,对各所述分词进行特征提取,得到多个关注词的步骤包括:对各所述分词计算卡方统计值;根据计算的卡方统计值,对各分词进行排序,取前N项卡方统计值最高的分词作为关注词;其中,N为预设值。5.根据权利要求3所述的文本分类方法,其特征在于,对各类文档对应词袋中的关注词计算参量值的步骤包括:对各类文档对应词袋中的关注词计算逆文档频率以及词频;根据计算得到的逆文档频率以及词频,计算得到各类文档对应词袋中的关注词的参量值。6.根据权利要求1所述的文本分类方法,其特征在于,所述输出的数据结果包括匹配命中的关注词以及该关注词被匹配命中的次数,计算得到输出的数据结果的参量值的步骤包括:根据所述数据结果中的匹配命中的关注词以及该关注词被匹配命中的次数...

【专利技术属性】
技术研发人员:赵卓成马奥吴明陈英华章祥
申请(专利权)人:南京中孚信息技术有限公司
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1