一种对文本进行分类的方法及装置制造方法及图纸

技术编号:23704893 阅读:29 留言:0更新日期:2020-04-08 11:10
本发明专利技术公开了对文本进行分类的方法及装置,涉及自然语言处理技术领域,能够使得分类结果更贴近不同业务的需求,提高分类结果的质量和效率,本发明专利技术的主要技术方案为:判断待执行分类处理的文本数据是否与预置强规则逻辑匹配,预置强规则逻辑用于区别文本数据是否被归属于为与业务需求无关的类别;若是,则根据预置强规则逻辑对应的匹配结果,确定文本数据的分类;若否,则通过预置文本分类模型对文本数据执行分类处理,预置文本分类模型包含预置弱规则逻辑,预置弱规则逻辑用于在对文本数据执行分类处理时根据业务需求扩展特征,以使得分类处理对应得到的分类结果与业务需求匹配。本发明专利技术应用于优化执行文本分类处理。

A method and device for text classification

【技术实现步骤摘要】
一种对文本进行分类的方法及装置
本专利技术涉及自然语言处理
,尤其涉及一种对文本进行分类的方法及装置。
技术介绍
随着科技的不断创新发展,机器学习可以被应用于判断文本的类别。目前,利用机器学习进行文本分类的主要流程包括:首先,利用已标注类别的文本进行训练文本分类模型,其次,再利用该文本分类模型对未标注类别的原始文本进行处理来预测其所归属类别,从而完成对原始文本执行分类的目的。然而,在将文本分类模型应用到不同的具体业务中时,由于不同业务涉及的内容可以是千差万别的,因而若仅用一个通用的文本分类模型是不能满足不同业务的需求的,但是若对每个具体的业务都训练一个文本分类模型,这不仅耗费大量成本,还将使得对原始文本执行分类的过程变得繁琐、过于冗余、效率低。
技术实现思路
有鉴于此,本专利技术提供一种对文本进行分类的方法及装置,主要目的在于优化对原始文本执行分类的处理流程,使得分类结果更贴近不同业务的需求,提高分类结果的质量,同时也大大提高分类效率。为了解决上述问题,本专利技术主要提供如下技术方案:>一方面,本专利技术本文档来自技高网...

【技术保护点】
1.一种对文本进行分类的方法,其特征在于,所述方法包括:/n判断待执行分类处理的文本数据是否与预置强规则逻辑匹配,所述预置强规则逻辑用于区别所述文本数据是否被归属于为与业务需求无关的类别;/n若是,则根据所述预置强规则逻辑对应的匹配结果,确定所述文本数据的分类;/n若否,则通过预置文本分类模型对所述文本数据执行分类处理,所述预置文本分类模型包含预置弱规则逻辑,所述预置弱规则逻辑用于在对所述文本数据执行分类处理时根据所述业务需求扩展特征,以使得分类处理对应得到的分类结果与所述业务需求匹配。/n

【技术特征摘要】
1.一种对文本进行分类的方法,其特征在于,所述方法包括:
判断待执行分类处理的文本数据是否与预置强规则逻辑匹配,所述预置强规则逻辑用于区别所述文本数据是否被归属于为与业务需求无关的类别;
若是,则根据所述预置强规则逻辑对应的匹配结果,确定所述文本数据的分类;
若否,则通过预置文本分类模型对所述文本数据执行分类处理,所述预置文本分类模型包含预置弱规则逻辑,所述预置弱规则逻辑用于在对所述文本数据执行分类处理时根据所述业务需求扩展特征,以使得分类处理对应得到的分类结果与所述业务需求匹配。


2.根据权利要求1所述的方法,其特征在于,所述预置强规则逻辑包含规则本体以及每条所述规则本体对应的规则匹配结果,所述规则本体是以正则表达式进行编写的。


3.根据权利要求2所述的方法,其特征在于,所述判断待分类的文本数据是否与预置强规则逻辑匹配,包括:
获取每条所述规则本体对应的正则表达式信息,所述正则表达式信息包含正则表达式的筛选逻辑;
根据所述正则表达式的筛选逻辑对所述文本数据进行筛选处理;
判断在所述文本数据中是否筛选出与所述正则表达式的筛选逻辑匹配的目标文本;
若是,则确定所述文本数据与预置强规则逻辑匹配。


4.根据权利要求1所述的方法,其特征在于,所述通过预置文本分类模型对所述文本数据执行分类处理,包括:
对所述文本数据执行分词;
对所述分词执行向量化处理,输出所述文本数据对应的多个特征维度以及每个特征维度对应的维度信息;
利用特征选择器对所述多个特征维度执行特征选择,输出经筛选后的特征维度以及对应的维度信息;
根据预置弱规则逻辑,扩展所述文本数据的特征维度以及得到对应的维度信息;
将所述经筛选后的特征维度以及对应的维度信息、所述扩展的特征维度以及对应的维度信息输入分类器,输出对所述文本数据执行预测的分类结果。


5.根据权利要求4所述的方法,其特征在于,所述预置弱规则逻辑包含多个规则组别,所述规则组别对应多个规则本体,所述规则本体是以正则表达式进行编写的,一个所述规则本体对应一个规则匹配结果。


6.根据权利要求5所述的方法,其特征在于,所述根据预置弱规则逻辑,扩展所述文本数据的特征维...

【专利技术属性】
技术研发人员:陈云枫
申请(专利权)人:北京国双科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1