【技术实现步骤摘要】
一种文本分类方法、装置及介质
本公开涉及文本分类领域,尤其涉及一种文本分类方法、装置及介质。
技术介绍
目前的文本处理业务中经常需要设置大量规则文本对内容进行管理,规则文本包括关键词、短语、句子、正则表达式等。同时,对于这些规则文本需要维护对应的分类信息,用来表示规则文本过滤得到的数据所对应的类别归属,便于运营人员对数据进行后续处理,包括日志统计、数据报表、规则纠错、以及对不同类别的数据交由不同的数据处理通道进行处理等,规则文本分类的准确性将在很大程度上影响后续数据处理流程的效果,并进一步影响业务系统的运营效率。目前,规则表的分类可以通过人工分类和自动分类两种方法来实现。人工分类的方法,依赖于业务人员对规则表和类别体系的理解,并需要统一分类标准,针对规则表的更新以及类别体系的调整,需要及时对业务人员进行培训。在实际的业务运营中,经常是由多个业务人员同时进行维护,经常会出现不同业务人员对分类标准认识不一致导致分类错误的情况。而且,在业务运营过程中,通过用户反馈、日志跟踪、系统巡检等多种方式,发现需要过滤的数据后,会由运营人员对规则表进行人工更新,经过长时间积累后,规则文本一般规模都比较大,导致难以依赖人工来进行规则分类。自动分类的方法,一般是通过文本分析抽取规则表的文本特征,然后采用合适的分类算法来实现。针对短文本和长文本,需要采用不同的特征抽取方法。由于规则表组成结构比较复杂,包含关键词、短语、句子、正则表达式等多种形式的文本,较难用统一的方法来实现,不同长度的规则文本导致特征表示不一致,从而 ...
【技术保护点】
1.一种文本分类方法,其特征在于,包括:/n根据字典确定目标文本的构成方式;/n根据所述构成方式对应的词向量生成方法生成所述目标文本的词向量;/n根据所述目标文本的词向量和样本映射集合对所述目标文本进行分类;/n其中,所述样本词映射集合包括多个子集合,每个子集合包括多个样本词与词向量的一一映射关系,不同子集合包含的样本词属于不同的类别,所述样本词映射集合中所有词向量的维度相同;所述字典是所述样本词映射集合中所有样本词的子集。/n
【技术特征摘要】 【专利技术属性】
1.一种文本分类方法,其特征在于,包括:
根据字典确定目标文本的构成方式;
根据所述构成方式对应的词向量生成方法生成所述目标文本的词向量;
根据所述目标文本的词向量和样本映射集合对所述目标文本进行分类;
其中,所述样本词映射集合包括多个子集合,每个子集合包括多个样本词与词向量的一一映射关系,不同子集合包含的样本词属于不同的类别,所述样本词映射集合中所有词向量的维度相同;所述字典是所述样本词映射集合中所有样本词的子集。
2.如权利要求1所述的文本分类方法,其特征在于,
所述根据字典确定目标文本的构成方式,包括:确定所述目标文本是所述字典中一样本词时,确定所述目标文本的构成方式为第一方式;
所述第一方式对应的词向量生成方法,包括:查询所述样本词映射集合中的一一映射关系确定所述目标文本对应的词向量。
3.如权利要求1所述的文本分类方法,其特征在于,
所述根据字典确定目标文本的构成方式,包括:确定所述目标文本不是所述字典中的样本词,在所述目标文本的长度大于或等于设定长度时,确定所述目标文本的构成方式为第二方式;
所述第二方式对应的词向量生成方法,包括:对所述目标文本进行分词操作后获得至少一个有效组成词,从所述有效组成词中选择出属于所述字典的有效组成词,查询样本词映射集合中的一一映射关系确定选择出的有效组成词对应的词向量,根据每个选择出的有效组成词对应的词向量确定目标文本对应的词向量。
4.如权利要求1所述的文本分类方法,其特征在于,
所述根据字典确定目标文本的构成方式,包括:确定所述目标文本不是所述字典中的样本词,在所述目标文本的长度小于设定长度时,确定所述目标文本的构成方式为第三方式;
所述第三方式对应的词向量生成方法,包括:对所述目标文本分别进行至少一种滑动窗口式拆分,不同的滑动窗口的窗长不同,从使用各滑动窗口式拆分后得到的单元词中选择出属于所述字典的单元词,查询所述样本词映射集合中的一一映射关系确定选择出的所有单元词对应的词向量,根据选择出的所有单元词对应的词向量确定所述目标文本对应的词向量。
5.如权利要求4所述的文本分类方法,其特征在于,
所述至少一种滑动窗口式拆分中使用的滑动窗口的长度是从1字符长度至M字符长度中的N种字符长度,M是大于1的整数,N小于或等于M。
6.如权利要求1所述的文本分类方法,其特征在于,
使用所述目标文本的词向量和样本映射集合对所述目标文本进行分类,包括:计算所述目标文本的词向量与所述样本映射集合中的词向量的相似度,根据所述相似度确定所述目标文本所属的类别。
7.一种文本分类装置,其特征在于,包括:
第一确定模块,根据字典确定目标文本的构成方式;
生成模块,用于根据所述构成方式对应的词向量生成方法生成所述目标文本的词向量;
分类模块,用于根据所述目标文本的词向量和样本映射集合对所述目标文本进行分类;
其中,所述样本词映射集合包括多个子集合,每个子集合包括多个样本词与词向量的一一映射关系,不同子集合包含的样本词属于不同的类别,所述样本词映射集合中所有词向量的维度相同;所述字典是所述样本词映射集合中所有样本词的子集。
8.如权利要求7所述的文本分类装置,其特征在于,
技术研发人员:鲁骁,孟二利,王斌,
申请(专利权)人:北京松果电子有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。