【技术实现步骤摘要】
文本处理方法、装置、设备及计算机可读存储介质
本公开涉及数据处理领域,尤其涉及一种文本处理技术。
技术介绍
在针对用户产生内容进行分析的时候,常常会遇到一类问题,需要对用户产出的文本内容进行层次主题分类。实际应用中,许多业务场景中都会应用这一任务,如贴子分类、问题回答、广告投放、搜索结果组织等。为了实现对内容数据的分类,现有技术中一般都是预先构建一分类树状结构,针对树状结构的叶子节点,分别构建不同的分类模型,采用每个分类模型对内容数据进行分类。但是,用户产出的文本内容一般与自然语言有较大的差别,所使用的语言较为随意,OutOfVocab现象较严重,因此,较为依赖于用户信息。故在采用上述方法进行内容数据的分类时,无法精准地对这类内容数据进行分类。
技术实现思路
本公开提供一种文本处理方法、装置、设备及计算机可读存储介质,用于解决现有的文本处理方法进行内容数据的分类时,无法精准地对这类内容数据进行分类。第一方面,本公开实施例提供一种文本处理方法,包括:获取终端设备输入的待分类数据,其中,所述待分类数据中包括待分类文本以及输入所述待分类文本的用户的标识;根据所述用户的标识获取所述用户对应的用户特征,对所述待分类文本以及所述用户特征进行向量化处理,获得待处理向量信息;采用预设的特征提取模型对所述待处理向量信息进行处理,获得所述待处理向量信息对应的特征信息;通过级联分类器对特征信息进行分类操作,获得所述待分类文本对应的类别信息。本实施例提供的文 ...
【技术保护点】
1.一种文本处理方法,其特征在于,包括:/n获取终端设备输入的待分类数据,其中,所述待分类数据中包括待分类文本以及输入所述待分类文本的用户的标识;/n根据所述用户的标识获取所述用户对应的用户特征,对所述待分类文本以及所述用户特征进行向量化处理,获得待处理向量信息;/n采用预设的特征提取模型对所述待处理向量信息进行处理,获得所述待处理向量信息对应的特征信息;/n通过级联分类器对特征信息进行分类操作,获得所述待分类文本对应的类别信息。/n
【技术特征摘要】
1.一种文本处理方法,其特征在于,包括:
获取终端设备输入的待分类数据,其中,所述待分类数据中包括待分类文本以及输入所述待分类文本的用户的标识;
根据所述用户的标识获取所述用户对应的用户特征,对所述待分类文本以及所述用户特征进行向量化处理,获得待处理向量信息;
采用预设的特征提取模型对所述待处理向量信息进行处理,获得所述待处理向量信息对应的特征信息;
通过级联分类器对特征信息进行分类操作,获得所述待分类文本对应的类别信息。
2.根据权利要求1所述的方法,其特征在于,所述获取终端设备输入的待分类数据之后,还包括:
对所述待分类文本进行分词、去除标点符号以及编码化处理,获得预处理后的待分类文本;
相应地,所述对所述待分类文本以及所述用户特征进行向量化处理,包括:
对所述预处理后的待分类文本以及所述用户特征进行向量化处理。
3.根据权利要求1所述的方法,其特征在于,所述对所述待分类文本以及所述用户特征进行向量化处理,包括:
通过Embedding对所述待分类文本以及所述用户特征进行向量化处理。
4.根据权利要求1-3任一项所述的方法,其特征在于,所述级联分类器中包括多层分类器,所述通过级联分类器对特征信息进行分类操作,包括:
依次将所述特征信息以及上一层分类器输出的分类结果输入至下一层分类器中,将最后一层分类器输出的结果作为所述待分类文本对应的类别信息。
5.根据权利要求4所述的方法,其特征在于,所述依次将所述特征信息以及上一层分类器输出的分类结果输入至下一层分类器中,将最后一层分类器输出的结果作为所述待分类文本对应的类别信息,包括:
将所述特征信息输入至预设的第一层分类器,获得所述特征信息对应的第一类别标识;
将所述特征信息以及所述第一类别标识输入至预设的第二层分类器,所述第二分类器用于在所述第一类别标识下的子类别对所述特征信息进行分类操作,获得所述特征信息对应的第二类别标识,关联所述第一类别标识以及所述第二类别标识,获得目标类别标识;
判断所述第二类别标识下是否还包括其他子类别,若是,则将所述目标类别标识以及所述特征信息输入至下一层分类器进行分类操作,直至所述分类器输出的类别信息下不包括其他子类别。
6.根据权利要求1-3任一项所述的方法,其特征在于,所述通过级联分类器对特征信息进行分类操作,获得所述待分类文本对应的类别信息之后,还包括:
根据所述待分类文本对应的类别信息将所述待分类文本存储至所述类别信息对应的存储路径中。
7.一种文本处理装置,其特征在于,包括:
获取模块,用于获取终端设备输入的待分类数据,其中,所述待分类数据中包括待分类文本以及输入所述待分类文本的用户的标识;
向量化处理模块,用于根据所述用户的标识获取所述用户对应的用户特征,对所述待分类文本以及所述用户特征进行向量化处理,获得待处理向量信息;
特征提取...
【专利技术属性】
技术研发人员:石逸轩,戴明洋,潘剑飞,周俊,罗程亮,许金泉,姚远,
申请(专利权)人:北京百度网讯科技有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。