文本处理方法、装置、设备及计算机可读存储介质制造方法及图纸

技术编号:23983722 阅读:44 留言:0更新日期:2020-04-29 12:31
本公开公开了文本处理方法、装置、设备及计算机可读存储介质,涉及文本处理领域。具体实现方案为:获取终端设备输入的待分类数据,其中,所述待分类数据中包括待分类文本以及输入所述待分类文本的用户的标识;根据所述用户的标识获取所述用户对应的用户特征,对所述待分类文本以及所述用户特征进行向量化处理,获得待处理向量信息;采用预设的特征提取模型对所述待处理向量信息进行处理,获得所述待处理向量信息对应的特征信息;通过级联分类器对特征信息进行分类操作,获得所述待分类文本对应的类别信息。从而能够在分类过程中考量用户特征的因素,提高文本分类的准确性。

Text processing method, device, equipment and computer readable storage medium

【技术实现步骤摘要】
文本处理方法、装置、设备及计算机可读存储介质
本公开涉及数据处理领域,尤其涉及一种文本处理技术。
技术介绍
在针对用户产生内容进行分析的时候,常常会遇到一类问题,需要对用户产出的文本内容进行层次主题分类。实际应用中,许多业务场景中都会应用这一任务,如贴子分类、问题回答、广告投放、搜索结果组织等。为了实现对内容数据的分类,现有技术中一般都是预先构建一分类树状结构,针对树状结构的叶子节点,分别构建不同的分类模型,采用每个分类模型对内容数据进行分类。但是,用户产出的文本内容一般与自然语言有较大的差别,所使用的语言较为随意,OutOfVocab现象较严重,因此,较为依赖于用户信息。故在采用上述方法进行内容数据的分类时,无法精准地对这类内容数据进行分类。
技术实现思路
本公开提供一种文本处理方法、装置、设备及计算机可读存储介质,用于解决现有的文本处理方法进行内容数据的分类时,无法精准地对这类内容数据进行分类。第一方面,本公开实施例提供一种文本处理方法,包括:获取终端设备输入的待分类数据,其中,所述待分类数据中包括待分类文本以及输入所述待分类文本的用户的标识;根据所述用户的标识获取所述用户对应的用户特征,对所述待分类文本以及所述用户特征进行向量化处理,获得待处理向量信息;采用预设的特征提取模型对所述待处理向量信息进行处理,获得所述待处理向量信息对应的特征信息;通过级联分类器对特征信息进行分类操作,获得所述待分类文本对应的类别信息。本实施例提供的文本处理方法,通过在特征提取过程中,添加用于表征用户发表文本信息时的惯用特征的用户特征,从而能够在分类过程中考量用户特征的因素,提高文本分类的准确性。在一种可能的设计中,所述获取终端设备输入的待分类数据之后,还包括:对所述待分类文本进行分词、去除标点符号以及编码化处理,获得预处理后的待分类文本;相应地,所述对所述待分类文本以及所述用户特征进行向量化处理,包括:对所述预处理后的待分类文本以及所述用户特征进行向量化处理。本实施例提供的文本处理方法,通过在特征提取过程中,添加用于表征用户发表文本信息时的惯用特征的用户特征,从而能够在分类过程中考量用户特征的因素,提高文本分类的准确性。在一种可能的设计中,所述对所述待分类文本以及所述用户特征进行向量化处理,包括:通过Embedding对所述待分类文本以及所述用户特征进行向量化处理。本实施例提供的文本处理方法,通过采用Embedding的方式对待分类文本以及用户特征进行向量化处理,从而能够精准地得到待分类文本的基本粒度向量表示。在一种可能的设计中,所述级联分类器中包括多层分类器,所述通过级联分类器对特征信息进行分类操作,包括:依次将所述特征信息以及上一层分类器输出的分类结果输入至下一层分类器中,将最后一层分类器输出的结果作为所述待分类文本对应的类别信息。本实施例提供的文本处理方法,通过将上一层分类器的输出结果与特征信息一同输入至下一层分类器中,从而能够使下一层分类器在该分类结果下的子类别对特征信息进行再次分类操作,有效地提高了分类效率以及分类精准度。在一种可能的设计中,所述依次将所述特征信息以及上一层分类器输出的分类结果输入至下一层分类器中,将最后一层分类器输出的结果作为所述待分类文本对应的类别信息,包括:将所述特征信息输入至预设的第一层分类器,获得所述特征信息对应的第一类别标识;将所述特征信息以及所述第一类别标识输入至预设的第二层分类器,所述第二分类器用于在所述第一类别标识下的子类别对所述特征信息进行分类操作,获得所述特征信息对应的第二类别标识,关联所述第一类别标识以及所述第二类别标识,获得目标类别标识;判断所述第二类别标识下是否还包括其他子类别,若是,则将所述目标类别标识以及所述特征信息输入至下一层分类器进行分类操作,直至所述分类器输出的类别信息下不包括其他子类别。本实施例提供的文本处理方法,通过将上一层分类器的输出结果与特征信息一同输入至下一层分类器中,从而能够使下一层分类器在该分类结果下的子类别对特征信息进行再次分类操作,有效地提高了分类效率以及分类精准度。在一种可能的设计中,所述通过级联分类器对特征信息进行分类操作,获得所述待分类文本对应的类别信息之后,还包括:根据所述待分类文本对应的类别信息将所述待分类文本存储至所述类别信息对应的存储路径中。本实施例提供的文本处理方法,通过根据所述待分类文本对应的类别信息将所述待分类文本存储至所述类别信息对应的存储路径中,从而能够在对待分类文本进行分类后,便于该该待处理文本的应用。第二方面,本公开实施例提供一种文本处理装置,包括:获取模块,用于获取终端设备输入的待分类数据,其中,所述待分类数据中包括待分类文本以及输入所述待分类文本的用户的标识;向量化处理模块,用于根据所述用户的标识获取所述用户对应的用户特征,对所述待分类文本以及所述用户特征进行向量化处理,获得待处理向量信息;特征提取模块,用于采用预设的特征提取模型对所述待处理向量信息进行处理,获得所述待处理向量信息对应的特征信息;分类模块,用于通过级联分类器对特征信息进行分类操作,获得所述待分类文本对应的类别信息。在一种可能的设计中,所述装置还包括:预处理模块,用于对所述待分类文本进行分词、去除标点符号以及编码化处理,获得预处理后的待分类文本;相应地,所述向量化处理模块用于:对所述预处理后的待分类文本以及所述用户特征进行向量化处理。在一种可能的设计中,所述向量化处理模块用于:通过Embedding对所述待分类文本以及所述用户特征进行向量化处理。在一种可能的设计中,所述级联分类器中包括多层分类器,所述分类模块用于:依次将所述特征信息以及上一层分类器输出的分类结果输入至下一层分类器中,将最后一层分类器输出的结果作为所述待分类文本对应的类别信息。在一种可能的设计中,所述分类模块用于:将所述特征信息输入至预设的第一层分类器,获得所述特征信息对应的第一类别标识;将所述特征信息以及所述第一类别标识输入至预设的第二层分类器,所述第二分类器用于在所述第一类别标识下的子类别对所述特征信息进行分类操作,获得所述特征信息对应的第二类别标识,关联所述第一类别标识以及所述第二类别标识,获得目标类别标识;判断所述第二类别标识下是否还包括其他子类别,若是,则将所述目标类别标识以及所述特征信息输入至下一层分类器进行分类操作,直至所述分类器输出的类别信息下不包括其他子类别。在一种可能的设计中,所述装置还包括:处理模块,用于根据所述待分类文本对应的类别信息将所述待分类文本存储至所述类别信息对应的存储路径中。第三方面,本公开实施例提供一种文本处理设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中本文档来自技高网...

【技术保护点】
1.一种文本处理方法,其特征在于,包括:/n获取终端设备输入的待分类数据,其中,所述待分类数据中包括待分类文本以及输入所述待分类文本的用户的标识;/n根据所述用户的标识获取所述用户对应的用户特征,对所述待分类文本以及所述用户特征进行向量化处理,获得待处理向量信息;/n采用预设的特征提取模型对所述待处理向量信息进行处理,获得所述待处理向量信息对应的特征信息;/n通过级联分类器对特征信息进行分类操作,获得所述待分类文本对应的类别信息。/n

【技术特征摘要】
1.一种文本处理方法,其特征在于,包括:
获取终端设备输入的待分类数据,其中,所述待分类数据中包括待分类文本以及输入所述待分类文本的用户的标识;
根据所述用户的标识获取所述用户对应的用户特征,对所述待分类文本以及所述用户特征进行向量化处理,获得待处理向量信息;
采用预设的特征提取模型对所述待处理向量信息进行处理,获得所述待处理向量信息对应的特征信息;
通过级联分类器对特征信息进行分类操作,获得所述待分类文本对应的类别信息。


2.根据权利要求1所述的方法,其特征在于,所述获取终端设备输入的待分类数据之后,还包括:
对所述待分类文本进行分词、去除标点符号以及编码化处理,获得预处理后的待分类文本;
相应地,所述对所述待分类文本以及所述用户特征进行向量化处理,包括:
对所述预处理后的待分类文本以及所述用户特征进行向量化处理。


3.根据权利要求1所述的方法,其特征在于,所述对所述待分类文本以及所述用户特征进行向量化处理,包括:
通过Embedding对所述待分类文本以及所述用户特征进行向量化处理。


4.根据权利要求1-3任一项所述的方法,其特征在于,所述级联分类器中包括多层分类器,所述通过级联分类器对特征信息进行分类操作,包括:
依次将所述特征信息以及上一层分类器输出的分类结果输入至下一层分类器中,将最后一层分类器输出的结果作为所述待分类文本对应的类别信息。


5.根据权利要求4所述的方法,其特征在于,所述依次将所述特征信息以及上一层分类器输出的分类结果输入至下一层分类器中,将最后一层分类器输出的结果作为所述待分类文本对应的类别信息,包括:
将所述特征信息输入至预设的第一层分类器,获得所述特征信息对应的第一类别标识;
将所述特征信息以及所述第一类别标识输入至预设的第二层分类器,所述第二分类器用于在所述第一类别标识下的子类别对所述特征信息进行分类操作,获得所述特征信息对应的第二类别标识,关联所述第一类别标识以及所述第二类别标识,获得目标类别标识;
判断所述第二类别标识下是否还包括其他子类别,若是,则将所述目标类别标识以及所述特征信息输入至下一层分类器进行分类操作,直至所述分类器输出的类别信息下不包括其他子类别。


6.根据权利要求1-3任一项所述的方法,其特征在于,所述通过级联分类器对特征信息进行分类操作,获得所述待分类文本对应的类别信息之后,还包括:
根据所述待分类文本对应的类别信息将所述待分类文本存储至所述类别信息对应的存储路径中。


7.一种文本处理装置,其特征在于,包括:
获取模块,用于获取终端设备输入的待分类数据,其中,所述待分类数据中包括待分类文本以及输入所述待分类文本的用户的标识;
向量化处理模块,用于根据所述用户的标识获取所述用户对应的用户特征,对所述待分类文本以及所述用户特征进行向量化处理,获得待处理向量信息;
特征提取...

【专利技术属性】
技术研发人员:石逸轩戴明洋潘剑飞周俊罗程亮许金泉姚远
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1