基于文本特征的对象分类方法、装置和计算机设备制造方法及图纸

技术编号:18256650 阅读:26 留言:0更新日期:2018-06-20 08:22
本发明专利技术涉及基于文本特征的对象分类方法、装置和计算机设备,属于网络技术领域。所述方法包括:获取待分类对象对应的第一文本特征信息;通过预先建立的词向量模型将所述第一文本特征信息转换为对应的第一文本特征向量;将所述第一文本特征向量输入经过训练的分类模型中,根据所述经过训练的分类模型输出的结果确定所述待分类对象的评估类别。上述技术方案,解决了对文本对象分析时分类模型不够准确的问题,能对文本对象进行准确归类。

Object classification method, device and computer equipment based on text feature

The invention relates to an object classification method, device and computer equipment based on textual features, belonging to the network technical field. The method includes: obtaining the first text feature information corresponding to the object to be classified; converting the first text feature information into the corresponding first text feature vector by the pre established word vector model; input the first text feature vector into the trained classification model type, according to the trained classification. The result of the model output determines the assessment category of the categorization object to be classified. The above technical scheme solves the problem of inaccurate classification model for text object analysis, and can accurately classify text objects.

【技术实现步骤摘要】
基于文本特征的对象分类方法、装置和计算机设备
本专利技术涉及网络
,特别是涉及基于文本特征的对象分类方法、装置、计算机设备和存储介质。
技术介绍
分类是一种重要的数据挖掘技术。分类的目的是根据数据集的特点把未知类别的样本映射到给定类别中的某一个。现有的对文本进行分类的方法主要有人工分类法和模型文本法,人工分类法利用人的自有知识对信息进行分类,而模型分类法通过相似度模型、概率模型、线性模型、非线性模型以及组合模型等模型对信息分类。在实现本专利技术过程中,专利技术人发现现有技术中至少存在如下问题:人工文本分类尽管利用人工分类,基于已有知识、常识分类,能够保证准确性,但对于微信公众号等类别众多的文本,分类效率低下,后期分类容易产生偏差以及误判;而对于模型分类法,模型各有利弊,针对不同领域有不同效果。因此,有必要找到一种合适的能对文本对象进行准确归类的方法。
技术实现思路
基于此,本专利技术提供了基于文本特征的对象分类方法、装置、计算机设备和存储介质,能对文本对象进行准确归类。本专利技术实施例的内容如下:一种基于文本特征的对象分类方法,包括以下步骤:获取待分类对象对应的第一文本特征信息;通过预先建立的词向量模型将所述第一文本特征信息转换为对应的第一文本特征向量;将所述第一文本特征向量输入经过训练的分类模型中,根据所述经过训练的分类模型输出的结果确定所述待分类对象的评估类别。在其中一个实施例中,所述将所述第一文本特征向量输入经过训练的分类模型中的步骤之前,还包括:获取多个参考对象对应的第二文本特征向量;分别对所述参考对象的实际类别进行标注;通过各个参考对象对应的第二文本特征向量以及实际类别训练预先建立的分类模型,得到经过训练的分类模型。在其中一个实施例中,所述分类模型包括至少一个二分类子模型,每个二分类子模型分别对应一个评估类别;所述通过各个参考对象对应的第二文本特征向量以及实际类别训练预先建立的分类模型的步骤,包括:将某一所述第二文本特征向量分别输入各个二分类子模型中,分别得到所述第二文本特征向量与对应的评估类别的匹配度;根据所述匹配度确定参考对象的评估类别;将参考对象的评估类别与对应的实际类别进行比对,根据比对结果调整所述分类模型。在其中一个实施例中,所述根据所述匹配度确定参考对象的评估类别的步骤,包括:确定所述匹配度中的最高匹配度值,获取与所述最高匹配度值对应的评估类别,作为对应的待分类对象的评估类别。在其中一个实施例中,所述通过预先建立的词向量模型将所述第一文本特征信息转换为对应的第一文本特征向量的步骤之前,还包括:从预设的文本信息库中确定特征词的上下文信息,通过onehot工具确定所述特征词的词向量;根据所述词向量确定所述上下文信息出现的条件概率;根据所述条件概率和所述上下文信息建立词向量模型。在其中一个实施例中,所述第一文本特征信息中包括至少一个特征词;所述通过预先建立的词向量模型将所述第一文本特征信息转换为对应的第一文本特征向量的步骤,包括:通过预先建立的词向量模型将所述第一文本特征信息中的各个特征词转换为对应的特征词向量,根据各个所述特征词向量确定所述待分类对象对应的第一文本特征向量。在其中一个实施例中,所述获取待分类对象对应的第一文本特征信息的步骤,包括:通过网络爬虫工具获取待分类对象对应的ID、昵称、简介、经营范围、帐号主体和/或推送消息,从中获取待分类对象对应的第一文本特征信息。相应的,本专利技术实施例提供一种基于文本特征的对象分类装置,包括:信息获取模块,用于获取待分类对象对应的第一文本特征信息;向量转换模块,用于通过预先建立的词向量模型将所述第一文本特征信息转换为对应的第一文本特征向量;以及,分类模块,用于将所述第一文本特征向量输入经过训练的分类模型中,根据所述经过训练的分类模型输出的结果确定所述待分类对象的评估类别。上述基于文本特征的对象分类方法和装置,首先获取待分类对象对应的第一文本特征信息;通过预先建立的词向量模型将所述第一文本特征信息转换为对应的第一文本特征向量;将所述第一文本特征向量输入经过训练的分类模型中,根据所述经过训练的分类模型输出的结果确定所述待分类对象的评估类别。能根据预先训练好的模型对待分类对象进行准确的分类,进而根据得到的分类信息对该待分类对象进行针对性的操作,可以有效防止对各种类别的对象均进行操作而造成资源的浪费。一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现以下步骤:获取待分类对象对应的第一文本特征信息;通过预先建立的词向量模型将所述第一文本特征信息转换为对应的第一文本特征向量;将所述第一文本特征向量输入经过训练的分类模型中,根据所述经过训练的分类模型输出的结果确定所述待分类对象的评估类别。上述计算机设备,能根据预先训练好的模型对待分类对象进行准确的分类,进而根据得到的分类信息对该待分类对象进行针对性的操作,可以有效防止对各种类别的对象均进行操作而造成资源的浪费。一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:获取待分类对象对应的第一文本特征信息;通过预先建立的词向量模型将所述第一文本特征信息转换为对应的第一文本特征向量;将所述第一文本特征向量输入经过训练的分类模型中,根据所述经过训练的分类模型输出的结果确定所述待分类对象的评估类别。上述计算机可读存储介质,能根据预先训练好的模型对待分类对象进行准确的分类,进而根据得到的分类信息对该待分类对象进行针对性的操作,可以有效防止对各种类别的对象均进行操作而造成资源的浪费。附图说明图1为一个实施例中基于文本特征的对象分类方法的应用环境图;图2为一个实施例中基于文本特征的对象分类方法的流程示意图;图3为另一个实施例中基于文本特征的对象分类方法的流程示意图;图4为一个实施例中基于文本特征的对象分类方法的具体应用实例图;图5为一个实施例中基于文本特征的对象分类装置的结构框图;图6为一个实施例中计算机设备的内部结构。具体实施方式为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。本专利技术实施例以微信公众号为例进行描述,但是本专利技术实施例的基于文本特征的对象分类方法还可以应用于其他的需要对对象进行分类的应用场景中。微信平台提供了公众号服务,将受众范围确定为整个微信用户群体,极大地扩大了宣传的范围,给广告主提供了新的广告推广渠道。但是公众号数量庞大且领域广泛,对合适的公众号的筛选是营销活动中最重要、最繁重的部分。广告主选择的依据是日常获取的信息以及规则搜索,分类信息就成了筛选过程的一个重要成分。目前,对公众号进行分类的方法主要有人工文本分类和模型文本分类等。人工文本分类是利用人的自有知识来对公众号分类。基于已有知识、常识分类的人工文本分类准度有保障,但由于公众号众多,容易受主观意识以及精神体力的影响,其分类效率低下,且后期分类可能会存在偏差以及误判。而模型文本分类是根据相似度模型、概率模型、线性模型、非线性模型和组合模型等对文本进行分类的方法。但是各种模型各有利弊,针对不同领域不同模型有不同的效果;很多模型不适用于对本文档来自技高网...
基于文本特征的对象分类方法、装置和计算机设备

【技术保护点】
1.一种基于文本特征的对象分类方法,其特征在于,包括以下步骤:获取待分类对象对应的第一文本特征信息;通过预先建立的词向量模型将所述第一文本特征信息转换为对应的第一文本特征向量;将所述第一文本特征向量输入经过训练的分类模型中,根据所述经过训练的分类模型输出的结果确定所述待分类对象的评估类别。

【技术特征摘要】
1.一种基于文本特征的对象分类方法,其特征在于,包括以下步骤:获取待分类对象对应的第一文本特征信息;通过预先建立的词向量模型将所述第一文本特征信息转换为对应的第一文本特征向量;将所述第一文本特征向量输入经过训练的分类模型中,根据所述经过训练的分类模型输出的结果确定所述待分类对象的评估类别。2.根据权利要求1所述的基于文本特征的对象分类方法,其特征在于,所述将所述第一文本特征向量输入经过训练的分类模型中的步骤之前,还包括:获取多个参考对象对应的第二文本特征向量;分别对所述参考对象的实际类别进行标注;通过各个参考对象对应的第二文本特征向量以及实际类别训练预先建立的分类模型,得到经过训练的分类模型。3.根据权利要求2所述的基于文本特征的对象分类方法,其特征在于,所述分类模型包括至少一个二分类子模型,每个二分类子模型分别对应一个评估类别;所述通过各个参考对象对应的第二文本特征向量以及实际类别训练预先建立的分类模型的步骤,包括:将某一所述第二文本特征向量分别输入各个二分类子模型中,分别得到所述第二文本特征向量与对应的评估类别的匹配度;根据所述匹配度确定参考对象的评估类别;将参考对象的评估类别与对应的实际类别进行比对,根据比对结果调整所述分类模型。4.根据权利要求3所述的基于文本特征的对象分类方法,其特征在于,所述根据所述匹配度确定参考对象的评估类别的步骤,包括:确定所述匹配度中的最高匹配度值,获取与所述最高匹配度值对应的评估类别,作为对应的待分类对象的评估类别。5.根据权利要求1至4任一所述的基于文本特征的对象分类方法,其特征在于,所述通过预先建立的词向量模型将所述第一文本特征信息转换为对应的第一文本特征向量的步骤之前,还包...

【专利技术属性】
技术研发人员:王秋文李百川陈第
申请(专利权)人:有米科技股份有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1