【技术实现步骤摘要】
一种多元组层次划分的分类方法及装置
本专利技术涉及文本挖掘及自动分类领域,尤其涉及一种多元组层次划分的分类方法及装置。
技术介绍
现有的文章分类模型是基于词频和概率把相同主题的文章按预先训练的分类器划分到不同的类别,但是申请人在对文本挖掘及自动分类领域的研究过程中发现,现有的文章分类模型是根据该模型的全局特征利用泛概率模型获取文章权重,不分领域,产生的误差较大,且不支持分布计算,运算量巨大,从而导致文章归类精度不高,响应时间长而且浪费硬件资源。
技术实现思路
针对上述问题,本专利技术的目的在于提供一种多元组层次划分的分类方法及装置,提高文章归类精度,缩短响应时间,合理利用硬件资源。本专利技术提供了一种多元组层次划分的分类方法,包括以下步骤:根据文档主题生成模型进行语料训练,生成多元组特征库;其中,所述多元组特征库包含至少一个元组的元组特征;所述元组特征拥有独属于自身的权重比例;根据所述多元组特征库中的各个元组特征生成对应所述元组特征的分类器;接收输入的待分类数据,通过所述待分类数据的特征选择对应的所述分类器,根据实体权重判别及概率权重判别对所述待分类数据进行判别分类, ...
【技术保护点】
一种多元组层次划分的分类方法,其特征在于,包括以下步骤:根据文档主题生成模型进行语料训练,生成多元组特征库;其中,所述多元组特征库包含至少一个元组的元组特征;所述元组特征拥有独属于自身的权重比例;根据所述多元组特征库中的各个元组特征生成对应所述元组特征的分类器;接收输入的待分类数据,通过所述待分类数据的特征选择对应的所述分类器,根据所述分类器的实体权重比例及概率权重比例对所述待分类数据进行判别分类,输出所述待分类数据所属分类。
【技术特征摘要】
1.一种多元组层次划分的分类方法,其特征在于,包括以下步骤:根据文档主题生成模型进行语料训练,生成多元组特征库;其中,所述多元组特征库包含至少一个元组的元组特征;所述元组特征拥有独属于自身的权重比例;根据所述多元组特征库中的各个元组特征生成对应所述元组特征的分类器;接收输入的待分类数据,通过所述待分类数据的特征选择对应的所述分类器,根据所述分类器的实体权重比例及概率权重比例对所述待分类数据进行判别分类,输出所述待分类数据所属分类。2.根据权利要求1所述的分类方法,其特征在于,在所述根据所述多元组特征库中的各个元组特征生成对应所述元组特征的分类器之后,还包括:根据元组之间的联系建立所述元组之间的跨域的非线性关联规则。3.根据权利要求1所述的分类方法,其特征在于,在所述接收输入的待分类数据,通过所述待分类数据的特征选择对应的所述分类器,根据所述分类器的实体权重比例及概率权重比例对所述待分类数据进行判别分类,输出所述待分类数据所属分类之后,还包括:根据所述元组特征及所述待分类数据进行自适应学习以自动调整分类器。4.根据权利要求1所述的分类方法,其特征在于,在接收输入的待分类数据,通过所述待分类数据的特征选择对应的所述分类器,根据所述分类器的实体权重比例及概率权重比例对所述待分类数据进行判别分类,输出所述待分类数据所属分类之后,还包括:根据不同粒度对已分类的所述待分类数据进行多元结果集合归档及分类索引;其中,所述粒度指所述待分类数据所属分类的范围。5.根据权利要求4所述的分类方法,其特征在于,所述根据不同粒度对已分类的所述待分类数据进行...
【专利技术属性】
技术研发人员:晋彤,李永康,
申请(专利权)人:广州特道信息科技有限公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。