一种分类方法和相关装置制造方法及图纸

技术编号:24206577 阅读:18 留言:0更新日期:2020-05-20 14:55
本申请实施例公开一种分类方法,在对待分类语料进行分类之前,若待分类语料中包括多个表征待分类对象的第一类别特征词和与分类需求相关的第二类别特征词,根据待分类语料对应的词性序列确定体现分类关联关系的类别特征词序列,分类关联关系用于体现第二类别特征词与第一类别特征词之间的关联关系。这样,根据该类别特征词序列构建的分类特征向量携带了类别特征词之间的分类关联关系信息。分类模型可以直接根据分类特征向量携带的分类关联关系信息确定类别特征词分别与哪个待分类对象相关,从而对待分类对象进行分类,降低了对分类模型的要求和分类模型的训练难度。同时,由于类别特征词序列符合语言表达规律,故可以保证得到的分类关联关系准确。

A classification method and related devices

【技术实现步骤摘要】
一种分类方法和相关装置
本申请涉及数据处理领域,特别是涉及一种分类方法和相关装置。
技术介绍
基于文本语料的分类处理是信息处理技术中重要的技术,随着用户需求的不断增加,篇章级或句子级的分类已经难以满足用户的需求,如何针对文本语料中包括的多个对象进行分类已经成为电商平台、新闻推荐、社交平台等领域的情感分析、垃圾短消息分类等各种应用场景的迫切需求。一些相关技术中,在基于文本语料确定出体现待分类对象的属性词后,将该属性词输入至注意力机制的神经网络模型,从而根据神经网络模型的注意力机制实现针对不同待分类对象进行分类。然而,在一些情况下,这种方式容易出现分类错误,而为了提高分类准确性,需要提高对神经网络模型的要求,增大了神经网络模型的训练难度。
技术实现思路
为了解决上述技术问题,本申请提供了一种分类方法,降低了对分类模型的要求,降低了分类模型的训练难度。同时,由于类别特征词序列是有先后顺序的,其先后顺序符合语言表达规律,故可以保证得到的分类关联信息准确,进而准确的进行后续分类。本申请实施例公开了如下技术方案:第一方面,本申请实施例提供一种分类方法,所述方法包括:根据待分类语料对应的词性序列确定体现分类关联关系的类别特征词序列,所述待分类语料中包括多个表征待分类对象的第一类别特征词和与分类需求相关的第二类别特征词,所述分类关联关系用于体现所述第二类别特征词与所述第一类别特征词之间的关联关系;根据所述类别特征词序列构建分类特征向量,所述分类特征向量体现出不同类别的语料特点;根据所述分类特征向量,通过分类模型对所述待分类语料进行分类,所述分类模型为非深度学习模型。第二方面,本申请实施例提供一种分类装置,所述装置包括确定单元、构建单元和分类单元:所述确定单元,用于根据待分类语料对应的词性序列确定体现分类关联关系的类别特征词序列,所述待分类语料中包括多个表征待分类对象的第一类别特征词和与分类需求相关的第二类别特征词,所述分类关联关系用于体现所述第二类别特征词与所述第一类别特征词之间的关联关系;所述构建单元,用于根据所述类别特征词序列构建分类特征向量,所述分类特征向量体现出不同类别的语料特点;所述分类单元,用于根据所述分类特征向量,通过分类模型对所述待分类语料进行分类,所述分类模型为非深度学习模型。第三方面,本申请实施例提供一种用于分类的设备,所述设备包括处理器以及存储器:所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;所述处理器用于根据所述程序代码中的指令执行第一方面所述的方法。第四方面,本申请实施例提供一种计算机可读存储介质,所述计算机可读存储介质用于存储程序代码,所述程序代码用于执行第一方面所述的方法。由上述技术方案可以看出,为了能够降低对分类模型的要求,本申请提供的分类方法在对待分类语料进行分类之前,若待分类语料中包括多个表征待分类对象的第一类别特征词和与分类需求相关的第二类别特征词,可以根据待分类语料对应的词性序列确定体现分类关联关系的类别特征词序列,该分类关联关系用于体现第二类别特征词与第一类别特征词之间的关联关系,即体现出分类时各个类别特征词分别是与哪个待分类对象有关联关系的,哪些分类特征词是没有关联关系的。这样,根据该类别特征词序列构建的分类特征向量携带了类别特征词之间的分类关联关系信息。由于输入到分类模型中的分类特征向量中携带了类别特征词之间的分类关联关系信息,且分类特征向量可以体现出不同类别的语料特点,即使待分类语料中包括多个待分类对象,分类模型也可以直接根据已有的分类关联关系信息确定类别特征词分别与哪个待分类对象相关,从而对待分类对象进行分类,降低了对分类模型的要求,降低了分类模型的训练难度。同时,由于类别特征词序列是有先后顺序的,其先后顺序符合语言表达规律,故可以保证得到的分类关联关系准确,进而准确的进行后续分类。附图说明为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1为本申请实施例提供的分类方法的应用场景示意图;图2为本申请实施例提供的一种分类方法的流程图;图3为本申请实施例提供的根据类序列规则提取类别特征词流程图;图4为本申请实施例提供的拼接字词向量得到混合编码的过程图;图5为本申请实施例提供的类别特征词序列中各字词向量拼接结果示例图;图6为本申请实施例提供的基于上下文特征进行编码构建分类特征向量的示例图;图7为本申请实施例提供的基于词性序列特征构建分类特征向量的示例图;图8为本申请实施例提供的一种分类方法的流程图;图9为本申请实施例提供的一种分类装置的结构图;图10为本申请实施例提供的一种终端设备的结构图;图11为本申请实施例提供的一种服务器的结构图。具体实施方式下面结合附图,对本申请的实施例进行描述。一些相关技术中,在针对文本语料中包括多个待分类对象进行分类时,在基于文本语料确定出体现待分类对象的属性词后,将该属性词输入至注意力机制的神经网络模型,从而根据神经网络模型的注意力机制学习属性词与哪些分类特征词具有关联关系,以便可以知晓根据哪些分类特征词对一个待分类对象进行分类。例如,在电商平台场景中,用户发表了一条评论信息“房间很舒服,服务很好,价格不便宜”,为了更好地衡量用户对产品的喜好情况,可以挖掘用户对产品属性的情感。其中,该评论信息中包括多个产品属性“房间”、“服务”和“价格”,以及多个其他与情感分类相关的类别特征词,例如情感词“舒服”、“好”,程度副词“很”,否定词“不”。然而,为了可以针对每个属性进行准确的情感分类,神经网络模型需要通过不断的学习各个类别特征词之间的关联关系,从而知晓哪些类别特征词是与“房间”的情感分类相关,哪些类别特征词是与“服务”的情感分类相关,哪些类别特征词是与“价格”的情感分类相关。在这些情况下,这种方式容易出现分类错误,而为了提高分类准确性,需要提高对神经网络模型的要求,增大了神经网络模型的训练难度。为此,本申请实施例提供一种分类方法,该方法可以应用到数据处理设备,该数据处理设备可以是终端设备,终端设备例如可以是智能终端、计算机、个人数字助理(PersonalDigitalAssistant,简称PDA)、平板电脑等设备。该数据处理设备还可以是服务器,该服务器可以为独立服务器,也可以为集群服务器。服务器可以将分类结果发送至终端设备进行展示。本申请实施例提供的分类方法可以应用于情感分析、垃圾消息识别、划分级别、黑客攻击识别等领域。本申请主要以情感分析为例进行详细介绍,情感分析可以应用到多种场景中,例如应用于电子商务、新闻资讯、微博论坛等领域,适用于舆情分析本文档来自技高网...

【技术保护点】
1.一种分类方法,其特征在于,所述方法包括:/n根据待分类语料对应的词性序列确定体现分类关联关系的类别特征词序列,所述待分类语料中包括多个表征待分类对象的第一类别特征词和与分类需求相关的第二类别特征词,所述分类关联关系用于体现所述第二类别特征词与所述第一类别特征词之间的关联关系;/n根据所述类别特征词序列构建分类特征向量,所述分类特征向量体现出不同类别的语料特点;/n根据所述分类特征向量,通过分类模型对所述待分类语料进行分类,所述分类模型为非深度学习模型。/n

【技术特征摘要】
1.一种分类方法,其特征在于,所述方法包括:
根据待分类语料对应的词性序列确定体现分类关联关系的类别特征词序列,所述待分类语料中包括多个表征待分类对象的第一类别特征词和与分类需求相关的第二类别特征词,所述分类关联关系用于体现所述第二类别特征词与所述第一类别特征词之间的关联关系;
根据所述类别特征词序列构建分类特征向量,所述分类特征向量体现出不同类别的语料特点;
根据所述分类特征向量,通过分类模型对所述待分类语料进行分类,所述分类模型为非深度学习模型。


2.根据权利要求1所述的方法,其特征在于,所述根据待分类语料对应的词性序列确定体现分类关联关系的类别特征词序列,包括:
根据目标类序列规则,确定所述类别特征词序列;所述目标类序列规则标识所述第二类别特征词与所述第一类别特征词之间的分类关联关系。


3.根据权利要求2所述的方法,其特征在于,所述目标类序列规则是根据历史语料挖掘得到的。


4.根据权利要求3所述的方法,其特征在于,所述目标类序列规则的挖掘方式为:
从所述历史语料对应的多个词性序列中确定满足支持度阈值的频繁序列;
若所述频繁序列的置信度满足置信度阈值,则确定所述频繁序列符合目标类序列规则。


5.根据权利要求4所述的方法,其特征在于,所述频繁序列的置信度为所述频繁序列中具有的类别标签数量与预设类别标签数量的比值。


6.根据权利要求2所述的方法,其特征在于,若所述待分类语料包括多个,所述目标类序列规则是根据多个所述待分类语料挖掘得到的。


7.根据权利要求6所述的方法,其特征在于,若所述词性序列中存在未标注的类别特征词,所述根据目标类序列规则,确定所述类别特征词序列之前,所述方法还包括:
根据所述目标类序列规则中的类别标签,确定所述词性序列中未标注的类别特征词所属类别,挖掘得到所述词性序列对应的全部类别特征词。


8.根据权利要求1-7任一项所述的方法,其特征在于,所述根据所述类别特征词序列构建分类特征向量,包括:
根据类别特征词在所述类别特征词序列中的相关信息构建所述分类特征向量。


9.根据权利要求8所述的方法,其特征在于,所述根据类别特征词在所述类别特征词序列中的相关信息构建所述分类特征向量,包括以下...

【专利技术属性】
技术研发人员:刘志煌
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1