分类方法、装置、电子设备及可读存储介质制造方法及图纸

技术编号:24169063 阅读:26 留言:0更新日期:2020-05-16 02:21
本申请实施例提供了一种分类方法、装置、电子设备及可读存储介质。该方法包括:确定待分类文本中所包含的各第一目标对象的第一分类特征词;提取待分类文本的文本特征,以及各第一分类特征词的词特征;将各第一目标对象的第一分类特征词的词特征分别与文本特征拼接,得到各第一目标对象所对应的组合特征,对于每个第一目标对象,基于第一目标对象所对应的组合特征,得到第一目标对象所对应的分类结果。本申请实施例中,在分类时基于文本特征和词特征拼接后得到的组合特征,确定最终的分类结果,相对于仅仅基于待分类文本自身的文本特征来确定分类结果,能够更好地挖掘分类结果的信息,提升特征抽取的准确性,提高了分类的效果。

Classification method, device, electronic equipment and readable storage medium

【技术实现步骤摘要】
分类方法、装置、电子设备及可读存储介质
本申请涉及文本分类
,具体而言,本申请涉及一种分类方法、装置、电子设备及可读存储介质。
技术介绍
文本分类(TextClassification)是指将文本按照一定的分类体系或标准进行自动分类标记。作为一种经典的自然语言处理任务,文本分类技术已经被广泛应用于已经应用在如情感分析、用户评论挖掘等各类场景中。而随着应用要求的提高,分类的粒度也越来越细化,以情感分析为例,细粒度情感分析,又称属性级情感分析,属于文本情感分析,是在更具体的维度上挖掘评价对象的情感属性,因此分析结果也更有参考意义和价值,其被广泛地应用于电商平台、新闻推荐、社交平台等领域。现有技术中,文本分类通常是对训练样本人工进行评价要素的标注,然后基于标注后的训练样本进行分类模型训练,并基于训练后的分类模型确定最终的分类结果。但是在实际应用中发现,目前分类模型中对评价要素提取的提取效果都不太理想,导致文本分类结果的准确性都有待提升。
技术实现思路
本申请的目的提供一种分类方法、装置、电子设备及可读存储介质本文档来自技高网...

【技术保护点】
1.一种分类方法,其特征在于,包括:/n确定待分类文本中所包含的各第一目标对象的第一分类特征词;/n提取所述待分类文本的文本特征,以及各所述第一分类特征词的词特征;/n将各所述第一目标对象的第一分类特征词的词特征分别与所述文本特征拼接,得到各所述第一目标对象所对应的组合特征;/n对于每个所述第一目标对象,基于所述第一目标对象所对应的所述组合特征,得到所述第一目标对象所对应的分类结果。/n

【技术特征摘要】
1.一种分类方法,其特征在于,包括:
确定待分类文本中所包含的各第一目标对象的第一分类特征词;
提取所述待分类文本的文本特征,以及各所述第一分类特征词的词特征;
将各所述第一目标对象的第一分类特征词的词特征分别与所述文本特征拼接,得到各所述第一目标对象所对应的组合特征;
对于每个所述第一目标对象,基于所述第一目标对象所对应的所述组合特征,得到所述第一目标对象所对应的分类结果。


2.根据权利要求1所述的方法,其特征在于,所述待分类文本为句子,所述提取所述待分类文本的文本特征,包括:
对所述待分类文本进行分词处理,并提取所述待分类文本中各第一分词的词向量,所述第一分词包括所述第一目标对象的分词;
将所述待分类文本中的每个第一分词的词向量分别与所述第一目标对象的词向量拼接,得到各第一分词对应的拼接向量;
基于所述各第一分词对应的拼接向量,提取得到所述待分类文本的文本特征。


3.根据权利要求1所述的方法,其特征在于,所述确定待分类文本所包含的各第一目标对象的第一分类特征词,包括:
基于类序列规则,确定待分类文本中各第一目标对象的第一分类特征词;
其中,所述类序列规则是基于基准样本文本中的标注序列确定的,所述标注序列表征了基准样本文本中所包含的各基准特征词的词性和词类别。


4.根据权利要求3所述的方法,其特征在于,所述基于类序列规则,确定待分类文本中各第一目标对象的第一分类特征词,包括:
确定各第一分词中所包含的基准特征词;
基于各第一分词的词性、以及各基准特征词的词类别,对所述待分类文本进行标注,得到所述待分类文本的标注序列;
基于所述类序列规则和所述待分类文本的标注序列,确定各所述第一分类特征词。


5.根据权利要求1至4中任一项所述的方法,其特征在于,在所述待分类文本中存在指定类型词时,提取第一分类特征词的词特征,包括:
将指定类型词和对应的所述第一分类特征词合并,得到合并后的第一分类特征词,其中,指定类型词是指影响所述第一分类特征词所对应的分类结果的词;
提取合并后的第一分类特征词的词特征作为所述第一分类特征词的词特征。


6.根据权利要求1至5中任一项所述的方法,其特征在于,所述方法是通过分类模型实现的,其中,所述分类模型是通过以下方式训练得到的:
获取各初始训练样本;
确定各所述初始训练样本中所包含的第二目标对象的第二分类特征词;
基于每个所述初始训练样本各自所包含的第二分类特征词,标注每个所述初始训练样本的分类标签,得到各标注后的训练样本;
基于标注后的各训练样本和各训练样本所对应的第二分类特征词,对初始神经网络模型进行训练,直至对应的损失函数收敛,所述损失函数的值表征了模型输出的训练样本的分类结果和分类标签对应的分类结果之间的差异。


7.根据权利要求6所述的方法,其特征在于,所述确定各所述初始训练样本中所包含的第二目标对象的第二分类特征词,包括:
确定基准样本文本;
基于所述基准样本文本,确定类序列规则;
基于所述类序列规则,确定各所述初始训练样本中所包含的第二目标对象的第二分类特征词。


8.根据权利要求7所述的方法,其特征在于,所述基准样本文本为句子,所述基于所述基准样本文本,确定类序列规则,包括:
对所述基准样本文本进行分词处理,得到各第二分词;
确定各第二分词中所包含的...

【专利技术属性】
技术研发人员:刘志煌
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1