【技术实现步骤摘要】
文本分类的方法、装置及电子设备
[0001]本申请涉及自然语言处理
,尤其涉及一种文本分类的方法、装置及电子设备。
技术介绍
[0002]文本分类指的是根据文本之间的相似度对文本进行分类。其中,常采用自监督方式完成文本分类,这是因为自监督方式完成文本分类不需要训练过程,以及不需要预先对文档手工标注类别,因此,具有一定的灵活性和较高的自动化处理能力,其已经成为对文本进行有效分类的重要手段。
[0003]相关技术中,对于文本进行分类时,仅仅使用标注的一级标签作为文本的分类依据,仅采用标注的一级标签作为文本的分类依据,易导致文本分类的准确性较低,因此,如何对文本进行更为精确的分类是本领域技术人员需要解决的技术问题。
技术实现思路
[0004]本申请提供一种文本分类的方法、装置及电子设备,以提高文本分类的准确度。
[0005]第一方面,本申请提供一种文本分类的方法,包括:获取待分类文本,所述待分类文本携带一级标签和二级标签,其中,所述二级标签为所述一级标签的子标签;对所述待分类文本进行分词,得到与所述待分类文本对应的多个第一词语;根据所述待分类文本中各第一词语之间的语法关系从所述待分类文本中确定所述待分类文本的主成分词,所述主成分词为所述第一词语中的至少一个;获取所述主成分词的第一义素向量,所述第一义素向量指示所述主成分词的语义;基于所述第一义素向量从所述一级标签和所述二级标签中确定所述文本句子所属的第一类别标签。
[0006]第二方面,本申请提供一种文本分类的装置,包括:获取模 ...
【技术保护点】
【技术特征摘要】
1.一种文本分类的方法,其特征在于,包括:获取待分类文本,所述待分类文本携带一级标签和二级标签,其中,所述二级标签为所述一级标签的子标签;对所述待分类文本进行分词,得到与所述待分类文本对应的多个第一词语;根据所述待分类文本中各第一词语之间的语法关系从所述待分类文本中确定所述待分类文本的主成分词,所述主成分词为所述第一词语中的至少一个;获取所述主成分词的第一义素向量,所述第一义素向量指示所述主成分词的语义;基于所述第一义素向量从所述一级标签和所述二级标签中确定所述文本句子所属的第一类别标签。2.根据权利要求1所述的文本分类的方法,其特征在于,所述基于所述第一义素向量从所述一级标签和所述二级标签确定所述待分类文本所属的第一类别标签包括:获取所述主成分词的第一词向量;获取所述一级标签的第二词向量和所述一级标签的第二义素向量,以及所述二级标签的第三词向量和所述二级标签的第三义素向量,所述第二义素向量指示所述一级标签的语义,所述第三义素向量指示所述二级标签的语义;根据所述第二词向量和所述第二义素向量确定所述一级标签的第一向量,以及根据所述第三词向量和所述第三义素向量确定所述二级标签的第二向量;基于所述第一词向量、所述第一义素向量、所述第一向量和所述第二向量对所述待分类文本进行分类,得到所述第一类别标签。3.根据权利要求2所述的文本分类的方法,其特征在于,所述基于所述第一词向量、所述第一义素向量、所述第一向量和所述第二向量对所述待分类文本进行分类,得到所述第一类别标签包括:分别计算所述第一词向量与所述第一向量之间的第一距离;在所述第一距离小于第一阈值的情况下,分别计算所述第一词向量与所述第二向量之间的第二距离,和所述第一义素向量与所述第二向量之间的第三距离;在所述第二距离小于第二阈值,且所述第三距离小于第三阈值的情况下,确定所述待分类文本所属的第一类别标签为所述二级标签;在所述第二距离不小于所述第二阈值或者所述第三距离不小于所述第三阈值的情况下,确定所述待分类文本所属的第一类别标签为所述一级标签。4.根据权利要求2所述的文本分类的方法,其特征在于,在所述基于所述第一义素向量从所述一级标签和所述二级标签确定所述待分类文本所属的第一类别标签之后,所述方法还包括:获取各所述第一词语所处的待分类文本的句子标识和在所处的待分类文本中的位置信息;获取各所述第一词语的第一初始化词向量,以及分别获取各所述第一词语的第四义素向量;对各所述第一词语的所述第一初始化词向量、所述第四义素向量、所述句子标识和所述位置信息进行叠加,得到各所述第一词语对应的第四词向量;根据各所述第一词语的所述第四词向量、所述第一向量以及所述第二向量对所述待分
类文本进行分类,得到所述待分类文本所属的第二类别标签;计算所述第一类别标签和所述第二类别标签的加权和,得到所述待分类文本的目标类别。5.根据权利要求4所述的文本分类的方法,其特征在于,根据所述第一词语的所述第四词向量、所述第一向量以及所述第二向量对所述待分类文本进行分类,得到所述待分类文本所属的第二类别标签的具体实现方式有:计算所述第四词向量与所述第一向量之间的第四距离;在所述第四距离小于第四阈值的情况下,计算所述第四词向量与所述第二向量之间的第五距离;在所述第五距离小于第五阈值...
【专利技术属性】
技术研发人员:白安琪,蒋宁,夏粉,吴海英,肖冰,
申请(专利权)人:马上消费金融股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。