文本分类的方法、装置及电子设备制造方法及图纸

技术编号:37969219 阅读:6 留言:0更新日期:2023-06-30 09:44
本申请公开了一种文本分类的方法、装置及电子设备,通过获取待分类文本,其中,待分类文本携带一级标签和二级标签,对待分类文本进行分词,得到与待分类文本对应的多个第一词语,再根据待分类文本中各第一词语之间的语法关系从待分类文本中确定待分类文本的主成分词,再获取该主成分词的第一义素向量,第一义素向量指示主成分词的语义,即通过获取待分类文本中的主成分词可以关注到句子主干,为待分类文本的分类提取出更多的可靠信息,通过获取待分类文本中主成分词的义素向量,可以更细粒度的知晓待分类文本所表达的含义,最后基于第一义素向量从一级标签和二级标签中确定待分类文本所属的第一类别标签,提高了待分类文本的分类精确度。类精确度。类精确度。

【技术实现步骤摘要】
文本分类的方法、装置及电子设备


[0001]本申请涉及自然语言处理
,尤其涉及一种文本分类的方法、装置及电子设备。

技术介绍

[0002]文本分类指的是根据文本之间的相似度对文本进行分类。其中,常采用自监督方式完成文本分类,这是因为自监督方式完成文本分类不需要训练过程,以及不需要预先对文档手工标注类别,因此,具有一定的灵活性和较高的自动化处理能力,其已经成为对文本进行有效分类的重要手段。
[0003]相关技术中,对于文本进行分类时,仅仅使用标注的一级标签作为文本的分类依据,仅采用标注的一级标签作为文本的分类依据,易导致文本分类的准确性较低,因此,如何对文本进行更为精确的分类是本领域技术人员需要解决的技术问题。

技术实现思路

[0004]本申请提供一种文本分类的方法、装置及电子设备,以提高文本分类的准确度。
[0005]第一方面,本申请提供一种文本分类的方法,包括:获取待分类文本,所述待分类文本携带一级标签和二级标签,其中,所述二级标签为所述一级标签的子标签;对所述待分类文本进行分词,得到与所述待分类文本对应的多个第一词语;根据所述待分类文本中各第一词语之间的语法关系从所述待分类文本中确定所述待分类文本的主成分词,所述主成分词为所述第一词语中的至少一个;获取所述主成分词的第一义素向量,所述第一义素向量指示所述主成分词的语义;基于所述第一义素向量从所述一级标签和所述二级标签中确定所述文本句子所属的第一类别标签。
[0006]第二方面,本申请提供一种文本分类的装置,包括:获取模块,用于获取待分类文本,所述待分类文本携带一级标签和二级标签,其中,所述二级标签为所述一级标签的子标签;分词模块,用于对所述待分类文本进行分词,得到与所述待分类文本对应的多个第一词语;确定模块,用于根据所述待分类文本中各第一词语之间的语法关系从所述待分类文本中确定所述待分类文本的主成分词,所述主成分词为所述第一词语中的至少一个;所述获取模块,还用于获取所述主成分词的第一义素向量,所述第一义素向量指示所述主成分词的语义;所述确定模块,还用于基于所述第一义素向量从所述一级标签和所述二级标签确定所述待分类文本所属的第一类别标签。
[0007]第三方面,本申请提供一种电子设备,包括:处理器;用于存储所述处理器可执行指令的存储器;其中,所述处理器被配置为执行所述指令,以实现如第一方面所述的方法。
[0008]第四方面,本申请提供一种计算机可读存储介质,当所述存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行如第一方面的方法。
[0009]可以看出,通过获取待分类文本,其中,待分类文本携带一级标签和二级标签,二级标签为一级标签的子标签,对待分类文本进行分词,得到与待分类文本对应的多个第一
词语,再根据待分类文本中各第一词语之间的语法关系从待分类文本中确定待分类文本的主成分词,主成分词为第一词语中的至少一个,再获取该主成分词的第一义素向量,第一义素向量指示主成分词的语义,也就是说,通过获取待分类文本中的主成分词可以关注到句子主干,为待分类文本的分类提取出更多的可靠信息,通过获取待分类文本中主成分词的义素向量,可以更细粒度的知晓待分类文本所表达的含义,最后基于第一义素向量从一级标签和二级标签中确定待分类文本所属的第一类别标签,即以待分类文本中主成分词的义素向量指示的语义作为分类依据从一级标签和二级标签中选择出更适合于该待分类文本的类别标签,提高了待分类文本的分类精确度。
附图说明
[0010]此处所说明的附图用来提供对本说明书的进一步理解,构成本说明书的一部分,本说明书的示意性实施例及其说明用于解释本说明书,并不构成对本说明书的不当限定。在附图中:
[0011]图1为本申请实施例提供的一种文本分类的方法的流程示意图;
[0012]图2为本申请实施例提供的一种文本分类的装置的结构示意图;
[0013]图3为本说明书的一个实施例提供的一种电子设备的结构示意图。
具体实施方式
[0014]为使本说明书的目的、技术方案和优点更加清楚,下面将结合本说明书具体实施例及相应的附图对本说明书技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本说明书一部分实施例,而不是全部的实施例。基于本说明书中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
[0015]本说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象,而不用于描述特定的顺序或先后次序。应理解这样使用的数据在适当情况下可以互换,以便本申请实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,本说明书以及权利要求书中“和/或”表示所连接对象的至少其中之一,字符“/”一般表示前后关联对象是一种“或”的关系。
[0016]如前,对于文本分类仅仅使用标注的一级标签作为文本的分类依据,但是对于文本的一级标签而言,可以对一级标签进行进一步的划分形成二级标签从而对文本进行更细粒度的划分,但是目前对于文本进行分类时,仅采用标注的一级标签作为文本的分类依据,导致文本分类的准确性较低,因此,如何对文本进行更为精确的分类是本领域技术人员需要解决的技术问题。
[0017]为了提高文本分类的分类准确度。本申请实施例旨在提供一种文本分类的方案,其包括:获取待分类文本,所述待分类文本携带一级标签和二级标签,其中,所述二级标签为所述一级标签的子标签;对所述待分类文本进行分词,得到与所述待分类文本对应的多个第一词语;根据所述待分类文本中各第一词语之间的语法关系从所述待分类文本中确定所述待分类文本的主成分词,所述主成分词为所述第一词语中的至少一个;获取所述主成分词的第一义素向量,所述第一义素向量指示所述主成分词的语义;基于所述第一义素向
量从所述一级标签和所述二级标签中确定所述文本句子所属的第一类别标签。
[0018]通过本申请实施例公开的技术方案,通过获取待分类文本,其中,待分类文本携带一级标签和二级标签,二级标签为一级标签的子标签,对待分类文本进行分词,得到与待分类文本对应的多个第一词语,再根据待分类文本中各第一词语之间的语法关系从待分类文本中确定待分类文本的主成分词,主成分词为第一词语中的至少一个,再获取该主成分词的第一义素向量,第一义素向量指示主成分词的语义,也就是说,通过获取待分类文本中的主成分词可以关注到句子主干,为待分类文本的分类提取出更多的可靠信息,通过获取待分类文本中主成分词的义素向量,可以更细粒度的知晓待分类文本所表达的含义,最后基于第一义素向量从一级标签和二级标签中确定待分类文本所属的第一类别标签,即以待分类文本中主成分词的义素向量指示的语义作为分类依据从一级标签和二级标签中选择出更适合于该待分类文本的类别标签,提高了待分类文本的分类精确度。
[0019]应理解,本申请实施例提供的文本分类的方法均可以由电子设备执行或安装在电子设备中的软件执行,具体可以由终端设备或服务端设备执行。其中,文本处理方法可本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本分类的方法,其特征在于,包括:获取待分类文本,所述待分类文本携带一级标签和二级标签,其中,所述二级标签为所述一级标签的子标签;对所述待分类文本进行分词,得到与所述待分类文本对应的多个第一词语;根据所述待分类文本中各第一词语之间的语法关系从所述待分类文本中确定所述待分类文本的主成分词,所述主成分词为所述第一词语中的至少一个;获取所述主成分词的第一义素向量,所述第一义素向量指示所述主成分词的语义;基于所述第一义素向量从所述一级标签和所述二级标签中确定所述文本句子所属的第一类别标签。2.根据权利要求1所述的文本分类的方法,其特征在于,所述基于所述第一义素向量从所述一级标签和所述二级标签确定所述待分类文本所属的第一类别标签包括:获取所述主成分词的第一词向量;获取所述一级标签的第二词向量和所述一级标签的第二义素向量,以及所述二级标签的第三词向量和所述二级标签的第三义素向量,所述第二义素向量指示所述一级标签的语义,所述第三义素向量指示所述二级标签的语义;根据所述第二词向量和所述第二义素向量确定所述一级标签的第一向量,以及根据所述第三词向量和所述第三义素向量确定所述二级标签的第二向量;基于所述第一词向量、所述第一义素向量、所述第一向量和所述第二向量对所述待分类文本进行分类,得到所述第一类别标签。3.根据权利要求2所述的文本分类的方法,其特征在于,所述基于所述第一词向量、所述第一义素向量、所述第一向量和所述第二向量对所述待分类文本进行分类,得到所述第一类别标签包括:分别计算所述第一词向量与所述第一向量之间的第一距离;在所述第一距离小于第一阈值的情况下,分别计算所述第一词向量与所述第二向量之间的第二距离,和所述第一义素向量与所述第二向量之间的第三距离;在所述第二距离小于第二阈值,且所述第三距离小于第三阈值的情况下,确定所述待分类文本所属的第一类别标签为所述二级标签;在所述第二距离不小于所述第二阈值或者所述第三距离不小于所述第三阈值的情况下,确定所述待分类文本所属的第一类别标签为所述一级标签。4.根据权利要求2所述的文本分类的方法,其特征在于,在所述基于所述第一义素向量从所述一级标签和所述二级标签确定所述待分类文本所属的第一类别标签之后,所述方法还包括:获取各所述第一词语所处的待分类文本的句子标识和在所处的待分类文本中的位置信息;获取各所述第一词语的第一初始化词向量,以及分别获取各所述第一词语的第四义素向量;对各所述第一词语的所述第一初始化词向量、所述第四义素向量、所述句子标识和所述位置信息进行叠加,得到各所述第一词语对应的第四词向量;根据各所述第一词语的所述第四词向量、所述第一向量以及所述第二向量对所述待分
类文本进行分类,得到所述待分类文本所属的第二类别标签;计算所述第一类别标签和所述第二类别标签的加权和,得到所述待分类文本的目标类别。5.根据权利要求4所述的文本分类的方法,其特征在于,根据所述第一词语的所述第四词向量、所述第一向量以及所述第二向量对所述待分类文本进行分类,得到所述待分类文本所属的第二类别标签的具体实现方式有:计算所述第四词向量与所述第一向量之间的第四距离;在所述第四距离小于第四阈值的情况下,计算所述第四词向量与所述第二向量之间的第五距离;在所述第五距离小于第五阈值...

【专利技术属性】
技术研发人员:白安琪蒋宁夏粉吴海英肖冰
申请(专利权)人:马上消费金融股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1