文本处理的方法、装置及电子设备制造方法及图纸

技术编号:37600481 阅读:10 留言:0更新日期:2023-05-18 11:50
本申请实施例公开了一种文本处理的方法、装置及电子设备,该方法包括:获取携带N个类别标签的第一文本数据和未携带类别标签的第二文本数据;将第一文本数据划分为多个数据集,多个数据集包括至少一个第一数据集和至少一个第二数据集,第一数据集和第二数据集不相交;利用第一数据集中的数据生成与M个类别标签对应的M个第一范畴图;利用M个数量确定与M个类别标签对应的K个第一义素向量,第一义素向量用于指示对文本进行分类的目标语义信息;利用多个数据集中的数据生成与N个类别标签对应的N个第二范畴图,第二范畴图的语义范畴范围大于第一范畴图的语义范畴范围;根据K个第一义素向量和N个第二范畴图,对第二文本数据进行分类处理。进行分类处理。进行分类处理。

【技术实现步骤摘要】
文本处理的方法、装置及电子设备


[0001]本申请涉及自然语言处理
,尤其涉及一种文本处理的方法、装置及电子设备。

技术介绍

[0002]文本聚类是根据同类的文档的相似度较大,而不同类别的文档的相似性较小的远离对文本进行分类。常采用无监督方式或半监督方式完成文本聚类,这是因为无监督或半监督方式完成文本聚类不需要训练过程,以及不需要预先对文档手工标注类别,因此,具有一定的灵活性和较高的自动化处理能力,其已经成为对文本进行有效的组织的重要手段。
[0003]相关技术中,无监督或半监督聚类的方式本质上是通过计算句子向量之间的距离来确定句子向量是否属于同一类,其无法对句子向量具体表达哪些含义进行引导,如此,对文本进行分类后的分类准确度较差。

技术实现思路

[0004]本申请提供一种文本处理的方法、装置及电子设备,以提高文本分类的准确度。
[0005]第一方面,本申请提供一种文本处理的方法,包括:获取携带N个类别标签的第一文本数据和未携带类别标签的第二文本数据,N为大于1的整数;将所述第一文本数据划分为多个数据集,所述多个数据集包括至少一个第一数据集和至少一个第二数据集,所述第一数据集和所述第二数据集不相交;利用所述第一数据集中的数据生成与M个类别标签对应的M个第一范畴图,所述第一数据集包括所述M个类别标签的文本数据,所述范畴图用于表示其对应的类别标签的文本数据所表示的语义范畴,M为小于或等于N的整数;利用M个数量确定与所述M个类别标签对应的K个第一义素向量,所述M个数量为所述第二数据集中的数据分别在所述M个第一范畴图内的数量,所述第一义素向量用于指示对文本进行分类的目标语义信息,K为正整数;利用所述多个数据集中的数据生成与所述N个类别标签对应的N个第二范畴图,所述第二范畴图的语义范畴的范围大于所述第一范畴图的语义范畴范围;根据所述K个第一义素向量和所述N个第二范畴图,对所述第二文本数据进行分类处理。
[0006]第二方面,本申请提供一种文本处理的装置,包括:获取模块,用于获取携带N个类别标签的第一文本数据和未携带类别标签的第二文本数据,N为大于1的整数;划分模块,用于将所述第一文本数据划分为多个数据集,所述多个数据集包括至少一个第一数据集和至少一个第二数据集,所述第一数据集和所述第二数据集不相交;生成模块,用于利用所述第一数据集中的数据生成与M个类别标签对应的M个第一范畴图,所述第一数据集包括所述M个类别标签的文本数据,所述范畴图用于表示其对应的类别标签的文本数据所表示的语义范畴,M为小于或等于N的整数;确定模块,用于利用M个数量确定与所述M个类别标签对应的K个第一义素向量,所述M个数量为所述第二数据集中的数据分别在所述M个第一范畴图内的数量,所述第一义素向量用于指示对文本进行分类的目标语义信息,K为正整数;所述生成模块,还用于利用所述多个数据集中的数据生成与所述N个类别标签对应的N个第二范畴
图,所述第二范畴图的语义范畴的范围大于所述第一范畴图的语义范畴范围;处理模块,用于根据所述K个第一义素向量和所述N个第二范畴图,对所述第二文本数据进行分类处理。
[0007]第三方面,本申请提供一种电子设备,包括:处理器;用于存储所述处理器可执行指令的存储器;其中,所述处理器被配置为执行所述指令,以实现如第一方面所述的方法。
[0008]第四方面,本申请提供一种计算机可读存储介质,当所述存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行如第一方面所述的方法。
[0009]可以看出,通过获取携带N个类别标签的第一文本数据和未携带类别标签的第二文本数据,N为大于1的整数;将第一文本数据划分为多个数据集,多个数据集包括至少一个第一数据集和至少一个第二数据集,第一数据集和第二数据集不相交;利用第一数据集中的数据生成与M个类别标签对应的M个第一范畴图,第一数据集包括M个类别标签的文本数据,范畴图用于表示其对应的类别标签的文本数据所表示的语义范畴,M为小于或等于N的整数;利用M个数量确定与M个类别标签对应的K个第一义素向量,M个数量为第二数据集中的数据分别在M个第一范畴图内的数量,第一义素向量用于指示对文本进行分类的目标语义信息,K为正整数;利用多个数据集中的数据生成与N个类别标签对应的N个第二范畴图,第二范畴图的语义范畴范围大于第一范畴图的语义范畴范围;根据K个第一义素向量和N个第二范畴图,对第二文本数据进行分类处理。如此,本申请实施例中通过第一范畴图来确定表征文本的语义信息的义素向量,在对待分类的第二文本数据进行分类时,将表征文本的语义信息的义素向量和表示语义范畴的范畴图作为文本分类的依据,从而提高了文本分类的分类准确度。
附图说明
[0010]此处所说明的附图用来提供对本说明书的进一步理解,构成本说明书的一部分,本说明书的示意性实施例及其说明用于解释本说明书,并不构成对本说明书的不当限定。在附图中:
[0011]图1为本申请实施例提供的一种文本处理的方法的流程示意图;
[0012]图2为本申请实施例提供的另一种文本处理的方法的流程示意图;
[0013]图3为本申请实施例提供的一种文本处理的装置的结构示意图;
[0014]图4为本说明书的一个实施例提供的一种电子设备的结构示意图。
具体实施方式
[0015]为使本说明书的目的、技术方案和优点更加清楚,下面将结合本说明书具体实施例及相应的附图对本说明书技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本说明书一部分实施例,而不是全部的实施例。基于本说明书中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
[0016]本说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象,而不用于描述特定的顺序或先后次序。应理解这样使用的数据在适当情况下可以互换,以便本申请实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,本说明书以及权利要求书中“和/或”表示所连接对象的至少其中之一,字符“/”一般表示前后关联对象是一
种“或”的关系。
[0017]如前,无监督或半监督聚类的方式本质上是通过计算句子向量之间的距离来确定句子向量是否属于同一类,而在实际应用中,文本是否能分入同一类是与文本中表达的某一种共同的语义特征有关,而相关技术中的无监督或半监督的方式无法对句子向量具体表达哪些含义进行引导,如此,无监督或半监督的方式在语义距离上没有可解释性,对文本进行分类后的分类准确度较差。
[0018]为了提高文本分类的分类准确度。本申请实施例旨在提供一种文本处理的方案,其包括:获取携带N个类别标签的第一文本数据和未携带类别标签的第二文本数据,N为大于1的整数;将第一文本数据划分为多个数据集,多个数据集包括至少一个第一数据集和至少一个第二数据集,第一数据集和第二数据集不相交;利用第一数据集中的数据生成与M个类别标签对应的M个第一范畴图,第一数据集包括M个类别标签的文本数据,范畴图用于表示其对本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本处理的方法,其特征在于,包括:获取携带N个类别标签的第一文本数据和未携带类别标签的第二文本数据,N为大于1的整数;将所述第一文本数据划分为多个数据集,所述多个数据集包括至少一个第一数据集和至少一个第二数据集,所述第一数据集和所述第二数据集不相交;利用所述第一数据集中的数据生成与M个类别标签对应的M个第一范畴图,所述第一数据集包括所述M个类别标签的文本数据,范畴图用于表示其对应的类别标签的文本数据所表示的语义范畴,M为小于或等于N的整数;利用M个数量确定与所述M个类别标签对应的K个第一义素向量,所述M个数量为所述第二数据集中的数据分别在所述M个第一范畴图内的数量,所述第一义素向量用于指示对文本进行分类的目标语义信息,K为正整数;利用所述多个数据集中的数据生成与所述N个类别标签对应的N个第二范畴图,所述第二范畴图的语义范畴的范围大于所述第一范畴图的语义范畴范围;根据所述K个第一义素向量和所述N个第二范畴图,对所述第二文本数据进行分类处理。2.根据权利要求1所述的文本处理的方法,其特征在于,利用数据集i中的数据生成类别标签j对应的范畴图的具体实现方式有:对所述类别标签j对应的文本数据进行分词,得到X个第一词语,所述X个第一词语携带有所处的文本句子的句子标识和在所处的文本句子的位置信息,其中,X为正整数;通过词向量表分别获取所述X个第一词语的初始化词向量,以及通过义素向量表分别获取所述X个第一词语的第二义素向量;根据每个所述第一词语的所述初始化词向量、所述第二义素向量、所述句子标识和所述位置信息,确定每个所述第一词语的最终词向量;将所述数据集i中的文本数据的每个文本句子关联的所述最终词向量进行拼接,得到每个文本句子的句向量;根据所述类别标签j对应的句向量,生成所述类别标签j对应的范畴图;其中,若所述数据集i为所述第一数据集,则所述类别标签j为所述M个类别标签中的其中一个;若所述数据集i为所述多个数据集,则所述类别标签j为所述N个类别标签中的其中一个。3.根据权利要求2所述的文本处理的方法,其特征在于,所述根据所述类别标签j对应的句向量,生成所述类别标签j对应的范畴图,包括:确定所述类别标签j对应的每个文本句子关联的距离和,所述距离和用于表示其关联的文本句子的句向量至所述类别标签j对应的其他文本句子的句向量的距离和;将各所述距离和中最小距离和对应的文本句子的句向量作为所述类别标签j对应的中心点;确定多个点在所述中心点对应的坐标系中的空间位置,所述多个点为所述第一数据集中除所述最小距离和对应的文本句子之外的其他文本句子的句向量形成的点;将多个空间位置依次相连,生成所述类别标签j对应的范畴图。4.根据权利要求1所述的文本处理的方法,其特征在于,所述M个数量的确定方式有:
分别对所述第二数据集中M个类别标签对应的文本数据进行分词,得到多个第二词语,所述多个第二词语携带有所处的文本句子的句子标识和在所处的文本句子的位置信息;通过词向量表分别获取所述多个第二词语的初始化词向量,和通过义素向量表获取所述多个第二词语的第三义素向量;根据每个所述第二词语的初始化词向量、所述第三义素向量、所述句子标识和所述位置信息确定每个所述第二词语的最终词向量;...

【专利技术属性】
技术研发人员:白安琪蒋宁吴海英肖冰
申请(专利权)人:马上消费金融股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1