【技术实现步骤摘要】
文本处理的方法、装置及电子设备
[0001]本申请涉及自然语言处理
,尤其涉及一种文本处理的方法、装置及电子设备。
技术介绍
[0002]文本聚类是根据同类的文档的相似度较大,而不同类别的文档的相似性较小的远离对文本进行分类。常采用无监督方式或半监督方式完成文本聚类,这是因为无监督或半监督方式完成文本聚类不需要训练过程,以及不需要预先对文档手工标注类别,因此,具有一定的灵活性和较高的自动化处理能力,其已经成为对文本进行有效的组织的重要手段。
[0003]相关技术中,无监督或半监督聚类的方式本质上是通过计算句子向量之间的距离来确定句子向量是否属于同一类,其无法对句子向量具体表达哪些含义进行引导,如此,对文本进行分类后的分类准确度较差。
技术实现思路
[0004]本申请提供一种文本处理的方法、装置及电子设备,以提高文本分类的准确度。
[0005]第一方面,本申请提供一种文本处理的方法,包括:获取携带N个类别标签的第一文本数据和未携带类别标签的第二文本数据,N为大于1的整数;将所述第一文本数据划分为多个数据集,所述多个数据集包括至少一个第一数据集和至少一个第二数据集,所述第一数据集和所述第二数据集不相交;利用所述第一数据集中的数据生成与M个类别标签对应的M个第一范畴图,所述第一数据集包括所述M个类别标签的文本数据,所述范畴图用于表示其对应的类别标签的文本数据所表示的语义范畴,M为小于或等于N的整数;利用M个数量确定与所述M个类别标签对应的K个第一义素向量,所述M个数量为所述第二数据集中 ...
【技术保护点】
【技术特征摘要】
1.一种文本处理的方法,其特征在于,包括:获取携带N个类别标签的第一文本数据和未携带类别标签的第二文本数据,N为大于1的整数;将所述第一文本数据划分为多个数据集,所述多个数据集包括至少一个第一数据集和至少一个第二数据集,所述第一数据集和所述第二数据集不相交;利用所述第一数据集中的数据生成与M个类别标签对应的M个第一范畴图,所述第一数据集包括所述M个类别标签的文本数据,范畴图用于表示其对应的类别标签的文本数据所表示的语义范畴,M为小于或等于N的整数;利用M个数量确定与所述M个类别标签对应的K个第一义素向量,所述M个数量为所述第二数据集中的数据分别在所述M个第一范畴图内的数量,所述第一义素向量用于指示对文本进行分类的目标语义信息,K为正整数;利用所述多个数据集中的数据生成与所述N个类别标签对应的N个第二范畴图,所述第二范畴图的语义范畴的范围大于所述第一范畴图的语义范畴范围;根据所述K个第一义素向量和所述N个第二范畴图,对所述第二文本数据进行分类处理。2.根据权利要求1所述的文本处理的方法,其特征在于,利用数据集i中的数据生成类别标签j对应的范畴图的具体实现方式有:对所述类别标签j对应的文本数据进行分词,得到X个第一词语,所述X个第一词语携带有所处的文本句子的句子标识和在所处的文本句子的位置信息,其中,X为正整数;通过词向量表分别获取所述X个第一词语的初始化词向量,以及通过义素向量表分别获取所述X个第一词语的第二义素向量;根据每个所述第一词语的所述初始化词向量、所述第二义素向量、所述句子标识和所述位置信息,确定每个所述第一词语的最终词向量;将所述数据集i中的文本数据的每个文本句子关联的所述最终词向量进行拼接,得到每个文本句子的句向量;根据所述类别标签j对应的句向量,生成所述类别标签j对应的范畴图;其中,若所述数据集i为所述第一数据集,则所述类别标签j为所述M个类别标签中的其中一个;若所述数据集i为所述多个数据集,则所述类别标签j为所述N个类别标签中的其中一个。3.根据权利要求2所述的文本处理的方法,其特征在于,所述根据所述类别标签j对应的句向量,生成所述类别标签j对应的范畴图,包括:确定所述类别标签j对应的每个文本句子关联的距离和,所述距离和用于表示其关联的文本句子的句向量至所述类别标签j对应的其他文本句子的句向量的距离和;将各所述距离和中最小距离和对应的文本句子的句向量作为所述类别标签j对应的中心点;确定多个点在所述中心点对应的坐标系中的空间位置,所述多个点为所述第一数据集中除所述最小距离和对应的文本句子之外的其他文本句子的句向量形成的点;将多个空间位置依次相连,生成所述类别标签j对应的范畴图。4.根据权利要求1所述的文本处理的方法,其特征在于,所述M个数量的确定方式有:
分别对所述第二数据集中M个类别标签对应的文本数据进行分词,得到多个第二词语,所述多个第二词语携带有所处的文本句子的句子标识和在所处的文本句子的位置信息;通过词向量表分别获取所述多个第二词语的初始化词向量,和通过义素向量表获取所述多个第二词语的第三义素向量;根据每个所述第二词语的初始化词向量、所述第三义素向量、所述句子标识和所述位置信息确定每个所述第二词语的最终词向量;...
【专利技术属性】
技术研发人员:白安琪,蒋宁,吴海英,肖冰,
申请(专利权)人:马上消费金融股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。