【技术实现步骤摘要】
文本分类方法、装置、计算机设备、存储介质
[0001]本说明书涉及自然语言处理领域,尤其涉及一种文本分类方法、装置、计算机设备、存储介质。
技术介绍
[0002]文本分类是自然语言处理领域中的常见任务。文本分类可以应用于多种业务场景下,比如,判断客服所使用的话术是否为合格话术,判断客户所说的内容是否在表述某个特定问题。常规的文本分类模型中,只能够考虑到文本的局部特征,无法兼顾文本在语料库中的全局特征,因此,常规的文本分类方法的准确率有待提高。
技术实现思路
[0003]本说明书实施例的目的是提供一种文本分类方法、装置、计算机设备、存储介质,有利于提高文本分类的准确率和处理效率。
[0004]为了实现上述技术方案,本说明书实施例是这样实现的:
[0005]第一方面,本说明书一实施例提供的一种文本分类方法,包括:
[0006]获取语料库中存储的多个相似文本所对应的多个文本数据,所述多个文本数据中的部分文本数据具有分类标签,所述分类标签用于指示文本数据的文本分类结果;
[0007]根 ...
【技术保护点】
【技术特征摘要】
1.一种文本分类方法,其特征在于,包括:获取语料库中存储的多个相似文本所对应的多个文本数据,所述多个文本数据中的部分文本数据具有分类标签,所述分类标签用于指示文本数据的文本分类结果;根据所述多个文本数据中每两个文本数据之间的文本相似度构建图数据,其中,每个文本数据用于指示所述多个相似文本的局部信息,所述图数据用于指示所述多个相似文本的全局信息;将所述每个文本数据和所述图数据输入到待训练的文本分类模型中进行模型训练,得到训练后的文本分类模型和所述多个文本数据中不具有分类标签的文本数据的文本分类结果。2.根据权利要求1所述的方法,其特征在于,所述根据所述多个文本数据中每两个文本数据之间的文本相似度构建图数据,包括:将所述多个文本数据中的每两个文本数据进行组合,得到文本数据对;根据每个所述文本数据对所包括的两个文本数据之间的文本相似度,在各个所述文本数据对中筛选出目标文本数据对;根据所述目标文本数据对所包括的两个文本数据构建图数据。3.根据权利要求2所述的方法,其特征在于,所述根据每个所述文本数据对所包括的两个文本数据之间的文本相似度,在各个所述文本数据对中筛选出目标文本数据对,包括:确定每个所述文本数据对所包括的两个文本数据在文字层面上的文本相似度;在各个所述文本数据对中筛选出在所述文字层面的文本相似度满足第一预设相似度要求的文本数据对作为候选文本数据对;确定每个所述候选文本数据对所包括的两个文本数据在语义层面上的文本相似度;在所述候选文本数据对中筛选出在所述语义层面的文本相似度满足第二预设相似度要求的候选文本数据对作为目标文本数据对。4.根据权利要求2所述的方法,其特征在于,所述根据所述目标文本数据对所包括的两个文本数据构建图数据,包括:对于每个所述目标文本数据对,将所述目标文本数据对所包括的两个文本数据转换为两个节点,并建立所述两个节点之间的连接关系;基于各个所述目标文本数据对所对应的节点之间的连接关系,构建邻接矩阵;基于各个所述目标文本数据对所对应的节点的特征向量,构建节点特征矩阵;根据所述邻接矩阵和所述节点特征矩阵,构建所述图数据。5.根据权利要求4所述的方法,其特征在于,所述待训练的文本分类模型包括第一分类网络,所述第一分类网络包括M层图卷积层,所述M为大于或等于1的整数;所述将所述每个文本数据和所述图数据输入到待训练的文本分类模型中进行模型训练,包括:通过所述第一分类网络中的各个所述图卷积层对所述图数据进行图卷积处理,得到所述图数据的第一处理结果;其中,第1层所述图卷积层的输入为所述图数据对应的所述邻接矩阵和所述节点特征矩阵;第j层所述图卷积层的输入为第j
‑
1层所述图卷积层的输出和所述图数据对应的所述邻接矩阵;每一所述图卷积层均对输入数据进行图卷积处理;第M层所述图卷积层的输出为所述图数据的第一处理结果;所述图数据的第一处理结果包括所述每个文本数据的第一处理结果;j为大于1且小于M的整数。
6.根据权利要求5所述的方法,其特征在于,所述待训练的文本分类模型还包括第二分类网络,所述第二分类网络包括多个卷积网络且每个所述卷积网络中的卷积核大小不相同,每个所述卷积网络均包括池化层和N层卷积层;所述N为大于或等于1的整数;所述将所述每个文本数据和所述图数据输入到待训练的文本分类模型中进行模型训练,包括:针对所述每个...
【专利技术属性】
技术研发人员:赵宏宇,石婉玉,蒋宁,李可新,
申请(专利权)人:马上消费金融股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。