本发明专利技术实施例提供一种文本处理方法、模型训练方法、装置、设备和存储介质,该方法包括:先获取包含多个语句的待检测文本,再提取出多个语句各自对应的语句特征向量。先根据每个语句对应的语句特征向量确定此语句的类型,再根据每个语句的类型确定整个待检测文本的类型。可见,在上述分类过程实现了不同级别的分类,即在确定出整篇文本是否涉及敏感内容的同时,还可以具体确定出文本中具体是哪些语句涉及敏感内容,从而细化了文本的分类粒度。在实际应用中,语句级别以及文档级别的分类结果都可以输出给用户,以便用户根据不同级别的分类结果对整篇文本或者文本中的某些语句进行处理,也实现了细化对长文本数据的处理粒度的效果。也实现了细化对长文本数据的处理粒度的效果。也实现了细化对长文本数据的处理粒度的效果。
【技术实现步骤摘要】
文本处理方法、模型训练方法、装置、设备和存储介质
[0001]本专利技术涉及人工智能领域,尤其涉及一种种文本处理方法、模型训练方法、装置、设备和存储介质
技术介绍
[0002]对于互联网中存在的海量文本数据,其中往往会存在黄、暴、赌、毒等敏感内容。为了限制这些敏感内容地广泛传播,就需要准确地将其识别出来并进行相应处理。
[0003]现有技术中对于描写隐晦、语义理解困难的长文本数据,往往只能粗略识别出长文本数据整体是否是敏感类型,并不能识别出敏感内容在长文本数据中的具体位置,使得长文本数据的分类粒度较为粗糙,也使得对长文本数据的处理粒度较为粗糙。
技术实现思路
[0004]有鉴于此,本专利技术实施例提供一种文本处理方法、模型训练方法、装置、设备和存储介质,用以细化长文本数据分类的粒度以及处理粒度。
[0005]第一方面,本专利技术实施例提供一种文本处理方法,包括:
[0006]获取待检测文本,所述待检测文本包括多个语句;
[0007]提取所述多个语句各自对应的语句特征向量;
[0008]根据所述多个语句各自对应的语句特征向量确定所述多个语句各自的类型;
[0009]根据所述多个语句各自的类型确定所述待检测文本的类型。
[0010]第二方面,本专利技术实施例提供一种文本处理装置,包括:
[0011]获取模块,用于获取待检测文本,所述待检测文本包括多个语句;
[0012]提取模块,用于提取所述多个语句各自对应的语句特征向量;
[0013]第一类型确定模块,用于根据所述多个语句各自对应的语句特征向量确定所述多个语句各自的类型;
[0014]第二类型确定模块,用于根据所述多个语句各自的类型确定所述待检测文本的类型。
[0015]第三方面,本专利技术实施例提供一种电子设备,包括处理器和存储器,所述存储器用于存储一条或多条计算机指令,其中,所述一条或多条计算机指令被所述处理器执行时实现上述第一方面中的文本处理方法。该电子设备还可以包括通信接口,用于与其他设备或通信网络通信。
[0016]第四方面,本专利技术实施例提供了一种非暂时性机器可读存储介质,所述非暂时性机器可读存储介质上存储有可执行代码,当所述可执行代码被电子设备的处理器执行时,使所述处理器至少可以实现如第一方面所述的文本处理方法。
[0017]第五方面,本专利技术实施例提供一种模型训练方法,包括:
[0018]将训练文本输入分类模型中的语句编码网络,以由所述语句编码网络编码得到所述训练文本中多个语句各自的语句特征向量以及词语特征向量;
[0019]对于所述多个语句中的目标语句,将所述目标语句的词语特征向量输入所述语句编码网络中的分类层,以由所述分类层输出词语的类型,所述目标语句为所述多个语句的任一语句;
[0020]根据所述目标语句的词语的类型调整所述语句编码网络的网络参数;
[0021]将所述多个语句各自的语句特征向量输入所述分类模型中的语句分类网络,以由所述分类网络输出所述多个语句各自的类型;
[0022]将所述多个语句各自的类型输入所述分类模型中的文本分类网络,以由所述文本分类网络输出所述训练文本的类型;
[0023]根据所述训练文本的类型调整所述分类模型的模型参数。
[0024]第六方面,本专利技术实施例提供一种模型训练装置,包括:
[0025]第一输入模块,用于将训练文本输入分类模型中的语句编码网络,以由所述语句编码网络编码得到所述训练文本中多个语句各自的语句特征向量以及词语特征向量;
[0026]第二输入模块,用于对于所述多个语句中的目标语句,将所述目标语句的词语特征向量输入所述语句编码网络中的分类层,以由所述分类层输出词语的类型,所述目标语句为所述多个语句的任一语句;
[0027]第一调整模块,用于根据所述目标语句的词语的类型调整所述语句编码网络的网络参数;
[0028]第三输入模块,用于将所述多个语句各自的语句特征向量输入所述分类模型中的语句分类网络,以由所述分类网络输出所述多个语句各自的类型;
[0029]第四输入模块,用于将所述多个语句各自的类型输入所述分类模型中的文本分类网络,以由所述文本分类网络输出所述训练文本的类型;
[0030]第二调整模块,用于根据所述训练文本的类型调整所述分类模型的模型参数。
[0031]第七方面,本专利技术实施例提供一种电子设备,包括处理器和存储器,所述存储器用于存储一条或多条计算机指令,其中,所述一条或多条计算机指令被所述处理器执行时实现上述第五方面中的模型训练方法。该电子设备还可以包括通信接口,用于与其他设备或通信网络通信。
[0032]第八方面,本专利技术实施例提供了一种非暂时性机器可读存储介质,所述非暂时性机器可读存储介质上存储有可执行代码,当所述可执行代码被电子设备的处理器执行时,使所述处理器至少可以实现如第五方面所述的模型训练方法。
[0033]本专利技术实施例提供的文本处理方法,先获取包含多个语句的待检测文本,再分别对多个语句进行特征提取,以得到每个语句对应的语句特征向量。进一步地,根据多个语句各自对应的语句特征向量分别确定多个语句各自的类型,得到语句级别的分类结果。最终,再根据多个语句各自的类型确定整个待检测文本的类型,即得到文档级别的分类结果。可见,在上述分类过程实现了不同级别的分类,即在确定出整篇文本是否涉及敏感内容的同时,还可以具体确定出文本中具体是哪些语句涉及敏感内容,从而细化了文本的分类粒度。在实际应用中,语句级别以及文档级别的分类结果都可以输出给用户,以便用户根据不同级别的分类结果对整篇文本或者文本中的某些语句进行处理,也实现了细化对长文本数据的处理粒度的效果。
附图说明
[0034]为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0035]图1为本专利技术实施例提供的一种文本处理方法的流程图;
[0036]图2为本专利技术实施例提供的一种审核界面的示意图;
[0037]图3为本专利技术实施例提供的一种分类模型的结构示意图;
[0038]图4为本专利技术实施例提供的一种分类模型中语句编码网络工作过程的流程图;
[0039]图5为本专利技术实施例提供的一种分类模型中语句编码网络的结构示意图;
[0040]图6为本专利技术实施例提供的一种分类模型中语句分类网络工作过程的流程图;
[0041]图7为本专利技术实施例提供的一种分类模型中语句分类网络的结构示意图;
[0042]图8为本专利技术实施例提供的一种模型训练方法的流程图;
[0043]图9为图8所示实施例提供的模型训练方法中使用的语句编码网络的结构示意图;
[0044]图10为本专利技术实施例提供的文本处本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种文本处理方法,其特征在于,包括:获取待检测文本,所述待检测文本包括多个语句;提取所述多个语句各自对应的语句特征向量;根据所述多个语句各自对应的语句特征向量确定所述多个语句各自的类型;根据所述多个语句各自的类型确定所述待检测文本的类型。2.根据权利要求1所述的方法,其特征在于,所述根据所述多个语句各自对应的语句特征向量确定所述多个语句各自的类型,包括:将所述多个语句中的目标语句对应的语句特征向量输入神经网络,以捕获所述目标语句的上下文信息,所述目标语句为所述多个语句中的任一语句;获取所述目标语句的周围语句的标签;根据捕获了上下文信息的目标语句和所述周围语句的类型,确定所述目标语句的类型。3.根据权利要求2所述的方法,其特征在于,所述根据捕获了上下文信息的目标语句和所述周围语句的类型,确定所述目标语句的类型,包括:根据所述捕获了上下文信息的目标语句,确定所述目标语句的第一类型;根据所述周围语句的类型调整所述第一类型,得到所述目标语句的第二类型;根据所述捕获了上下文信息的目标语句和所述第二类型,得到所述目标语句的类型分布。4.根据权利要求3所述的方法,其特征在于,所述根据所述多个语句各自的类型确定所述待检测文本的类型,包括:通过注意力机制确定所述多个语句各自的类型分布的权重值;根据所述权重值对各语句的类型分布进行加权求和后,确定所述待检测文本的类型。5.根据权利要求1至4中任一所述的方法,其特征在于,所述提取所述多个语句各自对应的语句特征向量,包括:对所述多个语句中的目标语句进行分词,以获取所述目标语句中的多个词语,所述目标语句为所述多个语句中的任一语句;将所述多个词语与关键词词典进行比对,以得到所述多个词语各自的类型;根据所述多个词语以及所述多个词语各自的类型得到所述目标语句对应的语句特征向量。6.根据权利要求5所述的方法,其特征在于,所述根据所述多个词语以及所述多个词语各自的类型得到所述目标语句对应的语句特征向量,包括:获得所述多个词语中的目标词语对应的词语特征向量,所述目标词语为所述多个词语中的任一词语;根据所述目标词语的类型确定所述目标词语对应的标签向量;将所述目标词语对应的词语特征向量与所述标签向量进行拼接,以得到所述目标词语对应的拼接后特征向量;根据所述多个词语各自对应的拼接后特征向量,确定所述目标语句对应的语句特征向量。7.根据权利要求6所述的方法,其特征在于,所述根据所述多个词语各自对应的拼接后
特征向量,确定所述目标语句对应的语句特征向量,包括:通过注意力机制确定所述多个词语的权重值;根据所述权重值对所述多个词语各自对应的拼接后特征向量进行加权求和,以根据加权求和的结果确定所述目标语句的语句特征向量。8.一种模型训练方法,其特征在于,包括:分类子任务将训练文本输入分类模型中的语句编码网络,以由所述语句编码网络编...
【专利技术属性】
技术研发人员:宋凯嵩,孙常龙,康杨杨,刘晓钟,林君,
申请(专利权)人:阿里巴巴集团控股有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。