【技术实现步骤摘要】
文本处理方法、模型训练方法、装置、设备和存储介质
[0001]本专利技术涉及人工智能领域,尤其涉及一种种文本处理方法、模型训练方法、装置、设备和存储介质
技术介绍
[0002]对于互联网中存在的海量文本数据,其中往往会存在黄、暴、赌、毒等敏感内容。为了限制这些敏感内容地广泛传播,就需要准确地将其识别出来并进行相应处理。
[0003]现有技术中对于描写隐晦、语义理解困难的长文本数据,往往只能粗略识别出长文本数据整体是否是敏感类型,并不能识别出敏感内容在长文本数据中的具体位置,使得长文本数据的分类粒度较为粗糙,也使得对长文本数据的处理粒度较为粗糙。
技术实现思路
[0004]有鉴于此,本专利技术实施例提供一种文本处理方法、模型训练方法、装置、设备和存储介质,用以细化长文本数据分类的粒度以及处理粒度。
[0005]第一方面,本专利技术实施例提供一种文本处理方法,包括:
[0006]获取待检测文本,所述待检测文本包括多个语句;
[0007]提取所述多个语句各自对应的语句特征向量; />[0008]根据本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种文本处理方法,其特征在于,包括:获取待检测文本,所述待检测文本包括多个语句;提取所述多个语句各自对应的语句特征向量;根据所述多个语句各自对应的语句特征向量确定所述多个语句各自的类型;根据所述多个语句各自的类型确定所述待检测文本的类型。2.根据权利要求1所述的方法,其特征在于,所述根据所述多个语句各自对应的语句特征向量确定所述多个语句各自的类型,包括:将所述多个语句中的目标语句对应的语句特征向量输入神经网络,以捕获所述目标语句的上下文信息,所述目标语句为所述多个语句中的任一语句;获取所述目标语句的周围语句的标签;根据捕获了上下文信息的目标语句和所述周围语句的类型,确定所述目标语句的类型。3.根据权利要求2所述的方法,其特征在于,所述根据捕获了上下文信息的目标语句和所述周围语句的类型,确定所述目标语句的类型,包括:根据所述捕获了上下文信息的目标语句,确定所述目标语句的第一类型;根据所述周围语句的类型调整所述第一类型,得到所述目标语句的第二类型;根据所述捕获了上下文信息的目标语句和所述第二类型,得到所述目标语句的类型分布。4.根据权利要求3所述的方法,其特征在于,所述根据所述多个语句各自的类型确定所述待检测文本的类型,包括:通过注意力机制确定所述多个语句各自的类型分布的权重值;根据所述权重值对各语句的类型分布进行加权求和后,确定所述待检测文本的类型。5.根据权利要求1至4中任一所述的方法,其特征在于,所述提取所述多个语句各自对应的语句特征向量,包括:对所述多个语句中的目标语句进行分词,以获取所述目标语句中的多个词语,所述目标语句为所述多个语句中的任一语句;将所述多个词语与关键词词典进行比对,以得到所述多个词语各自的类型;根据所述多个词语以及所述多个词语各自的类型得到所述目标语句对应的语句特征向量。6.根据权利要求5所述的方法,其特征在于,所述根据所述多个词语以及所述多个词语各自的类型得到所述目标语句对应的语句特征向量,包括:获得所述多个词语中的目标词语对应的词语特征向量,所述目标词语为所述多个词语中的任一词语;根据所述目标词语的类型确定所述目标词语对应的标签向量;将所述目标词语对应的词语特征向量与所述标签向量进行拼接,以得到所述目标词语对应的拼接后特征向量;根据所述多个词语各自对应的拼接后特征向量,确定所述目标语句对应的语句特征向量。7.根据权利要求6所述的方法,其特征在于,所述根据所述多个词语各自对应的拼接后
特征向量,确定所述目标语句对应的语句特征向量,包括:通过注意力机制确定所述多个词语的权重值;根据所述权重值对所述多个词语各自对应的拼接后特征向量进行加权求和,以根据加权求和的结果确定所述目标语句的语句特征向量。8.一种模型训练方法,其特征在于,包括:分类子任务将训练文本输入分类模型中的语句编码网络,以由所述语句编码网络编...
【专利技术属性】
技术研发人员:宋凯嵩,孙常龙,康杨杨,刘晓钟,林君,
申请(专利权)人:阿里巴巴集团控股有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。