【技术实现步骤摘要】
文本处理方法、装置及计算机设备
[0001]本专利技术涉及文本识别领域,尤其涉及一种文本处理方法、装置及计算机设备。
技术介绍
[0002]目前,主流的深度学习网络模型能够处理的文本数据往往是定长数据,如512字,然而应用到实际中时经常会需要处理超出长度限制的数据,这一问题在自然语言处理中尤为突出。实际应用中,增加模型可处理长度会二次方增加显存开销。在显存开销受限的情况下,有时也会出现让定长文本的分类模型处理大量大段文本的情况。
[0003]现有技术的一个朴素的方法是对文本做简单的截取,例如取头512字或尾512字,这种方法比较粗暴,会破坏句子的结构,存在失去重要信息的风险。
[0004]因此,现在亟需一种能够把文本缩短到合适的长度,同时保留语句结构和重要信息的文本数据处理方法。
技术实现思路
[0005]针对现有技术中存在的弊端,本专利技术提供了一种文本处理方法、装置及计算机设备,具体方案如下:
[0006]第一方面,本公开实施例提供了一种文本处理方法,所述方法包括:
[00 ...
【技术保护点】
【技术特征摘要】
1.一种文本处理方法,其特征在于,所述方法包括:将待处理文本拆分为多个分句;将所有分句输入情感分类模型,以获得每个分句对应各类情感的概率;根据每个分句对应各类情感的概率计算各分句的置信分;将置信分大于或者等于预设阈值的分句按顺序拼接为整句,作为所述待处理文本的处理结果输出。2.根据权利要求1所述的文本处理方法,其特征在于,所述方法还包括预先建立所述情感分类模型,建立所述情感分类模型的步骤包括:建立初始神经网络模型;将不同情感类型对应的多个样本文本及情感类型标签,输入所述初始神将网络模型进行训练,得到基线情感分类模型;将所述多个样本文本拆分为样本分句并输入所述基线情感分类模型进行模型优化训练,得到所述情感分类模型。3.根据权利要求2所述的文本处理方法,其特征在于,所述将所述多个样本文本拆分为样本分句并输入所述基线情感分类模型进行模型优化训练,得到所述情感分类模型的步骤,包括:将所有样本分句输入所述基线情感分类模型,以获得每个样本分句对应各类情感的概率;根据每个样本分句对应各类情感的概率计算各样本分句的置信分;利用置信分大于或者等于预设阈值的样本分句对所述基线情感分类模型进行训练,得到所述情感分类模型。4.根据权利要求2所述的文本处理方法,其特征在于,全部情感类型的数量为至少2个,每个分句对应各类情感的概率之和为1。5.根据权利要求1所述的文本处理方法,其特征在于,置信分的计算步骤包括:利用公式Score=exp(p1log p1+p2log p2+
…
+p
n
log p<...
【专利技术属性】
技术研发人员:胡韬,熊军,张继晟,
申请(专利权)人:虎博网络技术北京有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。