【技术实现步骤摘要】
文本处理方法、文本分类方法、装置、设备及存储介质
[0001]本公开涉及互联网
,尤其涉及一种文本处理方法、文本分类方法、装置、设备及存储介质。
技术介绍
[0002]由于互联网的开放性及传播特性,网络舆情监测,获取网络舆情分析报告很有必要,舆情分析平台一般从网络中获取各种评论、文章、新闻等,然后,对该评论、文章等文本进分类。由于网络的文本大都是长文本,字数较多,而当前机器学习算法由于受机器内存和硬件配置的限制,无法对长文本的全部内容进行训练,以得到分类模型。因而,在将长文本输入到语言模型进行训练和分类时,往往需要对长文本进行预处理,使其满足语言模型的要求。
[0003]相关技术中,采用长文本对语言模型进行训练时,要么人工维护成本较高,要么训练得到的语言模型性能还不够理想,对文本分类的准确度较低。因而,有必要对长文本的处理方法和文本分类方法加以改进,使其适用于一些效果较好的语言模型,并且提升文本分类的准确性。
技术实现思路
[0004]本公开提供一种文本处理方法、文本分类方法、装置、设备及存储介 ...
【技术保护点】
【技术特征摘要】
1.一种文本处理方法,其特征在于,包括:获取待处理文本;在所述待处理文本的长度大于预设长度的情况下,从所述待处理文本中提取出所述预设长度的第一子文本;在第二子文本包括预设字符的情况下,拼接所述预设字符和所述第一子文本中的多个字符,得到所述预设长度的第一目标拼接文本;其中,所述第二子文本为所述待处理文本中除所述第一子文本之外的文本。2.根据权利要求1所述的文本处理方法,其特征在于,所述拼接所述预设字符和所述第一子文本中的多个字符,得到所述预设长度的第一目标拼接文本,包括:从所述第一子文本中提取出预设数量个字符;所述第一子文本中除所述预设数量个字符之外的字符的数量,与所述预设字符所包括的字符的数量相等;拼接所述预设数量个字符和所述预设字符,得到所述第一目标拼接文本。3.根据权利要求2所述的文本处理方法,其特征在于,所述在所述待处理文本的长度大于预设长度的情况下,从所述待处理文本中提取出所述预设长度的第一子文本,包括:以所述待处理文本的首位字符作为起始位置,向后一个字符的方向提取出第一数量的字符,得到首段文本;以所述待处理文本的末位字符作为终止位置,向前一个字符的方向提取出第二数量的字符,得到末段文本;将所述首段文本和所述末段文本作为所述第一子文本;所述第一数量与所述第二数量之间的差值小于预设数量阈值。4.根据权利要求3所述的文本处理方法,其特征在于,所述预设字符中包括第三数量个字符,所述从所述第一子文本中提取出预设数量个字符,包括:以所述首段文本的首位字符作为起始位置,向后一个字符的方向提取出第四数量的字符;以所述末段文本的末位字符作为终止位置,向前一个字符的方向提取出第五数量的字符;将所述第四数量的字符和所述第五数量的字符作为所述预设数量个字符;其中,所述第四数量小于所述第一数量,所述第五数量小于所述第二数量,第一差值与第二差值的和等于所述第三数量,所述第一差值表征所述第一数量与所述第四数量之间的差值,所述第二差值表征所述第二数量与所述第五数量之间的差值。5.一种文本分类方法,其特征在于,包括:获取待分类文本;在所述待分类文本的长度大于预设长度的情况下,从所述待分类文本中提取出所述预设长度的第一...
【专利技术属性】
技术研发人员:刘凡,高旭宁,张皓天,温瀚翔,张紫钰,
申请(专利权)人:北京达佳互联信息技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。