文本处理方法、相关设备、存储介质及计算机程序产品技术

技术编号:33081187 阅读:11 留言:0更新日期:2022-04-15 10:34
本申请实施例公开了一种文本处理方法、相关设备、存储介质及计算机程序产品,其中方法包括:获取待处理文本的句法结构特征及文本特征,以及获取结构化数据的结构化特征,所述待处理文本是在目标业务下产生的,所述结构化数据是指与所述目标业务相关的具有结构化特点的数据;对所述句法结构特征、文本特征及所述结构化特征进行特征融合处理,得到融合特征;基于所述融合特征对所述待处理文本进行文本分类,可以提升文本分类的准确度。可以提升文本分类的准确度。可以提升文本分类的准确度。

【技术实现步骤摘要】
文本处理方法、相关设备、存储介质及计算机程序产品


[0001]本申请涉及计算机
,尤其涉及一种文本处理方法、相关设备、存储介质及计算机程序产品。

技术介绍

[0002]计算机技术的迅猛发展使得计算机设备能够对文本数据进行多样化的文本处理,如对文本数据进行语义识别、文本分类、以及根据文本数据进行情感识别等。目前在对文本数据进行处理时,通常是从文本数据本身出发的,比如:调用用于文本分类或者文本识别的深度学习模型提取文本数据的整体表征,然后基于文本数据的整体表征进行文本分类、语义识别等处理。但是,从文本本身出发提取到的整体特征在信息表达上比较有限,从而可能影响文本处理结果(如:文本分类)的准确性。因此,如何提升文本分类的准确度成了当前的研究热点。

技术实现思路

[0003]本申请实施例提供了一种文本处理方法、相关设备、存储介质及计算机程序产品,可提升文本分类的准确度。
[0004]一方面,本申请实施例提供了一种文本处理方法,包括:
[0005]获取待处理文本的句法结构特征及文本特征,以及获取结构化数据的结构化特征,待处理文本是在目标业务下产生的,结构化数据是指与目标业务相关的具有结构化特点的数据;
[0006]对句法结构特征、文本特征及结构化特征进行特征融合处理,得到融合特征;
[0007]基于融合特征对待处理文本进行文本分类。
[0008]一方面,本申请实施例提供了一种文本处理装置,包括:
[0009]获取单元,用于获取待处理文本的句法结构特征及文本特征,以及获取结构化数据的结构化特征,待处理文本是在目标业务下产生的,结构化数据是指与目标业务相关的具有结构化特点的数据;
[0010]处理单元,用于对句法结构特征、文本特征及结构化特征进行特征融合处理,得到融合特征;
[0011]分类单元,用于基于融合特征对待处理文本进行文本分类。
[0012]在一种实施方式中,待处理文本包括一个或多个文本字符,获取单元具体用于执行:
[0013]采用文本分类模型对待处理文本进行句法结构分析,得到每个文本字符的依存角色;
[0014]获取每个文本字符的依存角色对应的特征值,并基于获取到的特征值生成待处理文本的句法结构特征。
[0015]在又一种实施方式中,结构化数据包括一个或多个数据对象;获取单元还具体用
于执行:
[0016]调用文本分类模型对结构化数据中每个数据对象进行预处理,得到每个数据对象的对象特征;
[0017]基于每个数据对象的对象特征以及特征向量化规则,对每个数据对象进行向量化处理,得到每个数据对象对应的特征向量;
[0018]基于每个数据对象对应的特征向量进行预设运算,得到结构化数据的结构化特征。
[0019]在又一种实施方式中,文本分类模型包括文本特征提取网络,获取单元还具体用于执行:
[0020]调用文本特征提取网络分别对待处理文本进行词法特征提取、句法特征提取以及语义特征提取,得到待处理文本对应词法特征、句法特征以及语义特征;
[0021]基于待处理文本对应的词法特征、句法特征以及语义特征,确定待处理文本的文本特征。
[0022]在又一种实施方式中,文本特征是调用文本特征提取网络对待处理文本进行特征提取得到的,文本特征提取网络是基于训练文本进行训练得到的,或者文本特征提取网络是基于训练文本和训练文本对应的句法结构特征训练得到的。
[0023]在又一种实施方式中,文本处理装置还包括训练单元,训练单元用于执行:
[0024]获取训练数据,训练数据包括:训练文本、与训练文本相关的结构化训练数据,以及训练文本对应的文本分类标签;
[0025]采用文本分类模型对训练文本进行文本分析处理,得到训练文本的句法结构特征及文本特征,并采用文本分类模型对结构化训练数据进行特征提取处理,得到结构化训练数据的结构化特征;
[0026]对训练文本的句法结构特征及文本特征,以及结构化训练数据的结构化特征进行融合处理,得到目标训练特征;
[0027]基于目标训练特征对训练文本进行文本分类处理,得到训练文本的预测分类标签;
[0028]基于预测分类标签与文本分类标签之间的差异信息,调整文本分类模型的模型参数。
[0029]在又一种实施方式中,结构化训练数据的结构化特征是文本分类模型基于特征向量化规则进行特征提取处理得到的;特征向量化规则包括一个或多个参数,模型参数包括每个依存角色对应的特征值,以及特征向量化规则中的每个参数;训练单元还可以具体用于执行:
[0030]基于预测分类标签与文本分类标签之间的差异信息,对依存角色对应的特征值以及特征向量化规则中的每个参数进行调整。
[0031]一方面,本申请实施例还提供了一种计算机设备,包括:
[0032]处理器,适于实现一条或多条计算机程序;
[0033]计算机存储介质,计算机存储介质存储有一条或多条计算机程序,一条或多条计算机程序适于由处理器加载并执行:
[0034]获取待处理文本的句法结构特征及文本特征,以及获取结构化数据的结构化特
征,待处理文本是在目标业务下产生的,结构化数据是指与目标业务相关的具有结构化特点的数据;对句法结构特征、文本特征及结构化特征进行特征融合处理,得到融合特征;基于融合特征对待处理文本进行文本分类。
[0035]一方面,本申请实施例还提供了一种计算机存储介质,计算机存储介质存储有一条或多条计算机程序,一条或多条计算机程序适于由处理器加载并执行:
[0036]获取待处理文本的句法结构特征及文本特征,以及获取结构化数据的结构化特征,待处理文本是在目标业务下产生的,结构化数据是指与目标业务相关的具有结构化特点的数据;对句法结构特征、文本特征及结构化特征进行特征融合处理,得到融合特征;基于融合特征对待处理文本进行文本分类。
[0037]一方面,本申请实施例还提供了一种计算机程序产品或计算机程序,该计算机程序产品包括计算机程序,计算机程序适于由处理器加载并执行:
[0038]获取待处理文本的句法结构特征及文本特征,以及获取结构化数据的结构化特征,待处理文本是在目标业务下产生的,结构化数据是指与目标业务相关的具有结构化特点的数据;对句法结构特征、文本特征及结构化特征进行特征融合处理,得到融合特征;基于融合特征对待处理文本进行文本分类。
[0039]在本申请实施例中,由于计算机设备在对待处理文本进行文本分类时,是基于待处理文本的句法结构特征及文本特征,以及结构化数据的结构化特征联合进行的,其中,结构化数据是指待处理文本所在目标业务中具有结构化特点的数据,在文本处理过程中引入结构化数据可以有效地引入结构化的先验知识,从而可以在一定程度上提升计算机设备进行文本分类的准确度。此外,将句法结构特征、文本特征及结构化特征进行特征融合处理,并基于特征融合处理后的融合文本特征进行文本分类,可以使得计算机设备获取到待处本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本处理方法,其特征在于,包括:获取待处理文本的句法结构特征及文本特征,以及获取结构化数据的结构化特征,所述待处理文本是在目标业务下产生的,所述结构化数据是指与所述目标业务相关的具有结构化特点的数据;对所述句法结构特征、所述文本特征及所述结构化特征进行特征融合处理,得到融合特征;基于所述融合特征对所述待处理文本进行文本分类。2.根据权利要求1所述的方法,其特征在于,所述待处理文本包括一个或多个文本字符;获取所述待处理文本的句法结构特征,包括:采用文本分类模型对所述待处理文本进行句法结构分析,得到每个文本字符的依存角色;获取所述每个文本字符的依存角色对应的特征值,并基于获取到的特征值生成所述待处理文本的句法结构特征。3.根据权利要求1所述的方法,其特征在于,所述结构化数据包括一个或多个数据对象;所述获取结构化数据的结构化特征,包括:调用文本分类模型对所述结构化数据中每个数据对象进行预处理,得到所述每个数据对象的对象特征;基于所述每个数据对象的对象特征以及特征向量化规则,对所述每个数据对象进行向量化处理,得到所述每个数据对象对应的特征向量;基于所述每个数据对象对应的特征向量进行预设运算,得到所述结构化数据的结构化特征。4.根据权利要求1或2所述的方法,其特征在于,文本分类模型包括文本特征提取网络;获取所述待处理文本的文本特征,包括:调用所述文本特征提取网络分别对所述待处理文本进行词法特征提取、句法特征提取以及语义特征提取,得到所述待处理文本对应词法特征、句法特征以及语义特征;基于所述待处理文本对应的词法特征、所述句法特征以及所述语义特征,确定所述待处理文本的文本特征。5.根据权利要求1所述的方法,其特征在于,所述文本特征是调用文本特征提取网络对所述待处理文本进行特征提取得到的,所述文本特征提取网络是基于训练文本进行训练得到的,或者所述文本特征提取网络是基于所述训练文本和所述训练文本对应的句法结构特征训练得到的。6.根据权利要求2所述的方法,其特征在于,所述方法还包括:获取训练数据,所述训练数据包括:训练文本、与所述训练文本相关的结构化训练数据,以及所述训练文本对应的文本分类标签;采用文本分类模型对所述训练文本进行文本分析处理,得到所述训练文本的句法结构特征及文本特征,...

【专利技术属性】
技术研发人员:铁瑞雪
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1