文本处理方法、装置、设备及存储介质制造方法及图纸

技术编号:32246358 阅读:54 留言:0更新日期:2022-02-09 17:50
本申请实施例公开了一种文本处理方法、装置、设备及存储介质,其中方法包括:对待分类文本进行文本特征提取,得到待分类文本对应的文本特征;基于文本特征对待分类文本进行文本主题特征提取,得到待分类文本对应的主题特征;将文本特征和主题特征进行拼接处理,并根据拼接处理结果对待分类文本进行文本主题预测,得到待分类文本对应的文本主题;基于文本主题对待分类文本进行文本分类,确定待分类文本所属类别。采用本申请实施例,简化文本审核流程,提高文本分类的准确率。高文本分类的准确率。高文本分类的准确率。

【技术实现步骤摘要】
文本处理方法、装置、设备及存储介质


[0001]本申请涉及计算机
,尤其涉及一种文本处理方法、装置、设备及存储介质。

技术介绍

[0002]在自然资源稀缺的背景下,传统能源行业面临了诸多挑战,例如:如何节省成本、如何提高产能、如何预防潜在问题等。为了预防潜在问题,通常需要对一些业务数据进行审核,以及时发现并解决问题。以油田安全生成和日常管理业务为例,通常需要对安全生成和日常管理的业务的相关文本进行审核。目前的文本审核仍然停留在人工对问题进行审核归类的阶段。由于待审核的问题文本具有体量大、类型复杂以及来源多样等特征,纯人工处理的方式存在人力成本高,效率等问题。因此,在文本审核领域中,如何进行高效的文本分类成为当今研究的热点问题之一。

技术实现思路

[0003]本申请实施例提供了一种文本处理方法,装置、设备及存储介质,提高文本分类的准确性。
[0004]一方面,本申请实施例提供了一种文本处理方法,包括:对待分类文本进行文本特征提取,得到所述待分类文本对应的文本特征;基于所述文本特征对所述待分类文本进行文本主题特征提取,得到所述待分类文本对应的主题特征;将所述文本特征和所述主题特征进行拼接处理,并根据拼接处理结果对所述待分类文本进行文本主题预测,得到所述待分类文本对应的文本主题;基于所述文本主题对所述待分类文本进行文本分类,确定所述待分类文本所属类别。
[0005]一方面,本申请实施例还提供了一种文本处理装置,包括:提取单元,用于对待分类文本进行文本特征提取,得到所述待分类文本对应的文本特征;所述提取单元,还用于基于所述文本特征对所述待分类文本进行文本主题特征提取,得到所述待分类文本对应的主题特征;拼接单元,用于将所述文本特征和所述主题特征进行拼接处理;预测单元,用于根据拼接处理结果对所述待分类文本进行文本主题预测,得到所述待分类文本对应的文本主题;确定单元,用于基于所述文本主题对所述待分类文本进行文本分类,确定所述待分类文本所属类别。
[0006]一方面,本申请实施例提供了一种文本处理设备,包括:处理器,适用于实现一条或多条计算机程序;计算机存储介质,所述计算机存储介质存储有一条或多条计算机程序,
所述一条或多条计算机程序适于由处理器加载并执行:对待分类文本进行文本特征提取,得到所述待分类文本对应的文本特征;基于所述文本特征对所述待分类文本进行文本主题特征提取,得到所述待分类文本对应的主题特征;将所述文本特征和所述主题特征进行拼接处理,并根据拼接处理结果对所述待分类文本进行文本主题预测,得到所述待分类文本对应的文本主题;基于所述文本主题对所述待分类文本进行文本分类,确定所述待分类文本所属类别。
[0007]一方面,本申请实施例提供了一种计算机存储介质,所述计算机存储介质存储有计算机程序,所述计算机程序被处理器执行时,用于执行:对待分类文本进行文本特征提取,得到所述待分类文本对应的文本特征;基于所述文本特征对所述待分类文本进行文本主题特征提取,得到所述待分类文本对应的主题特征;将所述文本特征和所述主题特征进行拼接处理,并根据拼接处理结果对所述待分类文本进行文本主题预测,得到所述待分类文本对应的文本主题;基于所述文本主题对所述待分类文本进行文本分类,确定所述待分类文本所属类别。
[0008]一方面,本申请实施例提供了一种计算机程序产品或计算机程序,所述计算机程序产品包括计算机程序,计算机程序存储在计算机存储介质中;文本处理设备的处理器从计算机存储介质中读取计算机程序,该处理器执行计算机程序,使得文本处理设备执行:对待分类文本进行文本特征提取,得到所述待分类文本对应的文本特征;基于所述文本特征对所述待分类文本进行文本主题特征提取,得到所述待分类文本对应的主题特征;将所述文本特征和所述主题特征进行拼接处理,并根据拼接处理结果对所述待分类文本进行文本主题预测,得到所述待分类文本对应的文本主题;基于所述文本主题对所述待分类文本进行文本分类,确定所述待分类文本所属类别。
[0009]本申请实施例中,在对待分类文本进行分类时,首先提取该待分类文本的文本特征,然后基于文本特征对待分类文本进行文本主题特征提取,得到待分类文本对应的主题特征,最后将文本特征和主题特征进行拼接处理,根据拼接处理结果对待分类文本进行主题预测,从而基于预测出的文本主题确定出待分类文本对应的文本主题。应当理解的,文本特征可以用于反映待分类文本的语义特征,将文本特征和主题特征进行拼接融合,实现了有效地结合文本的语义信息并得到更优的主题表示,进而基于拼接处理结果进行主题预测时,可以提高主题预测的准确性,从而也可以提供基于文本主题进行文本分类的准确性。
附图说明
[0010]为了更清楚地说明本申请实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0011]图1是本申请实施例提供的一种文本处理系统的结构示意图;图2是本申请实施例提供的一种文本处理方法的流程示意图;图3是本申请实施例提供的另一种文本处理方法的流程示意图;图4是本申请实施提供的一种LDA主题模型生成文本的示意图;图5是本申请实施例提供的一种文本分类模型的结构示意图;图6是本申请实施例提供的一种文本处理装置的流程示意图;
图7是本申请实施例提供的一种文本处理设备的结构的示意图。
具体实施方式
[0012]下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述。
[0013]本申请实施例提供了一种文本处理方案,可以用于对待分类文本进行分类,具体实现中,首先提取出待分类文本的文本特征,然后基于文本特征提取出待分类文本的主题特征,进一步的,将文本特征和主题特征进行拼接处理,并根据拼接处理结果进行文本主题预测,从而确定出待分类文本对应的主题;最后基于待分类文本对应的主题对待分类文本进行分类处理,确定出待分类文本所属类型。
[0014]该文本处理方案可由文本处理设备执行,文本处理设备可以是终端,比如智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表、车载终端、智能家电、智能语音交互设备等;或者,文本处理设备还可以是一个服务器,比如独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云计算服务的云服务器。
[0015]或者,该文本处理方案还可以由文本处理设备和文本管理服务器共同执行的,比如文本处理设备获取待分类文本,并将所述待分类文本传输给文本管理服务器,由文本管理服务器执行文本特征提取、主题特征提取、文本主题预测以及确定待分类文本所属类别的步骤。再如,文本处理设备获取待分类文本,将所述待分类文本传输给文本管理服务器之后,由文本管理服务器执行文本特征提取、主题特征提取以及文本主题预测,并将预测到的文本主题返回给文本处理设备,由文本处理设备基于预测到的文本主题对待分类文本进行分类处理。应当本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本处理方法,其特征在于,包括:对待分类文本进行文本特征提取,得到所述待分类文本对应的文本特征;基于所述文本特征对所述待分类文本进行文本主题特征提取,得到所述待分类文本对应的主题特征;将所述文本特征和所述主题特征进行拼接处理,并根据拼接处理结果对所述待分类文本进行文本主题预测,得到所述待分类文本对应的文本主题;基于所述文本主题对所述待分类文本进行文本分类,确定所述待分类文本所属类别。2.如权利要求1所述的方法,其特征在于,所述对所述待分类文本进行特征提取,包括:对所述待分类文本进行预处理,对预处理后的待分类文本进行特征提取;所述对所述待分类文本进行预处理,包括:对所述待分类文本进行分词处理,得到所述待分类文本对应的字词集,所述字词集中包括一个或多个字或者词;对所述字词集进行去停用词处理得到所述待分类文本包括的特征字词。3.如权利要求2所述的方法,其特征在于,所述对所述待分类文本进行特征提取,得到所述待分类文本对应的文本特征,包括:将所述待分类文本进行向量嵌入处理,得到所述待分类文本中每个特征字词对应的词向量;将所述每个特征字词对应的词向量进行线性变换处理,并对线性变换处理后的每个词向量进行注意力权重运算,得到所述待分类文本的文本特征。4.如权利要求1所述的方法,其特征在于,所述基于所述文本特征对所述待分类文本进行文本主题特征提取,包括:获取所述文本特征包括的特征字词,并为所述每个特征字词分配一个文本主题编号;对所述每个特征字词的文本主题编号吉布斯采样处理,当吉布斯采样收敛时,统计所述待分类文本中的文本主题分布,并将所述文本主题分布确定为所述待分类文本的主题特征。5.如权利要求1所述的方法,其特征在于,所述对所述待分类文本进行特征提取是调用文本特征处理模型执行的,所述基于所述文本特征对所述待分类文本进行文本主题特征提取是调用文本主题处理模型执行的;所述文本特征处理模型和所述文本主题处理模型均部署在文本分类模型中,所述文本特征处理模型与所述文本主题处理模型相连接;所述文本分类模型还包括全连接层和分类层,所述将所述文本特征和所述主题特征进行拼接处理,并根据拼接处理结果对所述待分类文本进行文本主题预测,得到所述待分类文本对应的文本主题,包括:调用所述全连接层将所述文本特征和所述主题特征进行拼接,得到目标长度的拼接处理结果;调用所述分类层采用分类函数基于所述拼接处理结果...

【专利技术属性】
技术研发人员:ꢀ七四专利代理机构
申请(专利权)人:成都数联云算科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1