文本分类方法、装置、设备以及存储介质制造方法及图纸

技术编号:37623899 阅读:19 留言:0更新日期:2023-05-18 12:15
本公开提供了一种文本分类方法、装置、设备以及存储介质,涉及人工智能技术领域,尤其涉及自然语言处理、深度学习等领域。具体实现方案为:获取待分类的目标文本,根据目标文本中的目标词在词图中的图嵌入特征,编码得到目标文本的表征。进而根据目标文本与至少一个样本文本之间的表征相似度,确定文本图中目标文本与至少一个样本文本之间的连接关系,并据此提取目标文本的图嵌入特征。根据目标文本在文本图中的图嵌入特征,对目标文本进行分类。基于目标词的图嵌入特征,对目标文本进行编码,使得作为外部语料的词图,参与到目标文本编码中,丰富了目标文本的表征,相应提高了据此进行的分类准确性。行的分类准确性。行的分类准确性。

【技术实现步骤摘要】
文本分类方法、装置、设备以及存储介质


[0001]本公开涉及人工智能
,具体为自然语言处理、深度学习等领域,可应用于短文本分类,语义分析和意图识别等应用场景,尤其涉及文本分类方法、装置、设备以及存储介质。

技术介绍

[0002]文本分类(Text Classification)是语义分析、意图识别等很多应用场景的基础任务。在语义分析场景下,分类的类别可以是不同的语义。相类似地,在意图识别的场景下,分类的类别则可以是不同的意图。
[0003]针对短文本分类任务,由于受文本长度限制,短文本缺少上下文信息和严格的语法结构,使得短文本很难被理解,分类的准确性也就得不到保证。

技术实现思路

[0004]本公开提供了一种文本分类方法、装置、设备以及存储介质。
[0005]根据本公开的第一方面,提供了一种文本分类方法,包括:
[0006]获取待分类的目标文本,其中,所述目标文本中包含至少一个处于词图中的目标词;
[0007]根据所述目标词在词图中的图嵌入特征,编码得到所述目标文本的表征;
[0008]根据所述目标文本与至少一个样本文本之间的表征相似度,确定文本图中所述目标文本与所述至少一个样本文本之间的连接关系;
[0009]根据所述文本图中所述目标文本与所述至少一个样本文本之间的连接关系,提取所述目标文本的图嵌入特征;
[0010]根据所述目标文本在所述文本图中的图嵌入特征,对所述目标文本进行分类。
[0011]根据本公开的第二方面,提供了一种模型训练方法,包括:
[0012]从样本集中获取任一目标样本文本,其中,所述目标样本文本中包含至少一个处于词图中的目标词;
[0013]根据所述目标词在所述词图中的图嵌入特征,编码得到所述目标样本文本的表征;
[0014]根据所述目标样本文本与所述样本集中其余样本文本之间的表征相似度,确定文本图中所述目标样本文本与所述其余样本文本之间的连接关系;
[0015]根据所述文本图中的连接关系,提取得到所述目标样本文本的图嵌入特征;
[0016]根据所述目标样本文本的图嵌入特征,采用分类器对所述目标样本文本进行分类,得到预测类别;
[0017]根据所述预测类别与所述目标样本文本的期望类别之间的差异,调整所述分类器的模型参数。
[0018]根据本公开的第三方面,提供了一种文本分类装置,包括:
[0019]第一获取模块,用于获取待分类的目标文本,其中,所述目标文本中包含至少一个处于词图中的目标词;
[0020]第一编码模块,用于根据所述目标词在词图中的图嵌入特征,编码得到所述目标文本的表征;
[0021]第一确定模块,用于根据所述目标文本与至少一个样本文本之间的表征相似度,确定文本图中所述目标文本与所述至少一个样本文本之间的连接关系;
[0022]第一提取模块,用于根据所述文本图中所述目标文本与所述至少一个样本文本之间的连接关系,提取所述目标文本的图嵌入特征;
[0023]第一分类模块,用于根据所述目标文本在所述文本图中的图嵌入特征,对所述目标文本进行分类。
[0024]根据本公开的第四方面,提供了一种模型训练装置,包括:
[0025]第二处理模块,用于从样本集中获取任一目标样本文本,其中,所述目标样本文本中包含至少一个处于词图中的目标词;
[0026]第二编码模块,用于根据所述目标词在所述词图中的图嵌入特征,编码得到所述目标样本文本的表征;
[0027]第二确定模块,用于根据所述目标样本文本与所述样本集中其余样本文本之间的表征相似度,确定文本图中所述目标样本文本与所述其余样本文本之间的连接关系;
[0028]第二提取模块,用于根据所述文本图中的连接关系,提取得到所述目标样本文本的图嵌入特征;
[0029]第二分类模块,用于根据所述目标样本文本的图嵌入特征,采用分类器对所述目标样本文本进行分类,得到预测类别;
[0030]第一训练模块,用于根据所述预测类别与所述目标样本文本的期望类别之间的差异,调整所述分类器的模型参数。
[0031]根据本公开的第五方面,提供了一种电子设备,包括:
[0032]至少一个处理器;以及
[0033]与所述至少一个处理器通信连接的存储器;其中,
[0034]所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行第一方面所述的方法,或者,第二方面所述的方法。
[0035]根据本公开第六方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行第一方面所述的方法,或者,第二方面所述的方法。
[0036]根据本公开第七方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据第一方面所述的方法,或者,第二方面所述的方法。
[0037]本公开实施例所提供的文本分类方法、装置、设备以及存储介质,通过获取待分类的目标文本,其中,目标文本中包含至少一个处于词图中的目标词,根据目标词在词图中的图嵌入特征,编码得到目标文本的表征。进而,根据目标文本与至少一个样本文本之间的表征相似度,确定文本图中目标文本与至少一个样本文本之间的连接关系,并据此提取目标文本的图嵌入特征。根据目标文本在文本图中的图嵌入特征,对目标文本进行分类。本公开
实施例中,将词图作为外部语料,在词图中对目标词提取的图嵌入特征指示了目标词在外部语料中理解得到的语义信息。基于目标词的图嵌入特征,对目标文本进行编码,使得作为外部语料的词图,参与到目标文本编码中,丰富了目标文本的表征,相应提高了据此进行的分类准确性。
[0038]应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
[0039]附图用于更好地理解本方案,不构成对本公开的限定。其中:
[0040]图1为本公开实施例提供的一种文本分类方法的流程示意图;
[0041]图2为本公开实施例提供的另一种文本分类方法的流程示意图;
[0042]图3为本公开实施例提供的另一种文本分类方法的流程示意图;
[0043]图4为本公开实施例提供的一种模型训练方法的流程示意图;
[0044]图5为本公开实施例提供的另一种模型训练方法的流程示意图;
[0045]图6为本公开实施例提供的另一种模型训练方法的流程示意图;
[0046]图7为本公开实施例提供的一种文本分类装置70的结构示意图;
[0047]图8为本公开实施例提供的一种模型训练装置80的结构示意图;
[0048]图9示出了可以用来实施本公开的实施例的示例电子设备900的示意性框图。
具体实施方式
[0049]以下结合附图对本公开本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本分类方法,包括:获取待分类的目标文本,其中,所述目标文本中包含至少一个处于词图中的目标词;根据所述目标词在词图中的图嵌入特征,编码得到所述目标文本的表征;根据所述目标文本与至少一个样本文本之间的表征相似度,确定文本图中所述目标文本与所述至少一个样本文本之间的连接关系;根据所述文本图中所述目标文本与所述至少一个样本文本之间的连接关系,提取所述目标文本的图嵌入特征;根据所述目标文本在所述文本图中的图嵌入特征,对所述目标文本进行分类。2.根据权利要求1所述的方法,其中,所述根据所述目标词在词图中的图嵌入特征,编码得到所述目标文本的表征,包括:将所述目标词在所述词图中的图嵌入特征,与采用预训练模型对所述目标词进行语义特征提取得到的词嵌入特征进行特征融合,得到所述目标词的融合特征;根据所述目标文本中所述目标词的融合特征,编码得到所述目标文本的表征。3.根据权利要求2所述的方法,其中,所述根据所述目标文本中所述目标词的融合特征,编码得到所述目标文本的表征,包括:在所述目标词为多个的情况下,根据各所述目标词的词频-逆文本频率,确定对应目标词的融合权重;依据各所述目标词的融合权重,加权融合各所述目标词的融合特征,以得到所述目标文本的表征。4.根据权利要求1-3任一项所述的方法,其中,所述根据所述目标文本与至少一个样本文本之间的表征相似度,确定文本图中所述目标文本与所述至少一个样本文本之间的连接关系,包括:基于所述目标文本的表征与所述至少一个样本文本的表征之间的余弦相似度,确定所述目标文本与所述至少一个样本文本之间的表征相似度;从所述至少一个样本文本之中,确定所述表征相似度大于阈值的关联样本文本;在所述文本图中,确定所述目标文本与所述关联样本文本之间存在连接,所述目标文本与所述至少一个样本文本中除所述关联样本文本以外的样本文本之间不存在连接。5.根据权利要求1-3任一项所述的方法,其中,所述根据所述文本图中所述目标文本与所述至少一个样本文本之间的连接关系,提取所述目标文本的图嵌入特征,包括:在所述文本图中,确定与所述目标文本之间存在连接的至少一个关联样本文本;根据所述目标文本与所述至少一个关联样本文本之间的表征相似度,对所述至少一个关联样本文本的表征进行传递;基于所述至少一个关联样本文本传递的表征和/或所述目标文本的表征进行表征聚合,以得到所述目标文本的图嵌入特征。6.根据权利要求1-3任一项所述的方法,其中,所述根据所述目标文本在所述文本图中的图嵌入特征,对所述目标文本进行分类,包括:将所述目标文本在所述文本图中的图嵌入特征输入分类器,以基于所述分类器的输出确定所述目标文本的分类。7.根据权利要求1-3任一项所述的方法,其中,所述方法还包括:
对语料集合中的语料进行分词,得到多个候选词;从所述多个候选词中删除词频少于设定取值的候选词,以及删除属于停用词集合中的候选词;将保留的候选词添加到全局池中;根据全局池中任两词之间的共现数据,建立所述词图。8.一种模型训练方法,包括:从样本集中获取任一目标样本文本,其中,所述目标样本文本中包含至少一个处于词图中的目标词;根据所述目标词在所述词图中的图嵌入特征,编码得到所述目标样本文本的表征;根据所述目标样本文本与所述样本集中其余样本文本之间的表征相似度,确定文本图中所述目标样本文本与所述其余样本文本之间的连接关系;根据所述文本图中的连接关系,提取得到所述目标样本文本的图嵌入特征;根据所述目标样本文本的图嵌入特征,采用分类器对所述目标样本文本进行分类,得到预测类别;根据所述预测类别与所述目标样本文本的期望类别之间的差异,调整所述分类器的模型参数。9.根据权利要求8所述的方法,其中,所述根据所述目标词在所述词图中的图嵌入特征,编码得到所述目标样本文本的表征,包括:采用第一图神经网络,获取所述目标词在所述词图中的图嵌入特征;将所述目标词在所述词图中的图嵌入特征,与采用预训练模型对所述目标词进行语义特征提取得到的词嵌入特征进行特征融合,得到所述目标词的融合特征;根据所述目标样本文本中所述目标词的融合特征,编码得到所述目标样本文本的表征。10.根据权利要求9所述的方法,其中,所述方法还包括:根据所述预测类别与所述目标样本文本的期望类别之间的差异,调整所述第一图神经网络的模型参数。11.根据权利要求9所述的方法,其中,所述根据所述目标样本文本中所述目标词的融合特征,编码得到所述目标样本文本的表征,包括:在所述目标词为多个的情况下,根据各所述目标词的词频-逆文本频率,确定对应目标词的融合权重;依据各所述目标词的融合权重,加权融合各所述目标词的融合特征,以得到所述目标样本文本的表征。12.根据权利要求8-11任一项所述的方法,其中,所述根据所述文本图中的连接关系,提取得到所述目标样本文本的图嵌入特征,包括:在所述文本图中,确定与所述目标样本文本之间存在连接的至少一个关联样本文本;根据所述目标文本与所述至少一个关联样本文本之间的表征相似度,采用第二图神经网络对所述至少一个关联样本文本的表征进行传递,以及基于所述至少一个关联样本文本传递的表征和/或所述目标文本的表征进行表征聚合,以得到所述目标文本的图嵌入特征。13.根据权利要求12所述的方法,其中,所述方法还包括:
根据所述预测类别与所述目标样本文本的期望类别之间的差异,调整所述第二图神经网络的模型参数。14.根据权利要求8-11任一项所述的方法,其中,所述方法还包括:对语料集合中的语料进行分词,得到多个候选词;从所述多个候选词中删除词频少于设定取值的候选词,以及删除属于停用词集合中的候选词;将保留的候选词添加到全局池中;根据全局池中任两词之间的共现数据,建立所述词图。15.一种文本分类装置,包括:第一获取模块,用于获取待分类的目标文本,其中,所述目标文本中包含至少一个处于词图中的目标词;第一编码模块,用于根据所述目标词在词图中的图嵌入特征,编码得到所述目标文本的表征;第一确定模...

【专利技术属性】
技术研发人员:王雅晴窦德景
申请(专利权)人:百度在线网络技术北京有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1