【技术实现步骤摘要】
文本分类方法、装置、设备以及存储介质
[0001]本公开涉及人工智能
,具体为自然语言处理、深度学习等领域,可应用于短文本分类,语义分析和意图识别等应用场景,尤其涉及文本分类方法、装置、设备以及存储介质。
技术介绍
[0002]文本分类(Text Classification)是语义分析、意图识别等很多应用场景的基础任务。在语义分析场景下,分类的类别可以是不同的语义。相类似地,在意图识别的场景下,分类的类别则可以是不同的意图。
[0003]针对短文本分类任务,由于受文本长度限制,短文本缺少上下文信息和严格的语法结构,使得短文本很难被理解,分类的准确性也就得不到保证。
技术实现思路
[0004]本公开提供了一种文本分类方法、装置、设备以及存储介质。
[0005]根据本公开的第一方面,提供了一种文本分类方法,包括:
[0006]获取待分类的目标文本,其中,所述目标文本中包含至少一个处于词图中的目标词;
[0007]根据所述目标词在词图中的图嵌入特征,编码得到所述目标文本的表征;
[0008]根据所述目标文本与至少一个样本文本之间的表征相似度,确定文本图中所述目标文本与所述至少一个样本文本之间的连接关系;
[0009]根据所述文本图中所述目标文本与所述至少一个样本文本之间的连接关系,提取所述目标文本的图嵌入特征;
[0010]根据所述目标文本在所述文本图中的图嵌入特征,对所述目标文本进行分类。
[0011]根据本公开的第二方面,提供了一种 ...
【技术保护点】
【技术特征摘要】
1.一种文本分类方法,包括:获取待分类的目标文本,其中,所述目标文本中包含至少一个处于词图中的目标词;根据所述目标词在词图中的图嵌入特征,编码得到所述目标文本的表征;根据所述目标文本与至少一个样本文本之间的表征相似度,确定文本图中所述目标文本与所述至少一个样本文本之间的连接关系;根据所述文本图中所述目标文本与所述至少一个样本文本之间的连接关系,提取所述目标文本的图嵌入特征;根据所述目标文本在所述文本图中的图嵌入特征,对所述目标文本进行分类。2.根据权利要求1所述的方法,其中,所述根据所述目标词在词图中的图嵌入特征,编码得到所述目标文本的表征,包括:将所述目标词在所述词图中的图嵌入特征,与采用预训练模型对所述目标词进行语义特征提取得到的词嵌入特征进行特征融合,得到所述目标词的融合特征;根据所述目标文本中所述目标词的融合特征,编码得到所述目标文本的表征。3.根据权利要求2所述的方法,其中,所述根据所述目标文本中所述目标词的融合特征,编码得到所述目标文本的表征,包括:在所述目标词为多个的情况下,根据各所述目标词的词频-逆文本频率,确定对应目标词的融合权重;依据各所述目标词的融合权重,加权融合各所述目标词的融合特征,以得到所述目标文本的表征。4.根据权利要求1-3任一项所述的方法,其中,所述根据所述目标文本与至少一个样本文本之间的表征相似度,确定文本图中所述目标文本与所述至少一个样本文本之间的连接关系,包括:基于所述目标文本的表征与所述至少一个样本文本的表征之间的余弦相似度,确定所述目标文本与所述至少一个样本文本之间的表征相似度;从所述至少一个样本文本之中,确定所述表征相似度大于阈值的关联样本文本;在所述文本图中,确定所述目标文本与所述关联样本文本之间存在连接,所述目标文本与所述至少一个样本文本中除所述关联样本文本以外的样本文本之间不存在连接。5.根据权利要求1-3任一项所述的方法,其中,所述根据所述文本图中所述目标文本与所述至少一个样本文本之间的连接关系,提取所述目标文本的图嵌入特征,包括:在所述文本图中,确定与所述目标文本之间存在连接的至少一个关联样本文本;根据所述目标文本与所述至少一个关联样本文本之间的表征相似度,对所述至少一个关联样本文本的表征进行传递;基于所述至少一个关联样本文本传递的表征和/或所述目标文本的表征进行表征聚合,以得到所述目标文本的图嵌入特征。6.根据权利要求1-3任一项所述的方法,其中,所述根据所述目标文本在所述文本图中的图嵌入特征,对所述目标文本进行分类,包括:将所述目标文本在所述文本图中的图嵌入特征输入分类器,以基于所述分类器的输出确定所述目标文本的分类。7.根据权利要求1-3任一项所述的方法,其中,所述方法还包括:
对语料集合中的语料进行分词,得到多个候选词;从所述多个候选词中删除词频少于设定取值的候选词,以及删除属于停用词集合中的候选词;将保留的候选词添加到全局池中;根据全局池中任两词之间的共现数据,建立所述词图。8.一种模型训练方法,包括:从样本集中获取任一目标样本文本,其中,所述目标样本文本中包含至少一个处于词图中的目标词;根据所述目标词在所述词图中的图嵌入特征,编码得到所述目标样本文本的表征;根据所述目标样本文本与所述样本集中其余样本文本之间的表征相似度,确定文本图中所述目标样本文本与所述其余样本文本之间的连接关系;根据所述文本图中的连接关系,提取得到所述目标样本文本的图嵌入特征;根据所述目标样本文本的图嵌入特征,采用分类器对所述目标样本文本进行分类,得到预测类别;根据所述预测类别与所述目标样本文本的期望类别之间的差异,调整所述分类器的模型参数。9.根据权利要求8所述的方法,其中,所述根据所述目标词在所述词图中的图嵌入特征,编码得到所述目标样本文本的表征,包括:采用第一图神经网络,获取所述目标词在所述词图中的图嵌入特征;将所述目标词在所述词图中的图嵌入特征,与采用预训练模型对所述目标词进行语义特征提取得到的词嵌入特征进行特征融合,得到所述目标词的融合特征;根据所述目标样本文本中所述目标词的融合特征,编码得到所述目标样本文本的表征。10.根据权利要求9所述的方法,其中,所述方法还包括:根据所述预测类别与所述目标样本文本的期望类别之间的差异,调整所述第一图神经网络的模型参数。11.根据权利要求9所述的方法,其中,所述根据所述目标样本文本中所述目标词的融合特征,编码得到所述目标样本文本的表征,包括:在所述目标词为多个的情况下,根据各所述目标词的词频-逆文本频率,确定对应目标词的融合权重;依据各所述目标词的融合权重,加权融合各所述目标词的融合特征,以得到所述目标样本文本的表征。12.根据权利要求8-11任一项所述的方法,其中,所述根据所述文本图中的连接关系,提取得到所述目标样本文本的图嵌入特征,包括:在所述文本图中,确定与所述目标样本文本之间存在连接的至少一个关联样本文本;根据所述目标文本与所述至少一个关联样本文本之间的表征相似度,采用第二图神经网络对所述至少一个关联样本文本的表征进行传递,以及基于所述至少一个关联样本文本传递的表征和/或所述目标文本的表征进行表征聚合,以得到所述目标文本的图嵌入特征。13.根据权利要求12所述的方法,其中,所述方法还包括:
根据所述预测类别与所述目标样本文本的期望类别之间的差异,调整所述第二图神经网络的模型参数。14.根据权利要求8-11任一项所述的方法,其中,所述方法还包括:对语料集合中的语料进行分词,得到多个候选词;从所述多个候选词中删除词频少于设定取值的候选词,以及删除属于停用词集合中的候选词;将保留的候选词添加到全局池中;根据全局池中任两词之间的共现数据,建立所述词图。15.一种文本分类装置,包括:第一获取模块,用于获取待分类的目标文本,其中,所述目标文本中包含至少一个处于词图中的目标词;第一编码模块,用于根据所述目标词在词图中的图嵌入特征,编码得到所述目标文本的表征;第一确定模...
【专利技术属性】
技术研发人员:王雅晴,窦德景,
申请(专利权)人:百度在线网络技术北京有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。