一种文本分类方法、装置、设备及存储介质制造方法及图纸

技术编号:37885244 阅读:16 留言:0更新日期:2023-06-18 11:50
本申请公开了一种文本分类方法、装置、设备及存储介质,该方法包括:获取文本数据;基于文本数据,确定文本数据对应的文档节点、概念节点以及单词节点的特征向量;基于文档节点、概念节点及单词节点的特征向量构建文本异构图;确定文本异构图中节点之间边的权重;基于文本异构图,得到文本数据对应的文本特征向量;使用分类函数对文本特征向量进行分类,确定文本类别。如此,通过获取概念节点的特征向量,获得了文本中的先验知识;在构建文本异构图时,融合了概念节点,可以在一定程度上缓解短文本缺乏上下文导致的特征稀疏问题,使得基于该文本异构图提取的文本特征向量可以更准确的表征文本的特征,进而提高文本分类的准确性。性。性。

【技术实现步骤摘要】
一种文本分类方法、装置、设备及存储介质


[0001]本专利技术涉及数据处理领域,尤其涉及一种文本分类方法、装置、设备及存储介质。

技术介绍

[0002]在大数据时代,网络中出现了大量的短文本。由于这些短文本篇幅较短,缺乏上下文信息,且内容口语化噪声较大,如何精确的提取文本特征,采用合适的分类模型对短文本进行分类是一个重点问题。采用现有技术中的文本分类方法进行文本分类时,无法完全捕捉短文本间的语义关系,会导致分类准确度低等问题。

技术实现思路

[0003]为解决上述技术问题,本申请实施例期望提供一种文本分类方法、装置、设备及存储介质。
[0004]本申请的技术方案是这样实现的:
[0005]第一方面,提供了一种文本分类方法,方法包括:
[0006]获取文本数据;
[0007]基于所述文本数据,确定所述文本数据对应的文档节点的特征向量、概念节点的特征向量以及单词节点的特征向量;
[0008]基于所述文档节点的特征向量、所述概念节点的特征向量及所述单词节点的特征向量构建文本异构图;
[0本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本分类方法,其特征在于,所述方法包括:获取文本数据;基于所述文本数据,确定所述文本数据对应的文档节点的特征向量、概念节点的特征向量以及单词节点的特征向量;基于所述文档节点的特征向量、所述概念节点的特征向量及所述单词节点的特征向量构建文本异构图;确定所述文本异构图中节点之间边的权重;基于所述文本异构图,得到所述文本数据对应的文本特征向量;使用分类函数对所述文本特征向量进行分类,确定文本类别。2.根据权利要求1所述的方法,其特征在于,所述基于所述文本异构图,得到所述文本数据对应的文本特征向量,包括:基于所述文本异构图,确定每个节点的至少一个类型注意力权重;其中,所述类型注意力权重为文档型注意力权重、概念型注意力权重或单词型注意力权重;基于所述至少一个类型注意力权重,每个节点的特征向量,以及所述至少一种类型的相邻节点的特征向量,确定每个节点与相邻节点之间的节点间注意力权重;基于所有节点与相邻节点之间的节点间注意力权重,及所有节点的特征向量,确定所述文本特征向量。3.根据权利要求2所述的方法,其特征在于,所述基于所述文本异构图,确定每个节点的至少一个类型注意力权重,包括:计算所述文本异构图中第k个节点的第i类型相邻节点的特征向量之和,得到所述第k节点的第i类型特征向量;其中,所述第i类型为文档型、概念型或单词型中的任一项;基于所述第k节点的特征向量,所述第i类型相邻节点的特征向量和所述第i类型特征向量,确定所述第k节点的第i类型注意力权重。4.根据权利要求2所述的方法,其特征在于,所述基于所有节点与相邻节点之间的节点间注意力权重,及所有节点的特征向量,确定所述文本特征向量,包括:将所有节点与相邻节点之间的节点间注意力权重,以及所有节点的特征向量输入到异构图卷积网络,得到所述文本数据对应的文本特征向量;其中,所述异构图卷积网络是基于多头注意力机制构建的。5.根据权利要求1所述的方法,其特征在于,所述基于所述文本数据,确定所述文本数据对应的文档节点的特征向量、概念节点的特征向量以及单词节点的特征向量,包括:计算所述文本数据的词频

逆文档频率TF

【专利技术属性】
技术研发人员:丁辰晖
申请(专利权)人:中国移动通信集团有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1