System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种社交文本分类方法、系统、计算机设备和存储介质技术方案_技高网

一种社交文本分类方法、系统、计算机设备和存储介质技术方案

技术编号:39984243 阅读:9 留言:0更新日期:2024-01-09 01:46
本申请提出一种基于图卷积网络的社交文本分类方法,包括步骤:获取社交文本数据,社交文本数据包括用户和用户的文本内容;对每个用户的文本内容进行计算,应用训练好的BERT‑attention模型获得用户文本向量;以用户文本向量为节点,以用户间发送的文本内容的数量为边,构建用户关联图;基于用户关联图进行图卷积运算,获得关联文本向量;基于关联文本向量以及用户文本向量,获得用户的文本内容的分类标签。本发明专利技术的方案以BERT、图卷积神经网络为技术基础,不仅关注于人物自身的聊天文本,还从人物的整体社交内容进行信息挖掘与建模,对人物之间的关联进行量化,提高了社交文本分类的准确性。

【技术实现步骤摘要】

本申请属于自然语言处理,具体的涉及一种基于图卷积网络的社交文本分类方法、系统、计算机设备和存储介质


技术介绍

1、用户标签分类是指根据用户的行为模式、发言内容、信息数据等多方面进行对用户进行标签化的处理过程。现有技术中,在用户标签的类别划分方法大致可以分为三种,一种是基于推荐算法的用户习惯分析,如利用矩阵分解、因子分解机、深度协同神经网络(deep cooperative neural network,deepconn)等推荐算法,可在电商、短视频等领域构建人们的消费习惯、浏览习惯的人物画像。第二种是基于关键词提取的人物画像分析,如lda主题词提取模型、tf-idf关键词抽取算法以及bi-lstm-attenion的深度学习词语提取模型。第三种是基于文本分类模型的用户画像构建,如利用textcnn、textrnn、transformer模型对用户的聊天文本打上文本标签,根据标签结果对人物进行类别划分。然而,在实际应用中,上述方案仍然存在分类不够准确等问题。

2、


技术实现思路

1、针对上述问题,本专利技术第一方面提出一种基于图卷积网络的社交文本分类方法,包括步骤:获取社交文本数据,社交文本数据包括用户和用户的文本内容;对每个用户的文本内容进行计算,获得用户文本向量;以用户文本向量为节点,以用户间发送的文本内容的数量为边,构建用户关联图;基于用户关联图进行图卷积运算,获得关联文本向量;基于关联文本向量,获得用户的文本内容的分类标签。

2、优选地,应用训练好的bert-attention模型获得用户文本向量。

3、优选地,bert-attention模型的输入为句子集合x,句子集合x的构建包括步骤:对用户的文本内容进行初级分类;在每个分类中抽取一定数量的句子,组成句子集合x,其中,每个分类抽取的句子数量与该分类中句子数量在文本内容的所有句子数量的占比成正比。

4、优选地,bert-attention模型将输入的文本内容计算为句向量,并应用自注意力机制,对句向量进行加权求和,获得用户文本向量。

5、优选地,用户关联图的边仅在发送的文本内容的数量大于阈值的用户之间构建。

6、优选地,用户的文本内容的分类标签基于关联文本向量以及用户文本向量获得。

7、优选地,用户的文本内容的分类标签的计算具体包括步骤:将关联文本向量和用户文本向量进行拼接,获得拼接向量;对拼接向量进行分类处理,获得用户的文本内容的分类标签。

8、本专利技术第二方面提出一种基于图卷积网络的社交文本分类系统,包括:

9、数据爬取模块,配置用于获取社交文本数据,社交文本数据包括用户和用户的文本内容;

10、文本内容分类模块,配置用于对每个用户的文本内容进行计算,获得用户文本向量;

11、用户关联图构建模块,配置用于以用户文本向量为节点,以用户间发送的文本内容的数量为边,构建用户关联图;

12、图卷积模块,配置用于基于用户关联图进行图卷积运算,获得关联文本向量;

13、用户画像模块,配置用于基于关联文本向量,获得用户的文本内容的分类标签。

14、本专利技术第三方面提出一种计算机设备,包括存储器和处理器,存储器存储有计算机程序,处理器执行计算机程序时实现如第一方面中任一项所述的方法。

15、本专利技术第四方面提出一种计算机可读存储介质,存储有计算机程序,计算机程序被处理器执行时实现如第一方面中任一项所述的方法。

16、本专利技术的方案以bert、图卷积神经网络为技术基础,对社交人物在网络的社交言论的信息进行充分挖掘,并对人物进行标签划分。相对于现有的针对基于文本分类模型的用户画像标签划分技术,本方案不仅关注于人物自身的聊天文本,还从人物的整体社交内容进行信息挖掘与建模,对人物之间的关联进行量化,在建模过程中加入了与用户联系的关联用户的聊天内容信息,将其与用户本身的文本内容信息共同量化,得到了类别判断的人物画像方法,提高了社交文本分类的准确性。

本文档来自技高网...

【技术保护点】

1.一种基于图卷积网络的社交文本分类方法,其特征在于,包括步骤:

2.根据权利要求1所述的基于图卷积网络的社交文本分类方法,其特征在于,应用训练好的BERT-attention模型获得用户文本向量。

3.根据权利要求2所述的基于图卷积网络的社交文本分类方法,其特征在于,所述BERT-attention模型的输入为句子集合X,所述句子集合X的构建包括步骤:

4.根据权利要求2所述的基于图卷积网络的社交文本分类方法,其特征在于,所述BERT-attention模型将输入的文本内容计算为句向量,并应用自注意力机制,对所述句向量进行加权求和,获得用户文本向量。

5.根据权利要求1所述的基于图卷积网络的社交文本分类方法,其特征在于,所述用户关联图的边仅在发送的文本内容的数量大于阈值的用户之间构建。

6.根据权利要求1所述的基于图卷积网络的社交文本分类方法,其特征在于,所述用户的文本内容的分类标签基于所述关联文本向量以及所述用户文本向量获得。

7.根据权利要求6所述的基于图卷积网络的社交文本分类方法,其特征在于,所述用户的文本内容的分类标签的计算具体包括步骤:

8.一种基于图卷积网络的社交文本分类系统,其特征在于,包括:

9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法。

10.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法。

...

【技术特征摘要】

1.一种基于图卷积网络的社交文本分类方法,其特征在于,包括步骤:

2.根据权利要求1所述的基于图卷积网络的社交文本分类方法,其特征在于,应用训练好的bert-attention模型获得用户文本向量。

3.根据权利要求2所述的基于图卷积网络的社交文本分类方法,其特征在于,所述bert-attention模型的输入为句子集合x,所述句子集合x的构建包括步骤:

4.根据权利要求2所述的基于图卷积网络的社交文本分类方法,其特征在于,所述bert-attention模型将输入的文本内容计算为句向量,并应用自注意力机制,对所述句向量进行加权求和,获得用户文本向量。

5.根据权利要求1所述的基于图卷积网络的社交文本分类方法,其特征在于,所述用户关联图的边仅在发送的...

【专利技术属性】
技术研发人员:彭闯孙奕赵建强陈诚陈思萌潘国基
申请(专利权)人:厦门市美亚柏科信息股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1