一种基于超图的文本分类方法技术

技术编号:24091490 阅读:57 留言:0更新日期:2020-05-09 08:16
本发明专利技术公开一种基于超图的文本分类方法,包括:步骤一、构建语料库和语料库的关键词库,基于语料库生成超图,得到超图的超边和结点;步骤二、基于共现窗口计算关键词的邻接矩阵;步骤三、对语料库中的每一个文档通过超边向量表示,形成超边矩阵;步骤四、计算超边之间的相似度,构建超边的相似度矩阵;步骤五、构建由词向量组成的超图结点特征矩阵;步骤六、使用图神经网络模型对超边进行分类,得到语料库中每个文档类别的第一次预测概率;步骤七、基于文档的真实标签,采用随机梯度下降算法更新图神经网络模型的参数矩阵,完成语料库中无标签文本的分类;本发明专利技术实现了对语料库中无标签文本的准确分类。

A text classification method based on Hypergraph

【技术实现步骤摘要】
一种基于超图的文本分类方法
本专利技术涉及机器学习
,特别是涉及一种基于超图的文本分类方法。
技术介绍
表示目标和目标间关系的图在现实生活中处处存在,比如社交网络,电子商务网络,生物网络和交通网络等。同时由于蕴含着丰富的潜在信息,图也被公认为是可以深刻理解的结构。过去十年中,图深度学习成为人工智能和机器学习中极为重要的部分,在音频、图像和自然语言处理等方面表现出优越的性能,在提取数据中潜在复杂模式方面有着明显的效果。超图的本质特征在于它的超边,超边的度数可以大于2,能够同时连接多个结点,普通的图是超图的一个特例。目前的很多工作是将现实生活中的事物抽象为两两对应关系,但是存在很大部分非点对的关系的事物,例如社交网络中的社区、推荐系统中用户或商品的标签、图像检索中的物品等。目前,基于超图的图深度学习模型还不成熟,同时超图在数据挖掘中也被很多研究者忽略。现有文本分类方法通常将语料库中的文本视为相互独立的样本,使用循环神经网络、支持向量机等模型,单独为每一段文本预测类别,没有对文本之间的关系进行建模。另外,使用循环神经网络进行文本本文档来自技高网...

【技术保护点】
1.一种基于超图的文本分类方法,其特征在于,包括如下步骤:/n步骤一、构建语料库和语料库的关键词库,基于语料库生成超图,得到超图的超边和结点;/n步骤二、基于共现窗口计算关键词库中任意两个关键词的共现频数,得到关键词的邻接矩阵;/n步骤三、对语料库中的每一个文档使用超边向量表示,并将所有超边向量进行拼接,形成超边矩阵;/n步骤四、根据语料库中任意两个文档中所包括的关键词,计算超边之间的相似度,构建超边的相似度矩阵;/n步骤五、将关键词库中的关键词使用词向量表示,构建由词向量组成的超图结点特征矩阵;/n步骤六、使用图神经网络模型对超边进行分类,得到语料库中每个文档类别的第一次预测概率;/n步骤七...

【技术特征摘要】
1.一种基于超图的文本分类方法,其特征在于,包括如下步骤:
步骤一、构建语料库和语料库的关键词库,基于语料库生成超图,得到超图的超边和结点;
步骤二、基于共现窗口计算关键词库中任意两个关键词的共现频数,得到关键词的邻接矩阵;
步骤三、对语料库中的每一个文档使用超边向量表示,并将所有超边向量进行拼接,形成超边矩阵;
步骤四、根据语料库中任意两个文档中所包括的关键词,计算超边之间的相似度,构建超边的相似度矩阵;
步骤五、将关键词库中的关键词使用词向量表示,构建由词向量组成的超图结点特征矩阵;
步骤六、使用图神经网络模型对超边进行分类,得到语料库中每个文档类别的第一次预测概率;
步骤七、基于文档的真实标签,采用随机梯度下降算法更新图神经网络模型的参数矩阵,并将训练后的参数矩阵代入图神经网络模型,完成语料库中无标签文本的分类。


2.根据权利要求1所述的基于超图的文本分类方法,其特征在于,所述步骤一中,语料库由若干个文档构成,将语料库中的所有文档进行分词、去停用词处理,并计算每个文档的TF-IDF值,取所有文档中TF-IDF值大于阈值p的单词构成语料库的关键词库,其中0<p<1;基于语料库生成超图,将关键词库中的关键词作为超图的结点,语料库中的每个文档作为超图中的一个超边;将语料库中的每个文档均表示为关键词库中关键词的集合。


3.根据权利要求1所述的基于超图的文本分类方法,其特征在于,所述步骤二中,设定词共现窗口大小q,q>1,根据共现窗口计算关键词库中所有关键词在语料库的所有文档中的共现频数,并进行共现频数的归一化,得到关键词的邻接矩阵。


4.根据权利要求1所述的基于超图的文本分类方法,其特征在于,所述步骤三中,对语料库中的每一个文档,分别通过超边向量来表示,其中,超边定义为超图的结点集合的一个非空子集,超边向量中的每个元素表示关键词在该文档中的权重,关键词在文...

【专利技术属性】
技术研发人员:韩忠明周朋飞段大高张珣
申请(专利权)人:北京工商大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1