当前位置: 首页 > 专利查询>中山大学专利>正文

一种基于多通道图卷积的文本分类方法技术

技术编号:27937461 阅读:111 留言:0更新日期:2021-04-02 14:18
本发明专利技术提供一种基于多通道图卷积的文本分类方法,该方法从不同角度对文本节点和单词节点建立多个图,可以对单词节点间的同质性进行更全面的建模。对每个图都在一个对应的通道内进行卷积,并且在每一层图卷积网络中,同一节点在不同通道中的特征信息可以相互交流,并用门机制控制信息交流的通过量,提高特征提取的效果。

【技术实现步骤摘要】
一种基于多通道图卷积的文本分类方法
本专利技术涉及自然语言处理领域,更具体地,涉及一种基于多通道图卷积的文本分类方法。
技术介绍
文本分类是自然语言处理中最基本的任务,有着重要的研究意义和巨大的实用价值。其应用场景十分广泛,包括主题分类、情感分类、问题分类、意图分类等等。目前已有的研究文本分类的方法主要包括传统机器学习的方法,以及深度学习方法,如基于卷积神经网络的方法、基于递归神经网络的方法、基于注意力机制的方法,以及以上方法的集成。传统机器学习方法通常是对文本提取TF-IDF特征或词袋特征,然后交给回归模型进行学习。回归模型有很多,例如支持向量机,贝叶斯等。深度学习方法用单词嵌入向量表示文本中的单词。基于卷积神经网络的方法将卷积神经网络应用在文本上,用多个滤波器对文本进行一维卷积,提取文本的局部语义信息,然后使用最大值池化操作,捕捉最显著的特征。最后讲这些特征输入全连接层,得到标签的概率分布。基于递归神经网络的方法利用递归神经网络提取文本的序列信息。常用的递归神经网络有RNN、LSTM、GRU等。将一段文本输入到单向或双向的递本文档来自技高网...

【技术保护点】
1.一种基于多通道图卷积的文本分类方法,其特征在于,包括以下步骤:/nS1:从单词相似性和相关性角度构造文本之间的关系图;/nS2:利用S1得到的多个关系图进行多通道图卷积;/nS3:在S1的多通道图卷积过程中让同一节点在不同通道间交流信息,并用门机制控制节点信息在交流时通过量。/n

【技术特征摘要】
1.一种基于多通道图卷积的文本分类方法,其特征在于,包括以下步骤:
S1:从单词相似性和相关性角度构造文本之间的关系图;
S2:利用S1得到的多个关系图进行多通道图卷积;
S3:在S1的多通道图卷积过程中让同一节点在不同通道间交流信息,并用门机制控制节点信息在交流时通过量。


2.根据权利要求1所述的基于多通道图卷积的文本分类方法,其特征在于,所述步骤S1的具体过程是:
将全部文本中出现的单词汇集成一个词典,然后构建由单词和文本节点组成的无向异构图,图中每个文本是一个节点,每个单词也是一个节点,对文本数据建立两个异构图,文本与其中出现的单词建立连边,边权值为文本与单词间的TF-IDF值;单词间分别根据相关性和相似性建立连边,相关性通过单词间的点互信息PMI值定义,相似性通过单词间的GloVe向量的余弦相似度定义,当单词间的值大于一阈值时建立连边,如公式(1):



其中R(i,j)对于图G1和G2分别是PMI(i,j)和cos(i,j)。


3.根据权利要求2所述的根据权利要求1所述的基于多通道图卷积的文本分类方法,其特征在于,PMI用于评价单词间的相关性,其计算方式为:









PMI基于滑动窗口进行统计,其中W(i)是含有单词i的滑动窗口,W(i,j)指同时含有单词i,j的滑动窗口,W则是全部滑动窗口数量。


4.根据权利要求3所述的根据权利要求1所述的基于多通道图卷积的文本分...

【专利技术属性】
技术研发人员:苏勤亮欧宏宇
申请(专利权)人:中山大学
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1