一种基于多通道图卷积的文本分类方法技术

技术编号：27937461 阅读：111 留言：0更新日期：2021-04-02 14:18

本发明专利技术提供一种基于多通道图卷积的文本分类方法，该方法从不同角度对文本节点和单词节点建立多个图，可以对单词节点间的同质性进行更全面的建模。对每个图都在一个对应的通道内进行卷积，并且在每一层图卷积网络中，同一节点在不同通道中的特征信息可以相互交流，并用门机制控制信息交流的通过量，提高特征提取的效果。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于多通道图卷积的文本分类方法
本专利技术涉及自然语言处理领域，更具体地，涉及一种基于多通道图卷积的文本分类方法。
技术介绍
文本分类是自然语言处理中最基本的任务，有着重要的研究意义和巨大的实用价值。其应用场景十分广泛，包括主题分类、情感分类、问题分类、意图分类等等。目前已有的研究文本分类的方法主要包括传统机器学习的方法，以及深度学习方法，如基于卷积神经网络的方法、基于递归神经网络的方法、基于注意力机制的方法，以及以上方法的集成。传统机器学习方法通常是对文本提取TF-IDF特征或词袋特征，然后交给回归模型进行学习。回归模型有很多，例如支持向量机，贝叶斯等。深度学习方法用单词嵌入向量表示文本中的单词。基于卷积神经网络的方法将卷积神经网络应用在文本上，用多个滤波器对文本进行一维卷积，提取文本的局部语义信息，然后使用最大值池化操作，捕捉最显著的特征。最后讲这些特征输入全连接层，得到标签的概率分布。基于递归神经网络的方法利用递归神经网络提取文本的序列信息。常用的递归神经网络有RNN、LSTM、GRU等。将一段文本...

【技术保护点】
1.一种基于多通道图卷积的文本分类方法，其特征在于，包括以下步骤：/nS1：从单词相似性和相关性角度构造文本之间的关系图；/nS2：利用S1得到的多个关系图进行多通道图卷积；/nS3：在S1的多通道图卷积过程中让同一节点在不同通道间交流信息，并用门机制控制节点信息在交流时通过量。/n

【技术特征摘要】
1.一种基于多通道图卷积的文本分类方法，其特征在于，包括以下步骤：
S1：从单词相似性和相关性角度构造文本之间的关系图；
S2：利用S1得到的多个关系图进行多通道图卷积；
S3：在S1的多通道图卷积过程中让同一节点在不同通道间交流信息，并用门机制控制节点信息在交流时通过量。

2.根据权利要求1所述的基于多通道图卷积的文本分类方法，其特征在于，所述步骤S1的具体过程是：
将全部文本中出现的单词汇集成一个词典，然后构建由单词和文本节点组成的无向异构图，图中每个文本是一个节点，每个单词也是一个节点，对文本数据建立两个异构图，文本与其中出现的单词建立连边，边权值为文本与单词间的TF-IDF值；单词间分别根据相关性和相似性建立连边，相关性通过单词间的点互信息PMI值定义，相似性通过单词间的GloVe向量的余弦相似度定义，当单词间的值大于一阈值时建立连边，如公式(1)：

其中R(i,j)对于图G1和G2分别是PMI(i,j)和cos(i,j)。

3.根据权利要求2所述的根据权利要求1所述的基于多通道图卷积的文本分类方法，其特征在于，PMI用于评价单词间的相关性，其计算方式为：

PMI基于滑动窗口进行统计，其中W(i)是含有单词i的滑动窗口，W(i,j)指同时含有单词i，j的滑动窗口，W则是全部滑动窗口数量。

4.根据权利要求3所述的根据权利要求1所述的基于多通道图卷积的文本分...

【专利技术属性】
技术研发人员：苏勤亮，欧宏宇，
申请(专利权)人：中山大学，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人