【技术实现步骤摘要】
一种基于多通道图卷积的文本分类方法
本专利技术涉及自然语言处理领域,更具体地,涉及一种基于多通道图卷积的文本分类方法。
技术介绍
文本分类是自然语言处理中最基本的任务,有着重要的研究意义和巨大的实用价值。其应用场景十分广泛,包括主题分类、情感分类、问题分类、意图分类等等。目前已有的研究文本分类的方法主要包括传统机器学习的方法,以及深度学习方法,如基于卷积神经网络的方法、基于递归神经网络的方法、基于注意力机制的方法,以及以上方法的集成。传统机器学习方法通常是对文本提取TF-IDF特征或词袋特征,然后交给回归模型进行学习。回归模型有很多,例如支持向量机,贝叶斯等。深度学习方法用单词嵌入向量表示文本中的单词。基于卷积神经网络的方法将卷积神经网络应用在文本上,用多个滤波器对文本进行一维卷积,提取文本的局部语义信息,然后使用最大值池化操作,捕捉最显著的特征。最后讲这些特征输入全连接层,得到标签的概率分布。基于递归神经网络的方法利用递归神经网络提取文本的序列信息。常用的递归神经网络有RNN、LSTM、GRU等。将一段文本 ...
【技术保护点】
1.一种基于多通道图卷积的文本分类方法,其特征在于,包括以下步骤:/nS1:从单词相似性和相关性角度构造文本之间的关系图;/nS2:利用S1得到的多个关系图进行多通道图卷积;/nS3:在S1的多通道图卷积过程中让同一节点在不同通道间交流信息,并用门机制控制节点信息在交流时通过量。/n
【技术特征摘要】
1.一种基于多通道图卷积的文本分类方法,其特征在于,包括以下步骤:
S1:从单词相似性和相关性角度构造文本之间的关系图;
S2:利用S1得到的多个关系图进行多通道图卷积;
S3:在S1的多通道图卷积过程中让同一节点在不同通道间交流信息,并用门机制控制节点信息在交流时通过量。
2.根据权利要求1所述的基于多通道图卷积的文本分类方法,其特征在于,所述步骤S1的具体过程是:
将全部文本中出现的单词汇集成一个词典,然后构建由单词和文本节点组成的无向异构图,图中每个文本是一个节点,每个单词也是一个节点,对文本数据建立两个异构图,文本与其中出现的单词建立连边,边权值为文本与单词间的TF-IDF值;单词间分别根据相关性和相似性建立连边,相关性通过单词间的点互信息PMI值定义,相似性通过单词间的GloVe向量的余弦相似度定义,当单词间的值大于一阈值时建立连边,如公式(1):
其中R(i,j)对于图G1和G2分别是PMI(i,j)和cos(i,j)。
3.根据权利要求2所述的根据权利要求1所述的基于多通道图卷积的文本分类方法,其特征在于,PMI用于评价单词间的相关性,其计算方式为:
PMI基于滑动窗口进行统计,其中W(i)是含有单词i的滑动窗口,W(i,j)指同时含有单词i,j的滑动窗口,W则是全部滑动窗口数量。
4.根据权利要求3所述的根据权利要求1所述的基于多通道图卷积的文本分...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。