一种基于卷积神经网络的汉语句子词义消岐方法技术

技术编号:20118120 阅读:37 留言:0更新日期:2019-01-16 12:07
本发明专利技术涉及一种基于卷积神经网络(Convolutional Neural Network,CNN)的词义消岐方法。本发明专利技术首先对汉语语料进行处理,对包含歧义词汇的汉语句子进行分词、词性标注和语义标注处理,得到处理好的训练语料和测试语料;然后利用训练语料对模型进行训练,得到优化后的CNN模型;在优化后的CNN模型上,对测试语料进行消岐,得到歧义词汇在每个语义类别下的概率分布;具有最大概率的语义类别即为歧义词汇的语义类别。本发明专利技术对歧义词汇实现了很好的消岐,更准确地判断歧义词汇的真实含义。

A Convolution Neural Network Based Method for Chinese Sentence Word Sense Disambiguation

The present invention relates to a method of word sense disambiguation based on Convolutional Neural Network (CNN). The present invention first processes Chinese corpus, participle, part-of-speech and semantic tagging of Chinese sentences containing ambiguous vocabulary, and obtains the training corpus and test corpus. Then, the model is trained with training corpus, and the optimized CNN model is obtained. On the optimized CNN model, the test corpus is disambiguated and the ambiguous vocabulary is obtained in each language. The probability distribution under the meaning category; the semantic category with the most probability is the semantic category of ambiguous words. The invention achieves good disambiguation of ambiguous vocabulary and judges the true meaning of ambiguous vocabulary more accurately.

【技术实现步骤摘要】
一种基于卷积神经网络的汉语句子词义消岐方法
本专利技术涉及一种基于卷积神经网络的汉语句子词义消岐方法,该方法在自然语言处理领域中有着很好的应用。
技术介绍
在自然语言处理领域中,词汇普遍具有一词多义现象。词义消歧的目的是确定歧义词汇在特定上下文环境中的语义。词义消歧在机器翻译、自动文摘、信息检索和文本分类中有着重要的应用,其性能的好坏与词义消歧紧密相关。经常使用一些常见的算法对词汇进行消岐和分类,例如:k-means、朴素贝叶斯、基于关联规则的分类方法和人工神经网络等。但是,传统的算法存在着一些缺点和不足。所提取的消岐特征只局限于局部区域,分类器的训练效果不是很好。近年来,深度学习算法已被广泛地应用到自然语言处理领域。卷积神经网络是当前深度学习算法中的主要模型。将处理好的消岐特征输入到初始化的卷积神经网络(ConvolutionNeuralNetwork,CNN)模型之中。在CNN模型中,神经元的权值是共享的。这使得神经元可以共享资源,降低了网络模型的复杂度,防止出现过拟合现象。对于歧义词汇而言,可以很好地应用卷积神经网络来进行消岐,实现语义的正确分类。
技术实现思路
为了解决自然语言处理领域中的词汇歧义问题,本专利技术公开了一种基于卷积神经网络的汉语句子词义消岐方法。为此,本专利技术提供了如下技术方案:1.基于卷积神经网络的汉语句子词义消岐方法,其特征在于,该方法包括以下步骤:步骤1:对语料所包含的所有汉语句子进行分词、词性标注和语义类标注,选取歧义词汇左右四个邻接词汇单元的词形、词性和语义类作为消岐特征;步骤2:提取歧义词汇左右四个邻接词汇单元的词形、词性和语义类,统计其频度,转换成对应的二进制数。选取一小部分处理好的语料作为测试数据,其余的作为训练数据;步骤3:训练包括前向传播和反向传播两个过程。训练数据作为CNN模型训练的输入,经过CNN模型的训练,得到优化后的CNN模型;步骤4:测试过程为前向传播过程,即语义分类过程。在优化后的CNN模型上,输入测试数据,计算歧义词汇在每个语义类别下的概率分布,其中,具有最大概率的语义类即为歧义词汇的语义类。2.根据权利要求1所述的基于卷积神经网络的汉语句子词义消岐方法,其特征在于,所述步骤1中,对汉语句子进行分词、词性标注和语义类标注,提取消岐特征,具体步骤为:步骤1-1利用汉语分词工具对汉语句子进行词汇切分;步骤1-2利用汉语词性标注工具对已切分好的词汇进行词性标注;步骤1-3利用汉语语义标注工具对已切分好的词汇进行语义类标注;利用汉语分词工具、汉语词性标注工具和汉语语义标注工具对语料所包含的所有汉语句子进行词汇切分、词性标注和语义类标注,选取歧义词汇左右四个邻接词汇单元的词形、词性和语义类作为消岐特征。3.根据权利要求1所述的基于卷积神经网络的汉语句子词义消岐方法,其特征在于,所述步骤2中,以哈尔滨工业大学人工语义标注语料为基础,统计消岐特征的出现频度,具体步骤为:步骤2-1提取歧义词汇的左右四个邻接词汇单元的词形、词性和语义类;步骤2-2统计消岐特征的出现频度;步骤2-3其频度经过二进制转化后,每个消岐特征对应于一组二进制数。选取一小部分处理好的语料作为测试数据,其余的作为训练数据。4.根据权利要求1所述的基于卷积神经网络的汉语句子词义消岐方法,其特征在于,所述步骤3中,对CNN模型进行训练,具体步骤为:前向传播过程:步骤3-1把训练数据输入到初始化的CNN模型中;步骤3-2经过卷积层,提取更完整的消岐特征;步骤3-3经过池化层,提取最大的消岐特征。可以大大地缩小消岐特征的规模,从而减少参数个数,加快模型计算的速度,有效地防止过拟合;步骤3-4通过卷积和池化交替操作之后,进入全连接层,对所提取的消岐特征进行降维,连接成一维消岐特征向量;步骤3-5利用softmax层来计算歧义词汇m在每个语义类别si(i=1,2,...,n)下的预测概率,所述的softmax函数如下:其中,ai表示softmax层的输入数据,P(si|m)表示歧义词汇m在语义类别si下的出现概率(i=1,2,...,n);步骤3-6从P(s1|m)、P(s2|m)、...、P(sn|m)中选取最大概率作为预测概率。具体计算如下:其中,y_predictedj表示歧义词汇m的预测概率;步骤3-7将预测概率y_predictedj和真实概率yj进行比较,利用交叉熵损失函数来计算误差loss。所述误差loss的计算过程如下所示:其中,yj表示歧义词汇m属于语义类别si的真实概率。反向传播过程:根据误差loss反向传播,逐层更新参数,参数更新过程如下:其中,θ表示参数集,θ'表示更新后的参数集,a为学习率。不断迭代CNN模型,得到优化后的CNN模型。5.根据权利要求1所述的基于卷积神经网络的汉语句子词义消岐方法,其特征在于,在所述步骤4中,对歧义词汇m进行语义分类,具体过程为:语义分类过程:步骤4-1把测试数据输入到优化后的CNN模型之中;步骤4-2经过卷积层设置卷积核,提取更完整的消岐特征;步骤4-3经过池化层,提取最大的消岐特征;步骤4-4通过卷积和池化交替操作之后,进入全连接层,对所提取的消岐特征进行降维,连接成一维消岐特征向量;步骤4-5利用softmax层来计算歧义词汇m在每个语义类别下的概率分布。其中,具有最大概率的语义类别s'即为歧义词汇的语义类别。所述语义类别s'的确定过程如下:其中,s'表示概率最大的语义类别,n表示语义类别数,P(s1|m),...,P(si|m),...,P(sn|m)表示歧义词汇m在语义类别下的概率分布序列。有益效果:1.本专利技术是一种基于卷积神经网络的汉语句子词义消岐方法。对汉语句子进行了词汇切分、词性标注和语义类标注。以哈尔滨工业大学人工语义标注语料为基础,统计消岐特征的出现频度。所提取的消岐特征具有较高的质量。2.本专利技术所使用的模型为卷积神经网络模型,最大的特点是局部感知和参数共享,能够很好地处理高维数据,无需手动选取数据特征。只要训练好CNN模型,就可以获得较好的分类效果。经过卷积和池化两大操作,能够提取更完整的消岐特征,减少数据量和参数量,防止出现过拟合。3.本专利技术使用的分类器为softmax分类器,不仅能解决二类分类的数据处理,而且能够解决多分类的数据处理。4.在训练模型时,采用随机梯度下降法进行参数更新。通过计算误差,误差通过反向传播沿原路线返回,即从输出层反向经过各中间隐藏层,逐层更新每一层参数,最终回到输出层。不断地进行前向传播和反向传播,以减小误差,更新模型参数,直到CNN训练好为止。随着误差反向传播不断地对参数进行更新,整个CNN模型对输入数据的消岐准确率也有所提高。附图说明:图1为本专利技术实施方式中的汉语句子词义消岐的流程图;图2为本专利技术实施方式中的基于CNN的词义消歧模型的训练过程;图3为本专利技术实施方式中的基于CNN的词义消歧模型的测试过程。具体实施方式:为了使本专利技术的实施例中的技术方案能够清楚和完整地描述,以下结合实施例中的附图,对本专利技术进行进一步的详细说明。以对汉语句子“中华各族儿女共同创造的优秀传统文化,始终是维系全体中国人的精神纽带和实现和平统一的重要基础。”中的歧义词汇“儿女”进行消岐处理为例。本专利技术实施例基于卷积神经网络本文档来自技高网...

【技术保护点】
1.基于卷积神经网络的汉语句子词义消岐方法,其特征在于,该方法包括以下步骤:步骤1:对语料所包含的所有汉语句子进行分词、词性标注和语义类标注,选取歧义词汇左右四个邻接词汇单元的词形、词性和语义类作为消岐特征;步骤2:提取歧义词汇左右四个邻接词汇单元的词形、词性和语义类,统计其频度,转换成对应的二进制数,选取一小部分处理好的语料作为测试数据,其余的作为训练数据;步骤3:训练包括前向传播和反向传播两个过程;训练数据作为CNN模型训练的输入,经过CNN模型的训练,得到优化后的CNN模型;步骤4:测试过程为前向传播过程,即语义分类过程;在优化后的CNN模型上,输入测试数据,计算歧义词汇在每个语义类别下的概率分布,其中,具有最大概率的语义类即为歧义词汇的语义类。

【技术特征摘要】
1.基于卷积神经网络的汉语句子词义消岐方法,其特征在于,该方法包括以下步骤:步骤1:对语料所包含的所有汉语句子进行分词、词性标注和语义类标注,选取歧义词汇左右四个邻接词汇单元的词形、词性和语义类作为消岐特征;步骤2:提取歧义词汇左右四个邻接词汇单元的词形、词性和语义类,统计其频度,转换成对应的二进制数,选取一小部分处理好的语料作为测试数据,其余的作为训练数据;步骤3:训练包括前向传播和反向传播两个过程;训练数据作为CNN模型训练的输入,经过CNN模型的训练,得到优化后的CNN模型;步骤4:测试过程为前向传播过程,即语义分类过程;在优化后的CNN模型上,输入测试数据,计算歧义词汇在每个语义类别下的概率分布,其中,具有最大概率的语义类即为歧义词汇的语义类。2.根据权利要求1所述的基于卷积神经网络的汉语句子词义消岐方法,其特征在于,所述步骤1中,对汉语句子进行分词、词性标注和语义类标注,提取消岐特征,具体步骤为:步骤1-1利用汉语分词工具对汉语句子进行词汇切分;步骤1-2利用汉语词性标注工具对已切分好的词汇进行词性标注;步骤1-3利用汉语语义标注工具对已切分好的词汇进行语义类标注;利用汉语分词工具、汉语词性标注工具和汉语语义标注工具对语料所包含的所有汉语句子进行词汇切分、词性标注和语义类标注,选取歧义词汇左右四个邻接词汇单元的词形、词性和语义类作为消岐特征。3.根据权利要求1所述的基于卷积神经网络的汉语句子词义消岐方法,其特征在于,所述步骤2中,以哈尔滨工业大学人工语义标注语料为基础,统计消岐特征的出现频度,具体步骤为:步骤2-1提取歧义词汇的左右四个邻接词汇单元的词形、词性和语义类;步骤2-2统计消岐特征的出现频度;步骤2-3其频度经过二进制转化后,每个消岐特征对应于一组二进制数;选取一小部分处理好的语料作为测试数据,其余的作为训练数据。4.根据权利要求1所述的基于卷积神经网络的汉语句子词义消岐方法,其特征在于,所述步骤3中,对CNN模型进行训练,具体步骤为:前向传播过程:步骤3-1把训练数据输入到初始化的CNN模型中;步骤3-2经过卷...

【专利技术属性】
技术研发人员:张春祥赵凌云周雪松
申请(专利权)人:哈尔滨理工大学
类型:发明
国别省市:黑龙江,23

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1