The present invention relates to a method of word sense disambiguation based on Convolutional Neural Network (CNN). The present invention first processes Chinese corpus, participle, part-of-speech and semantic tagging of Chinese sentences containing ambiguous vocabulary, and obtains the training corpus and test corpus. Then, the model is trained with training corpus, and the optimized CNN model is obtained. On the optimized CNN model, the test corpus is disambiguated and the ambiguous vocabulary is obtained in each language. The probability distribution under the meaning category; the semantic category with the most probability is the semantic category of ambiguous words. The invention achieves good disambiguation of ambiguous vocabulary and judges the true meaning of ambiguous vocabulary more accurately.
【技术实现步骤摘要】
一种基于卷积神经网络的汉语句子词义消岐方法
本专利技术涉及一种基于卷积神经网络的汉语句子词义消岐方法,该方法在自然语言处理领域中有着很好的应用。
技术介绍
在自然语言处理领域中,词汇普遍具有一词多义现象。词义消歧的目的是确定歧义词汇在特定上下文环境中的语义。词义消歧在机器翻译、自动文摘、信息检索和文本分类中有着重要的应用,其性能的好坏与词义消歧紧密相关。经常使用一些常见的算法对词汇进行消岐和分类,例如:k-means、朴素贝叶斯、基于关联规则的分类方法和人工神经网络等。但是,传统的算法存在着一些缺点和不足。所提取的消岐特征只局限于局部区域,分类器的训练效果不是很好。近年来,深度学习算法已被广泛地应用到自然语言处理领域。卷积神经网络是当前深度学习算法中的主要模型。将处理好的消岐特征输入到初始化的卷积神经网络(ConvolutionNeuralNetwork,CNN)模型之中。在CNN模型中,神经元的权值是共享的。这使得神经元可以共享资源,降低了网络模型的复杂度,防止出现过拟合现象。对于歧义词汇而言,可以很好地应用卷积神经网络来进行消岐,实现语义的正确分类。
技术实现思路
为了解决自然语言处理领域中的词汇歧义问题,本专利技术公开了一种基于卷积神经网络的汉语句子词义消岐方法。为此,本专利技术提供了如下技术方案:1.基于卷积神经网络的汉语句子词义消岐方法,其特征在于,该方法包括以下步骤:步骤1:对语料所包含的所有汉语句子进行分词、词性标注和语义类标注,选取歧义词汇左右四个邻接词汇单元的词形、词性和语义类作为消岐特征;步骤2:提取歧义词汇左右四个邻接词汇单元的词形、词性 ...
【技术保护点】
1.基于卷积神经网络的汉语句子词义消岐方法,其特征在于,该方法包括以下步骤:步骤1:对语料所包含的所有汉语句子进行分词、词性标注和语义类标注,选取歧义词汇左右四个邻接词汇单元的词形、词性和语义类作为消岐特征;步骤2:提取歧义词汇左右四个邻接词汇单元的词形、词性和语义类,统计其频度,转换成对应的二进制数,选取一小部分处理好的语料作为测试数据,其余的作为训练数据;步骤3:训练包括前向传播和反向传播两个过程;训练数据作为CNN模型训练的输入,经过CNN模型的训练,得到优化后的CNN模型;步骤4:测试过程为前向传播过程,即语义分类过程;在优化后的CNN模型上,输入测试数据,计算歧义词汇在每个语义类别下的概率分布,其中,具有最大概率的语义类即为歧义词汇的语义类。
【技术特征摘要】
1.基于卷积神经网络的汉语句子词义消岐方法,其特征在于,该方法包括以下步骤:步骤1:对语料所包含的所有汉语句子进行分词、词性标注和语义类标注,选取歧义词汇左右四个邻接词汇单元的词形、词性和语义类作为消岐特征;步骤2:提取歧义词汇左右四个邻接词汇单元的词形、词性和语义类,统计其频度,转换成对应的二进制数,选取一小部分处理好的语料作为测试数据,其余的作为训练数据;步骤3:训练包括前向传播和反向传播两个过程;训练数据作为CNN模型训练的输入,经过CNN模型的训练,得到优化后的CNN模型;步骤4:测试过程为前向传播过程,即语义分类过程;在优化后的CNN模型上,输入测试数据,计算歧义词汇在每个语义类别下的概率分布,其中,具有最大概率的语义类即为歧义词汇的语义类。2.根据权利要求1所述的基于卷积神经网络的汉语句子词义消岐方法,其特征在于,所述步骤1中,对汉语句子进行分词、词性标注和语义类标注,提取消岐特征,具体步骤为:步骤1-1利用汉语分词工具对汉语句子进行词汇切分;步骤1-2利用汉语词性标注工具对已切分好的词汇进行词性标注;步骤1-3利用汉语语义标注工具对已切分好的词汇进行语义类标注;利用汉语分词工具、汉语词性标注工具和汉语语义标注工具对语料所包含的所有汉语句子进行词汇切分、词性标注和语义类标注,选取歧义词汇左右四个邻接词汇单元的词形、词性和语义类作为消岐特征。3.根据权利要求1所述的基于卷积神经网络的汉语句子词义消岐方法,其特征在于,所述步骤2中,以哈尔滨工业大学人工语义标注语料为基础,统计消岐特征的出现频度,具体步骤为:步骤2-1提取歧义词汇的左右四个邻接词汇单元的词形、词性和语义类;步骤2-2统计消岐特征的出现频度;步骤2-3其频度经过二进制转化后,每个消岐特征对应于一组二进制数;选取一小部分处理好的语料作为测试数据,其余的作为训练数据。4.根据权利要求1所述的基于卷积神经网络的汉语句子词义消岐方法,其特征在于,所述步骤3中,对CNN模型进行训练,具体步骤为:前向传播过程:步骤3-1把训练数据输入到初始化的CNN模型中;步骤3-2经过卷...
【专利技术属性】
技术研发人员:张春祥,赵凌云,周雪松,
申请(专利权)人:哈尔滨理工大学,
类型:发明
国别省市:黑龙江,23
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。