The invention relates to a method and a device for classifying the semantic relations of solid words. The method includes: each word in a sentence and its position relative to the weight to two entity words to be classified into vector based classification; with predetermined orientation parameters and predetermined classification parameters are to be classified with the vector multiplication, respectively using nonlinear transform the nonlinear activation function of the product, thereby generating direction classification and classification features; and according to the direction of classification features and types of classification, the classification model of pre stored to determine the semantic relations and semantic relations between the direction of type two entity words.
【技术实现步骤摘要】
对实体词的语义关系进行分类的方法和装置
本专利技术涉及信息处理领域,更具体地涉及一种对实体词的语义关系进行分类的方法和装置。
技术介绍
语义关系分类是自然语言处理领域的关键技术之一,其被广泛应用于信息抽取和自动问答等领域。语义关系分类通常被定义为一个监督学习问题。传统的语义关系分类问题主要集中在基于特征的方法和基于核函数的方法。基于特征的方法从文本信息中提取各种自然语言特征,通过对各种自然语言特征进行人工组合变换,在大量实验基础上选择最优的特征组合或者变换方法,使得在某些分类模型下取得好的分类效果。而基于核函数的方法是一种基于实例的学习方法,通过非线性的空间映射函数将低维的特征转换为一个高维特征,然后通过核函数来描述未知类别样本与训练样本之间的距离或者相似来判定关系类别。近年来,深度学习在自然语言处理领域逐渐成为传统问题的可替代方法。语义关系分类与深度学习技术的结合是最近的一大研究热点。与传统方法相比,深度学习是一种基于非稀疏特征多层非线性模型的参数学习方法,具有自动提取高层分类特征的能力。这样一方面减轻了基于特征方法特征提取变换和基于核函数方法函数设计选择的人工干预负担,另一方面基于参数的方法较基于实例的方法更适合于大数据场景。希望能够提供一种利用深度学习的卷积神经网络架构来解决语义关系分类问题的方法和装置。
技术实现思路
在下文中给出关于本专利技术的简要概述,以便提供关于本专利技术的某些方面的基本理解。应当理解,这个概述并不是关于本专利技术的穷举性概述。它并不是意图确定本专利技术的关键或重要部分,也不是意图限定本专利技术的范围。其目的仅仅是以简化的形式给出 ...
【技术保护点】
一种对实体词的语义关系进行分类的方法,包括:基于句子中的每个词以及其相对于两个实体词的位置权重来生成待分类向量;用预定的方向分类特征参数和预定的类型分类特征参数分别与所述待分类向量相乘,用所述非线性激活函数对各自的乘积分别进行非线性变换,从而生成方向分类特征和类型分类特征;以及根据所述方向分类特征和所述类型分类特征,利用预先存储的分类模型来确定所述两个实体词之间的语义关系方向和语义关系类型。
【技术特征摘要】
1.一种对实体词的语义关系进行分类的方法,包括:基于句子中的每个词以及其相对于两个实体词的位置权重来生成待分类向量;用预定的方向分类特征参数和预定的类型分类特征参数分别与所述待分类向量相乘,用所述非线性激活函数对各自的乘积分别进行非线性变换,从而生成方向分类特征和类型分类特征;以及根据所述方向分类特征和所述类型分类特征,利用预先存储的分类模型来确定所述两个实体词之间的语义关系方向和语义关系类型。2.根据权利要求1所述的方法,其中,基于句子中的每个词及其相对于两个实体词的位置权重来生成待分类向量包括:对句子中的一个词窗中的每个词利用预定的词向量表进行词嵌入生成词窗向量,将所述句子的每个词窗的词窗向量的序列构建第一矩阵,所述词窗以句子中的一个词为中心、包括前后各n个词,n为大于等于1的自然数;将所述句子中的每个词的相对位置的两个数值分别根据预定的两个位置向量表进行词嵌入生成的词向量的序列构建第二矩阵,所述词的相对位置为一个词相对于句子中的两个实体词的距离;将所述第一矩阵与所述第二矩阵进行矩阵连接生成第三矩阵;对于所述句子中的每个词,根据该词相对于所述两个实体词的位置以及该词在句子中的位置给每个词分配相对第一实体词的第一权重和相对第二实体词的第二权重,将每个词的所述第一权重与所述第二权重之和的序列构建位置权重特征向量;将所述第三矩阵与所述位置权重特征向量进行矩阵对应元素相乘得到第四矩阵;用非线性激活函数对所述第四矩阵与预定的卷积层参数的乘积进行非线性变换得到第五矩阵;对所述第五矩阵进行池化处理得到第一向量;以及用所述非线性激活函数对所述第一向量与预定的句子特征生成参数的乘积进行非线性变换得到第二向量作为所述待分类向量。3.根据权利要求2所述的方法,其中,用所述非线性激活函数对所述第一向量与预定的句子特征生成参数的乘积进行非线性变换得到第二向量作为所述待分类向量还包括:对所述两个实体词及其各自前后各一个词进行词嵌入生成第三向量;获取所述两个实体词的上位词特征,将所述两个实体词分别转换为维度为词典中的所有上位词个数的独热向量,将获得的两个独热向量进行连接构成第四向量;以及将所述第二向量、所述第三向量和所述第四向量进行连接所生成的向量作为所述待分类向量。4.根据权利要求2所述的方法,其中,构建第一矩阵还包括:向所构建的第一矩阵拼接每个词的自然语言处理特征向量来作为新的第一矩阵,所述自然语言处理特征包括词性标注特征、句法分析特征、语义角色标注特征中的至少一项。5.根据权利要求2所述的方法,在构建所述第一矩阵的步骤之前还包括:对所述句子进...
【专利技术属性】
技术研发人员:杨铭,张姝,孙俊,
申请(专利权)人:富士通株式会社,
类型:发明
国别省市:日本,JP
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。