词嵌入表示方法、装置及设备制造方法及图纸

技术编号:26223178 阅读:53 留言:0更新日期:2020-11-04 10:55
本发明专利技术涉及一种词嵌入表示方法、装置及设备,所述词嵌入表示方法包括:获取待表示词语、所述待表示词语所激活的大脑区域位置、所述待表示词语之间的从属关系以及所述待表示词语对应的第一词嵌入表示;根据所述待表示词语所激活的大脑区域位置和所述待表示词语之间的从属关系,构建词语关系树;根据所述词语节点之间的初始连接关系,获取每个所述词语节点的邻居节点;将所述词语节点与所述邻居节点连接,得到所述词语关系树对应的词语关系图;基于所述词语关系图和预设的图注意力网络,获取所述词语关系图中每个所述待表示词语的第二词嵌入表示。相对于现有技术,本申请能够更准确地表达词语含义,提高词嵌入表示的准确性。

【技术实现步骤摘要】
词嵌入表示方法、装置及设备
本申请实施例涉及自然语言处理
,尤其涉及一种词嵌入表示方法、装置及设备。
技术介绍
随着电子商务行业的发展,网络中产生了大量的文本数据,通过对文本数据进行情感分析能够帮助企业了解消费者评价以及喜好,有利于后续产品的开发。而词嵌入表示作为情感分析以及其他自然语言处理任务中的重要组成部分,对于情感分析的准确性起到了决定性作用。现有的词嵌入表示方法既可以将不同层次的先验知识结合到词嵌入表示中,也可以利用词语上下文关系捕捉词语的隐含信息,将其结合到词嵌入表示中,以此提高词嵌入表示的准确性,但是这样得到词语的词嵌入表示依旧与人脑对于词语的理解存在偏离,很多情况下无法体现词语的准确含义。
技术实现思路
本申请实施例提供了一种词嵌入表示方法、装置及设备,可以解决词嵌入表示结果的准确性较低的问题,所述技术方案如下:第一方面,本申请实施例提供了一种词嵌入表示方法,包括:获取待表示词语、所述待表示词语所激活的大脑区域位置、所述待表示词语之间的从属关系以及所述待表示词语对应的第一词嵌入表示;根据所述待表示词语所激活的大脑区域位置和所述待表示词语之间的从属关系,构建词语关系树;其中,所述词语关系树包括所述待表示词语对应的词语节点、所述词语节点对应的第一词嵌入表示和所述词语节点之间的初始连接关系;根据所述词语节点之间的初始连接关系,获取每个所述词语节点的邻居节点;其中,所述邻居节点包括与所述词语节点直接连接的节点以及与所述词语节点间接连接的节点;r>将所述词语节点与所述邻居节点连接,得到所述词语关系树对应的词语关系图;基于所述词语关系图和预设的图注意力网络,获取所述词语关系图中每个所述待表示词语的第二词嵌入表示。可选的,所述基于所述词语关系图和预设的图注意力网络,获取所述词语关系图中每个所述待表示词语的第二词嵌入表示,包括步骤:基于共享注意力机制,获取每个所述邻居节点对所述词语节点的注意力系数;其中,所述注意力系数标识每个所述邻居节点对所述词语节点的重要性程度;根据所述注意力系数和预设的归一化函数,得到所述注意力系数的注意力权重;获取不同代的所述邻居节点对所述词语节点的距离权重;其中,同代的所述邻居节点处于所述词语关系树的同一层;根据所述注意力权重、所述距离权重和预设的词嵌入表示传播策略,获取每个所述待表示词语的第二词嵌入表示。可选的,所述基于共享注意力机制,获取每个所述邻居节点对所述词语节点的注意力系数,包括步骤:根据所述词语节点的第一词嵌入表示和预设的共享注意力机制函数,得到每个所述邻居节点对所述词语节点的注意力系数;其中,所述预设的共享注意力机制函数如下:为词语节点的第一词嵌入表示,N为所述词语关系图中词语节点的个数,S为第一词嵌入表示的维度,W为共享可学习参数矩阵,,函数是单层前馈神经网络,其激活函数是,a为权重向量,,T代表向量的转置操作,为预设系数。可选的,所述邻居节点包括祖先节点和后裔节点,所述根据所述注意力系数和预设的归一化函数,得到所述注意力系数的注意力权重,包括步骤:获取所述祖先节点的注意力系数和所述后裔节点的注意力系数;根据所述祖先节点的注意力系数和所述后裔节点的注意力系数以及预设的第一归一化函数,分别计算所述祖先节点的注意力系数的注意力权重和所述后裔节点的注意力系数的注意力权重;其中,所述预设的第一归一化函数如下:当时,为祖先节点的注意力系数,为祖先节点的注意力系数的注意力权重,为词语节点i的第k代祖先节点的集合,为词语节点的第k代祖先节点中第个节点的下标表示;当时,为后裔节点的注意力系数,为后裔节点的注意力系数的注意力权重,为词语节点i的第k代后裔节点的集合,为词语节点词语节点的第k代后裔节点中的第个节点的下标表示。可选的,所述邻居节点包括祖先节点和后裔节点,所述获取不同代的所述邻居节点对所述词语节点的距离权重,包括步骤:获取所述祖先节点在距离传播中的可学习参数和所述后裔节点在距离传播中的可学习参数;根据每代所述祖先节点在距离传播中的可学习参数和每代所述后裔节点在距离传播中的可学习参数以及预设的第二归一化函数,分别计算每代的所述祖先节点对所述词语节点的距离权重和每代的所述后裔节点对所述词语节点的距离权重,其中,所述预设的第二归一化函数如下:为第k代祖先节点的可学习参数,为第i代祖先节点的可学习参数,为第k代祖先节点对应的词语节点的距离权重,为k代后裔节点的可学习参数,为第i代后裔节点的可学习参数,为第k代后裔节点对词语节点的距离权重,为祖先节点代数或后裔节点代数的最大值。可选的,所述邻居节点包括祖先节点和后裔节点,所述根据所述注意力权重、所述距离权重和预设的词嵌入表示传播策略,获取每个所述待表示词语的第二词嵌入表示,包括步骤:根据所述祖先节点的注意力权重、每代所述祖先节点的距离权重和预设的祖先节点词嵌入表示传播公式,得到每个所述待表示词语的第三词嵌入表示;其中,所述预设的祖先节点词嵌入表示传播公式如下:为词语节点i的第k代祖先节点的集合,当时,为节点的注意力系数的注意力权重,为祖先节点的第一词嵌入表示,W为共享可学习参数矩阵,,为第k代祖先节点对词语节点的距离权重,为待表示词语的第三词嵌入表示,为祖先节点代数或后裔节点代数的最大值;根据所述待表示词语的第三词嵌入表示、所述后裔节点的注意力权重,每代所述祖先节点距离权重和预设的后裔节点词嵌入表示传播公式,得到每个所述待表示词语的第二词嵌入表示;其中,所述预设的后裔节点词嵌入表示传播公式如下:为词语节点i的第k代后裔节点的集合,当时,为后裔节点的注意力系数的注意力权重,为待表示词语的第三词嵌入表示,W为共享可学习参数矩阵,,为第k代后裔节点对词语节点的距离权重,为待表示词语的第二词嵌入表示。可选的,所述获取所述待表示词语对应的第一词嵌入表示,包括步骤:获取所述待表示词语的文本嵌入表示、视觉嵌入表示和听觉嵌入表示;将所述文本嵌入表示、所述视觉嵌入表示和所述听觉嵌入表示进行拼接,得到所述待表示词语对应的第一词嵌入表示。可选的,根据所述待表示词语所激活的大脑区域位置和所述待表示词语之间的从属关系,构建词语关系树,包括步骤:根据大脑区域位置与预设词语类别之间的对应关系,得到所述待表示词语的词语类别;基于所述待表示词语的词语类别,获取所述词语关系树中第一层的词语节点集合;其中,每个所述词语类别对应一个所述词语集合,所述词语节点集合包括属于所述词语类别的待表示词语对应的词语节点;根据所述待表示词语之间的从属关系,对每个所述词语节点集合内的词语节点继续分类,得到所述词语关系树。第二方面,本申请实施例提供了本文档来自技高网...

【技术保护点】
1.一种词嵌入表示方法,其特征在于,包括步骤:/n获取待表示词语、所述待表示词语所激活的大脑区域位置、所述待表示词语之间的从属关系以及所述待表示词语对应的第一词嵌入表示;/n根据所述待表示词语所激活的大脑区域位置和所述待表示词语之间的从属关系,构建词语关系树;其中,所述词语关系树包括所述待表示词语对应的词语节点、所述词语节点对应的第一词嵌入表示和所述词语节点之间的初始连接关系;/n根据所述词语节点之间的初始连接关系,获取每个所述词语节点的邻居节点;其中,所述邻居节点包括与所述词语节点直接连接的节点以及与所述词语节点间接连接的节点;/n将所述词语节点与所述邻居节点连接,得到所述词语关系树对应的词语关系图;/n基于所述词语关系图和预设的图注意力网络,获取所述词语关系图中每个所述待表示词语的第二词嵌入表示。/n

【技术特征摘要】
1.一种词嵌入表示方法,其特征在于,包括步骤:
获取待表示词语、所述待表示词语所激活的大脑区域位置、所述待表示词语之间的从属关系以及所述待表示词语对应的第一词嵌入表示;
根据所述待表示词语所激活的大脑区域位置和所述待表示词语之间的从属关系,构建词语关系树;其中,所述词语关系树包括所述待表示词语对应的词语节点、所述词语节点对应的第一词嵌入表示和所述词语节点之间的初始连接关系;
根据所述词语节点之间的初始连接关系,获取每个所述词语节点的邻居节点;其中,所述邻居节点包括与所述词语节点直接连接的节点以及与所述词语节点间接连接的节点;
将所述词语节点与所述邻居节点连接,得到所述词语关系树对应的词语关系图;
基于所述词语关系图和预设的图注意力网络,获取所述词语关系图中每个所述待表示词语的第二词嵌入表示。


2.根据权利要求1所述的词嵌入表示方法,其特征在于,所述基于所述词语关系图和预设的图注意力网络,获取所述词语关系图中每个所述待表示词语的第二词嵌入表示,包括步骤:
基于共享注意力机制,获取每个所述邻居节点对所述词语节点的注意力系数;其中,所述注意力系数标识每个所述邻居节点对所述词语节点的重要性程度;
根据所述注意力系数和预设的归一化函数,得到所述注意力系数的注意力权重;
获取不同代的所述邻居节点对所述词语节点的距离权重;其中,同代的所述邻居节点处于所述词语关系树的同一层;
根据所述注意力权重、所述距离权重和预设的词嵌入表示传播策略,获取每个所述待表示词语的第二词嵌入表示。


3.根据权利要求2所述的词嵌入表示方法,其特征在于,所述基于共享注意力机制,获取每个所述邻居节点对所述词语节点的注意力系数,包括步骤:
根据所述词语节点的第一词嵌入表示和预设的共享注意力机制函数,得到每个所述邻居节点对所述词语节点的注意力系数;其中,所述预设的共享注意力机制函数如下:




为词语节点的第一词嵌入表示,N为所述词语关系图中词语节点的
个数,S为第一词嵌入表示的维度,W为共享可学习参数矩阵,,函数
是单层前馈神经网络,其激活函数是,a为权重向量,,T代表向量的
转置操作,为预设系数。


4.根据权利要求2所述的词嵌入表示方法,其特征在于,所述邻居节点包括祖先节点和后裔节点,所述根据所述注意力系数和预设的归一化函数,得到所述注意力系数的注意力权重,包括步骤:
获取所述祖先节点的注意力系数和所述后裔节点的注意力系数;
根据所述祖先节点的注意力系数和所述后裔节点的注意力系数以及预设的第一归一化函数,分别计算所述祖先节点的注意力系数的注意力权重和所述后裔节点的注意力系数的注意力权重;其中,所述预设的第一归一化函数如下:



当时,为祖先节点的注意力系数,为祖先节点的注意力系数的注意
力权重,为词语节点i的第k代祖先节点的集合,为词语节点的第k代祖先节点中
第个节点的下标表示;当时,为后裔节点的注意力系数,为后裔节点
的注意力系数的注意力权重,为词语节点i的第k代后裔节点的集合,为词语节点词
语节点的第k代后裔节点中的第个节点的下标表示。


5.根据权利要求2所述的词嵌入表示方法,其特征在于,所述邻居节点包括祖先节点和后裔节点,所述获取不同代的所述邻居节点对所述词语节点的距离权重,包括步骤:
获取所述祖先节点在距离传播中的可学习参数和所述后裔节点在距离传播中的可学习参数;
根据每代所述祖先节点在距离传播中的可学习参数和每代所述后裔节点在距离传播中的可学习参数以及预设的第二归一化函数,分别计算每代的所述祖先节点对所述词语节点的距离权重和每代的所述后裔节点对所述词语节点的距离权重,其中,所述预设的第二归一化函数如下:




为第k代祖先节...

【专利技术属性】
技术研发人员:唐婧尧薛云冯锦辉陈秉良蔡倩华
申请(专利权)人:华南师范大学
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1