一种基于双层attention机制的词嵌入方法、设备及存储设备技术

技术编号:21914040 阅读:22 留言:0更新日期:2019-08-21 12:27
本发明专利技术提供了一种基于双层attention机制的词嵌入方法、设备及存储设备,其方法包括:首先通过attention获取词汇内部不同语义对应的不同义原的权重;再对词汇内部不同语义对应的不同义原进行加权和计算得到词汇内部不同语义的向量表示;然后通过attention获取词汇内部不同语义的权重;最后对词汇内部的不同语义进行加权和计算得到词向量表示。一种基于双层attention机制的词嵌入设备及存储设备,用于实现一种基于双层attention机制的词嵌入方法。本发明专利技术的有益效果是:本发明专利技术所提出的技术方案创新性地引入attention机制来捕捉词汇内部的语义权重以及语义内部的义原权重,可以更加深入和准确的描述词汇内部的语义随上下文的变化,从而能够更好的对词汇在上下文中的语义进行表达。

A Word Embedding Method, Device and Storage Device Based on Double Attention Mechanism

【技术实现步骤摘要】
一种基于双层attention机制的词嵌入方法、设备及存储设备
本专利技术涉及自然语言处理领域,尤其涉及一种基于双层attention机制的词嵌入方法、设备及存储设备。
技术介绍
WordEmbedding(词嵌入)的目的是将词汇嵌入到连续的低维稠密的向量空间中。作为NLP(自然语言处理)中的预训练模型的基础,WordEmbedding在语言模型、文本分类、阅读理解、机器翻译、QA等方面都得到了广泛的应用。由于WordEmbedding在NLP中的重要性,近年来涌现了大量有关WordEmbedding的工作。Word2Vec作为WordEmbedding的经典代表,包括CBOW(ContinuousBag-of-WordsModel:由上下文预测当前词)和Skip-gram(ContinuousSkip-gramModel:由当前词预测上下文)两种模型,其基本思想是:具有相似上下文的词汇应该相互靠近。但是Wor2Vec由于词汇稀疏性的限制,导致低频词难以得到充分的训练。为了解决这个问题,其中一部分学者通过利用词汇的内部信息来作为词汇的语义补充,如,利用词汇的形态学信息(前缀/词根/后缀)以及进行字符级别的嵌入等。在中文方面还考虑了字符内部的偏旁部首,组成结构以及笔画笔顺等信息。另一部分学者则考虑到了使用外部知识来辅助训练词向量,如图像信息以及一些外部的语义知识库(如同义词词林、WordNet、BabelNet、ConceptNet、HowNet等)。WordEmbedding在将词汇嵌入到统一的语义空间的同时保留了词与词之间的语义相关性。但是WordEmbedding同时也存在明显的语义混淆缺陷,将一个词汇的所有语义表示在了同一个向量中。为了弥补这样的不足,就需要对词汇的不同语义进行单独的建模,从而克服词嵌入的语义混淆缺陷。WordSenseDisambiguation(WSD)的目的在于在不同的上下文中对词汇的不同语义进行区分,可粗略的分为无监督的方法和基于知识的方法。Sememe-EncodedWordRepresentationLearningModel(SE-WRL)是一种基于语义知识库的WordEmbedding模型,同时也是基于知识的WSD模型。SE-WRL模型基于Skip-gram模型框架,通过建模HowNet中的词汇、语义以及义原的结构(一个词汇可能存在多种不同的语义,而语义又由不同的义原构成,如图5所示),来描述词汇的内部语义信息。义原是语义描述的不可分割的最小单位,义原能够深入到词汇的语义内部,从而可以对词汇的语义进行精确的表达。Hownet是一种类似于WordNet的中文词概念知识库,其基本组成单位为义原。HowNet的组织结构为:Word(词汇)、Sense(语义)、Sememe(义原)。一个词汇可能由多种不同的语义组成,而义原则用来描述语义的内部信息。如图5所示,苹果包含两种语义:sense1_Applebrand;sense2_Apple。sense1_Applebrand的义原为:sememe1_电脑(computer),sememe2_样式值(PatterValue),sememe3_能(able),sememe4_携带(bring)和sememe5_特定牌子(SpeBrand)。sense2_Apple的义原为:sememe1_水果(fruit)。如图5所示,HowNet中义原的组织形式为层级树状的结构(如sense1_Applebrand中所示的义原组织形式)。由于HowNet特殊的义原组织形式,使得可以深入到词汇的语义内部来对词汇进行描述。但是在SE-WRL模型中,认为同一语义下的每一个义原是相互等价的,这样的假设显然存在不合理性。同一语义下的不同义原应该是不等价的,即每个不同的义原在构成语义时,义原对形成语义的贡献应该是不同的。如图5所示,造成义原的不等价性很大的一部分原因是由于义原的层级树状结构引起的,处于不同层次不同分支下的义原通常情况下是不等价的;其次即使是同一层次同一分支下的义原在面对不同的上下文时也应该是不等价的。
技术实现思路
为了解决上述问题,本专利技术提供了一种基于双层attention机制的词嵌入方法、设备及存储设备,一种基于双层attention机制的词嵌入方法,主要包括以下步骤:S101:利用HowNet语义知识库,找出分完词的待处理语料中的各个词汇,对应的语义和语义的义原,从而生成各词汇的词汇-语义-义原的对应关系,进而根据所述对应关系初始化所有词汇的向量表示和各词汇对应的所有语义的义原的向量表示;S102:根据所有词汇的向量表示和所有词汇对应的所有语义的义原的向量表示,使用义原级别的attention得到各词汇在同一语义下不同义原的权重;S103:根据各词汇在同一语义下不同义原的权重,对各词汇的各个语义对应的所有义原进行加权计算得到各词汇的各个语义的向量表示;S104:根据各词汇的各个语义的向量表示,使用语义级别的attention得到各词汇的各个语义的权重;S105:根据各词汇的各个语义的权重,对各词汇的所有语义进行加权计算,得到所述语料的各词汇的向量表示。进一步地,一种用于Skip-gram中上下文词的基于双层attention机制的词嵌入方法,其特征在于,包括如下步骤:S201:利用HowNet语义知识库,找出分完词的待处理语料中的各个词汇,对应的语义和语义的义原,从而生成各词汇的词汇-语义-义原的对应关系,进而根据所述对应关系初始化所有词汇的向量表示和各词汇对应的所有语义的义原的向量表示;S202:根据所有词汇的向量表示和所有词汇对应的所有语义的义原的向量表示,使用义原级别的attention得到各词汇在同一语义下不同义原的权重,如公式(1)所示:上式中,表示第t个目标词汇wt的第c个上下文词汇wc的第i个语义si对应的第j个义原的权重,其中,a≤t≤W-a,W为分完词的待处理语料中的词汇总个数,a为上下文窗口大小,为预设值,且t-a≤c≤t+a,c≠t;表示第t个目标词汇wt的第c个上下文词汇wc的第i个语义对应的第k个义原,为目标词汇wt的上下文词汇wc的第i个语义对应的所有义原的集合;为目标词汇wt的第i个语义si的第j个义原为目标词汇wt的上下文词汇wc对应的所有语义的集合;S203:根据各词汇在同一语义下不同义原的权重,对各词汇的各个语义对应的所有义原进行加权计算得到各词汇的各个语义的向量表示;如公式(2)所示:上式中,为目标词汇wt的上下文词汇wc的第i个语义的向量表示;为目标词汇wt的上下文词汇wc的第i个语义si的第j个义原的向量表示,为目标词汇wt的上下文词汇wc的第i个语义对应的所有义原的集合;S204:根据各词汇的各个语义的向量表示,使用语义级别的attention得到各词汇的各个语义的权重;如公式(3)所示:上式中,为目标词汇wt的上下文词汇wc的第i个语义对应的权重;为目标词汇wt的上下文词汇wc的第i个语义的向量表示,为目标词汇wt的上下文词汇wc对应的所有语义的集合;S205:根据各词汇的各个语义的权重,对各词汇的所有语义进行加权计算,得到目标词汇wt对应的上下文词wc的向量表示,如公式(4)所示本文档来自技高网
...

【技术保护点】
1.一种基于双层attention机制的词嵌入方法,其特征在于:包括以下步骤:S101:利用HowNet语义知识库,找出分完词的待处理语料中的各个词汇,对应的语义和语义的义原,从而生成各词汇的词汇‑语义‑义原的对应关系,进而根据所述对应关系初始化所有词汇的向量表示和各词汇对应的所有语义的义原的向量表示;S102:根据所有词汇的向量表示和所有词汇对应的所有语义的义原的向量表示,使用义原级别的attention得到各词汇在同一语义下不同义原的权重;S103:根据各词汇在同一语义下不同义原的权重,对各词汇的各个语义对应的所有义原进行加权计算得到各词汇的各个语义的向量表示;S104:根据各词汇的各个语义的向量表示,使用语义级别的attention得到各词汇的各个语义的权重;S105:根据各词汇的各个语义的权重,对各词汇的所有语义进行加权计算,得到所述语料的各词汇的向量表示。

【技术特征摘要】
1.一种基于双层attention机制的词嵌入方法,其特征在于:包括以下步骤:S101:利用HowNet语义知识库,找出分完词的待处理语料中的各个词汇,对应的语义和语义的义原,从而生成各词汇的词汇-语义-义原的对应关系,进而根据所述对应关系初始化所有词汇的向量表示和各词汇对应的所有语义的义原的向量表示;S102:根据所有词汇的向量表示和所有词汇对应的所有语义的义原的向量表示,使用义原级别的attention得到各词汇在同一语义下不同义原的权重;S103:根据各词汇在同一语义下不同义原的权重,对各词汇的各个语义对应的所有义原进行加权计算得到各词汇的各个语义的向量表示;S104:根据各词汇的各个语义的向量表示,使用语义级别的attention得到各词汇的各个语义的权重;S105:根据各词汇的各个语义的权重,对各词汇的所有语义进行加权计算,得到所述语料的各词汇的向量表示。2.一种用于Skip-gram中上下文词的基于双层attention机制的词嵌入方法,其特征在于,包括如下步骤:S201:利用HowNet语义知识库,找出分完词的待处理语料中的各个词汇,对应的语义和语义的义原,从而生成各词汇的词汇-语义-义原的对应关系,进而根据所述对应关系初始化所有词汇的向量表示和各词汇对应的所有语义的义原的向量表示;S202:根据所有词汇的向量表示和所有词汇对应的所有语义的义原的向量表示,使用义原级别的attention得到各词汇在同一语义下不同义原的权重,如公式(1)所示:上式中,表示第t个目标词汇wt的第c个上下文词汇wc的第i个语义si对应的第j个义原的权重,其中,a≤t≤W-a,W为分完词的待处理语料中的词汇总个数,a为上下文窗口大小,为预设值,且t-a≤c≤t+a,c≠t;表示第t个目标词汇wt的第c个上下文词汇wc的第i个语义对应的第k个义原,为目标词汇wt的上下文词汇wc的第i个语义对应的所有义原的集合;为目标词汇wt的第i个语义si的第j个义原为目标词汇wt的上下文词汇wc对应的所有语义的集合;S203:根据各词汇在同一语义下不同义原的权重,对各词汇的各个语义对应的所有义原进行加权计算得到各词汇的各个语义的向量表示;如公式(2)所示:上式中,为目标词汇wt的上下文词汇wc的第i个语义的向量表示;为目标词汇wt的上下文词汇wc的第i个语义si的第j个义原的向量表示,为目标词汇wt的上下文词汇wc的第i个语义对应的所有义原的集合;S204:根据各词汇的各个语义的向量表示,使用语义级别的attention得到各词汇的各个语义的权重;如公式(3)所示:上式中,为目标词汇wt的上下文词汇wc的第i个语义对应的权重;为目标词汇wt的上下文词汇wc的第i个语义的向量表示,为目标词汇wt的上下文词汇wc对应的所有语义的集合;S205:根据各词汇的各个语义的权重,对各词汇的所有语义进行加权计算,得到目标词汇wt对应的上下文词wc的向量表示,...

【专利技术属性】
技术研发人员:姚宏陈仁谣刘超董理君康晓军李新川李圣文梁庆中郑坤
申请(专利权)人:中国地质大学武汉
类型:发明
国别省市:湖北,42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1