一种基于双层attention机制的词嵌入方法、设备及存储设备技术

技术编号：21914040 阅读：22 留言：0更新日期：2019-08-21 12:27

本发明专利技术提供了一种基于双层attention机制的词嵌入方法、设备及存储设备，其方法包括：首先通过attention获取词汇内部不同语义对应的不同义原的权重；再对词汇内部不同语义对应的不同义原进行加权和计算得到词汇内部不同语义的向量表示；然后通过attention获取词汇内部不同语义的权重；最后对词汇内部的不同语义进行加权和计算得到词向量表示。一种基于双层attention机制的词嵌入设备及存储设备，用于实现一种基于双层attention机制的词嵌入方法。本发明专利技术的有益效果是：本发明专利技术所提出的技术方案创新性地引入attention机制来捕捉词汇内部的语义权重以及语义内部的义原权重，可以更加深入和准确的描述词汇内部的语义随上下文的变化，从而能够更好的对词汇在上下文中的语义进行表达。

A Word Embedding Method, Device and Storage Device Based on Double Attention Mechanism

全部详细技术资料下载

【技术实现步骤摘要】
一种基于双层attention机制的词嵌入方法、设备及存储设备
本专利技术涉及自然语言处理领域，尤其涉及一种基于双层attention机制的词嵌入方法、设备及存储设备。
技术介绍
WordEmbedding(词嵌入)的目的是将词汇嵌入到连续的低维稠密的向量空间中。作为NLP(自然语言处理)中的预训练模型的基础，WordEmbedding在语言模型、文本分类、阅读理解、机器翻译、QA等方面都得到了广泛的应用。由于WordEmbedding在NLP中的重要性，近年来涌现了大量有关WordEmbedding的工作。Word2Vec作为WordEmbedding的经典代表，包括CBOW(ContinuousBag-of-WordsModel：由上下文预测当前词)和Skip-gram(ContinuousSkip-gramModel：由当前词预测上下文)两种模型，其基本思想是：具有相似上下文的词汇应该相互靠近。但是Wor2Vec由于词汇稀疏性的限制，导致低频词难以得到充分的训练。为了解决这个问题，其中一部分学者通过利用词汇的内部信息来作为词汇的语义补充，如，利用词汇的形态学信息(前缀/词根/后缀)以及进行字符级别的嵌入等。在中文方面还考虑了字符内部的偏旁部首，组成结构以及笔画笔顺等信息。另一部分学者则考虑到了使用外部知识来辅助训练词向量，如图像信息以及一些外部的语义知识库(如同义词词林、WordNet、BabelNet、ConceptNet、HowNet等)。WordEmbedding在将词汇嵌入到统一的语义空间的同时保留了词与词之间的语义相关性。但是WordEmb...

【技术保护点】
1.一种基于双层attention机制的词嵌入方法，其特征在于：包括以下步骤：S101：利用HowNet语义知识库，找出分完词的待处理语料中的各个词汇，对应的语义和语义的义原，从而生成各词汇的词汇‑语义‑义原的对应关系，进而根据所述对应关系初始化所有词汇的向量表示和各词汇对应的所有语义的义原的向量表示；S102：根据所有词汇的向量表示和所有词汇对应的所有语义的义原的向量表示，使用义原级别的attention得到各词汇在同一语义下不同义原的权重；S103：根据各词汇在同一语义下不同义原的权重，对各词汇的各个语义对应的所有义原进行加权计算得到各词汇的各个语义的向量表示；S104：根据各词汇的各个语义的向量表示，使用语义级别的attention得到各词汇的各个语义的权重；S105：根据各词汇的各个语义的权重，对各词汇的所有语义进行加权计算，得到所述语料的各词汇的向量表示。

【技术特征摘要】
1.一种基于双层attention机制的词嵌入方法，其特征在于：包括以下步骤：S101：利用HowNet语义知识库，找出分完词的待处理语料中的各个词汇，对应的语义和语义的义原，从而生成各词汇的词汇-语义-义原的对应关系，进而根据所述对应关系初始化所有词汇的向量表示和各词汇对应的所有语义的义原的向量表示；S102：根据所有词汇的向量表示和所有词汇对应的所有语义的义原的向量表示，使用义原级别的attention得到各词汇在同一语义下不同义原的权重；S103：根据各词汇在同一语义下不同义原的权重，对各词汇的各个语义对应的所有义原进行加权计算得到各词汇的各个语义的向量表示；S104：根据各词汇的各个语义的向量表示，使用语义级别的attention得到各词汇的各个语义的权重；S105：根据各词汇的各个语义的权重，对各词汇的所有语义进行加权计算，得到所述语料的各词汇的向量表示。2.一种用于Skip-gram中上下文词的基于双层attention机制的词嵌入方法，其特征在于，包括如下步骤：S201：利用HowNet语义知识库，找出分完词的待处理语料中的各个词汇，对应的语义和语义的义原，从而生成各词汇的词汇-语义-义原的对应关系，进而根据所述对应关系初始化所有词汇的向量表示和各词汇对应的所有语义的义原的向量表示；S202：根据所有词汇的向量表示和所有词汇对应的所有语义的义原的向量表示，使用义原级别的attention得到各词汇在同一语义下不同义原的权重，如公式(1)所示：上式中，表示第t个目标词汇wt的第c个上下文词汇wc的第i个语义si对应的第j个义原的权重，其中，a≤t≤W-a，W为分完词的待处理语料中的词汇总个数，a为上下文窗口大小，为预设值，且t-a≤c≤t+a，c≠t；表示第t个目标词汇wt的第c个上下文词汇wc的第i个语义对应的第k个义原，为目标词汇wt的上下文词汇wc的第i个语义对应的所有义原的集合；为目标词汇wt的第i个语义si的第j个义原为目标词汇wt的上下文词汇wc对应的所有语义的集合；S203：根据各词汇在同一语义下不同义原的权重，对各词汇的各个语义对应的所有义原进行加权计算得到各词汇的各个语义的向量表示；如公式(2)所示：上式中，为目标词汇wt的上下文词汇wc的第i个语义的向量表示；为目标词汇wt的上下文词汇wc的第i个语义si的第j个义原的向量表示，为目标词汇wt的上下文词汇wc的第i个语义对应的所有义原的集合；S204：根据各词汇的各个语义的向量表示，使用语义级别的attention得到各词汇的各个语义的权重；如公式(3)所示：上式中，为目标词汇wt的上下文词汇wc的第i个语义对应的权重；为目标词汇wt的上下文词汇wc的第i个语义的向量表示，为目标词汇wt的上下文词汇wc对应的所有语义的集合；S205：根据各词汇的各个语义的权重，对各词汇的所有语义进行加权计算，得到目标词汇wt对应的上下文词wc的向量表示，...

【专利技术属性】
技术研发人员：姚宏，陈仁谣，刘超，董理君，康晓军，李新川，李圣文，梁庆中，郑坤，
申请(专利权)人：中国地质大学武汉，
类型：发明
国别省市：湖北,42

全部详细技术资料下载我是这个专利的主人