一种基于字符对编码的词向量存储空间压缩的方法技术

技术编号：21224826 阅读：26 留言：0更新日期：2019-05-29 05:34

本发明专利技术提出一种基于字符对编码的词向量存储空间压缩的方法，具体方式为：步骤1，选取预处理完毕的语料，获得所述语料中每个词语的子词构成，在所述语料中的词语后插入它相对应的子词表示，构成一个新语料集；步骤2，使用所述新语料集训练出每个词语词向量集{Wi}与子词的词向量集{Si}；步骤3，使用所述子词的词向量集S作为基词向量集，为每一个原词语训练出基于所述基词向量集的线性组合，使用该线性组合结果作为原词向量的表达。

A Compression Method of Word Vector Storage Space Based on Character Pair Coding

The present invention proposes a method of compressing the storage space of word vector based on character pair coding. The method is as follows: step 1, select the pre-processed corpus, obtain the sub-word structure of each word in the corpus, insert the corresponding sub-word representation after the words in the corpus, and form a new corpus; step 2, train each word with the new corpus. Vector set {Wi} and subword vector set {Si}; Step 3, using the subword vector set S as the base word vector set, a linear combination based on the base word vector set is trained for each primitive word, and the result of the linear combination is used as the expression of the primitive vector.

全部详细技术资料下载

【技术实现步骤摘要】
一种基于字符对编码的词向量存储空间压缩的方法
本专利技术涉及一种自然语言处理中的词向量压缩方法，主要涉及一种基于字符对编码的词向量存储空间压缩的方法。
技术介绍
词向量是自然语言处理(NLP)中的一组语言建模和特征学习技术的统称，其中来自词汇表的单词或短语被映射到实数的向量。从概念上讲，它涉及从每个单词一维的空间到具有更低维度的连续向量空间的数学嵌入。在语言学中，在分布语义学的研究领域中讨论了词嵌入。它旨在基于语言数据的大样本中的分布属性来量化和分类语言项之间的语义相似性。词向量最基本的性质就是，如果两个词语较为语义相近，那么他们在向量空间中的距离也较为相近。很多场景需要对词向量进行压缩，诸如手机收入法中的语言模型，需要预训练的词向量进行初始化，在移动存储设备中，词向量的存储空间不能太大，太大的存储空间意味着更多的外磁盘，内存等存储资源消耗。现有技术压缩词向量存储空间的算法，在语料集出现的词语中，选取词频极高的词语以及它们的词向量构成基词向量集，再使用算法为剩余的低频词语训练出稀疏向量表示集。这样通过矩阵乘法操作作为转换的稀疏矩阵，这样使用向量表示集与基词向量集，即可复原出原本的词向量集，但是高频词语构成的基词向量集加上低频词语的稀疏向量表示集的存储大小，远小于原本的词向量集，达到压缩词向量存储空间的目的。现有技术另一种常用方法是训练自编码器，使用自编码器达到矩阵降维的作用。现有技术存在的问题：1.算法训练速度慢，现有的词向量压缩算法得到的压缩后的词向量集，由高频词语构成的基词向量集加上低频词语的稀疏向量表示集两部分组成。对于低频词语的稀疏向量表示，是使用...

【技术保护点】
1.一种基于字符对编码的词向量存储空间压缩的方法，其特征在于，具体方式为：步骤1，选取预处理完毕的语料，获得所述语料中每个词语的子词构成，在所述语料中的词语后插入它相对应的子词表示，构成一个新语料集；步骤2，使用所述新语料集训练出每个词语词向量集{Wi}与子词的词向量集{Si}；步骤3，使用所述子词的词向量集S作为基词向量集，为每一个原词语训练出基于所述基词向量集的线性组合，使用该线性组合结果作为原词向量的表达。

【技术特征摘要】
1.一种基于字符对编码的词向量存储空间压缩的方法，其特征在于，具体方式为：步骤1，选取预处理完毕的语料，获得所述语料中每个词语的子词构成，在所述语料中的词语后插入它相对应的子词表示，构成一个新语料集；步骤2，使用所述新语料集训练出每个词语词向量集{Wi}与子词的词向量集{Si}；步骤3，使用所述子词的词向量集S作为基词向量集，为每一个原词语训练出基于所述基词向量集的线性组合，使用该线性组合结果作为原词向量的表达。2.如权利要求1所述的方法，其特征在于，所述步骤1具体步骤为，步骤1-1，首先根据空格切分原训练语；步骤1-2，将排序字典中每个分词单元进行前后组后，生成词语词频统计结果；步骤1-3，基于指定生成子词的数目，每次选择频率出现最高的词语，将词语词频字典中对应的两个词合并成一个新词，将所述新...

【专利技术属性】
技术研发人员：李建欣，包梦蛟，谢一凡，彭浩，胡春明，
申请(专利权)人：北京航空航天大学，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人