一种基于word2vec的短文本表示方法技术

技术编号：19425114 阅读：24 留言：0更新日期：2018-11-14 10:36

本发明专利技术涉及一种基于word2vec的短文本表示方法，包括以下步骤：S1：输入经过文本预处理的训练文本集，设置word2vec方法参数，训练得到训练文本集对应的词向量集合；S2：对于每篇文档中的每个词通过词向量之间的余弦距离计算得到该词在整个训练文本集中的一系列相近词；S3：计算每篇文档中的相近词与文档的余弦距离；S4：按照余弦距离从大到小排序，最终选取前n个相近词以及对应的余弦距离形成文档的n个相近词和余弦度量；S5：计算文档中的词和选取的n个相近词在该文档中的权重，形成新的文本表示，输出每一个文档基于word2vec改进后的向量空间表示。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于word2vec的短文本表示方法
本专利技术涉及计算机科学与
，更具体地，涉及一种基于word2vec的短文本表示方法。
技术介绍
在文本挖掘处理中，机器解读样本信息需要先经过文本表示环节，将样本转化为数值。随着自然语言处理范围的不断扩宽和计算机技术的发展，如何使用数值更好地表示文本所代表的语义信息始终是文本处理领域至关重要的研究点之一，因为这直接影响了文本挖掘效果。对于短文本挖掘问题，有效的文本特征表示方法更是研究的难点，尤其是社交平台产生的短文本，不仅具有传统的特征稀疏、语义不完整、一词多义和多词一义等问题，还具有表达随意、新词滥用、数量庞大等特征。常用的文本表示模型有布尔模型、概率模型和向量空间模型，其中，最常用的文本表示模型是向量空间模型(VectorSpaceModel)，由GerardSlaton等人在1958年提出。向量空间模型的基本思想是采用向量表示文本，即从训练集中选取部分特征词，然后将每个特征词作为向量空间坐标系的一维，这样文本就被形式化为多维向量空间中的一个向量，其中每个文本都是n维空间中的点，通过向量间的夹角或向量之间的距离就可以衡量文本之间的相似度(台德艺,王俊.文本分类特征权重改进算法[J].计算机工程,2010,36(9):197-199.)。然而向量空间模型具有数据空间表达稀疏且忽略词与词之间语义信息的缺陷，这导致其对短文本的表示能力稍弱。部分学者尝试针对这些缺陷进行修正，如WangBK等提出一个基于潜在狄利克雷分配和信息增益的strongfeaturethesaurus(SFT)，SFT综合了LDA和IG以提...

【技术保护点】
1.一种基于word2vec的短文本表示方法，其特征在于：包括以下步骤：S1：输入经过文本预处理的训练文本集，设置word2vec方法参数，训练得到训练文本集对应的词向量集合；S2：对于每篇文档中的每个词通过词向量之间的余弦距离计算得到该词在整个训练文本集中的一系列相近词；S3：计算每篇文档中的相近词与文档的余弦距离；S4：按照余弦距离从大到小排序，最终选取前n个相近词以及对应的余弦距离形成文档的n个相近词和余弦度量；S5：计算文档中的词和选取的n个相近词在该文档中的权重，形成新的文本表示，输出每一个文档基于word2vec改进后的向量空间表示。

【技术特征摘要】
1.一种基于word2vec的短文本表示方法，其特征在于：包括以下步骤：S1：输入经过文本预处理的训练文本集，设置word2vec方法参数，训练得到训练文本集对应的词向量集合；S2：对于每篇文档中的每个词通过词向量之间的余弦距离计算得到该词在整个训练文本集中的一系列相近词；S3：计算每篇文档中的相近词与文档的余弦距离；S4：按照余弦距离从大到小排序，最终选取前n个相近词以及对应的余弦距离形成文档的n个相近词和余弦度量；S5：计算文档中的词和选取的n个相近词在该文档中的权重，形成新的文本表示，输出每一个文档基于word2vec改进后的向量空间表示。2.根据权利要求1所述的基于word2vec的短文本表示方法，其特征在于：所述步骤S1训练文本集的预处理过程包括：S1.1：构建用户词典对训练文本进行分词处理和词性标注；S1.2：根据现有的停用词表去除停用词，并根据词性去除代词、介词、方位词；S1.3：采用TF、IDF...

【专利技术属性】
技术研发人员：路永和，张炜婷，
申请(专利权)人：中山大学，
类型：发明
国别省市：广东,44

全部详细技术资料下载我是这个专利的主人