当前位置: 首页 > 专利查询>中山大学专利>正文

一种基于word2vec的短文本表示方法技术

技术编号:19425114 阅读:24 留言:0更新日期:2018-11-14 10:36
本发明专利技术涉及一种基于word2vec的短文本表示方法,包括以下步骤:S1:输入经过文本预处理的训练文本集,设置word2vec方法参数,训练得到训练文本集对应的词向量集合;S2:对于每篇文档中的每个词通过词向量之间的余弦距离计算得到该词在整个训练文本集中的一系列相近词;S3:计算每篇文档中的相近词与文档的余弦距离;S4:按照余弦距离从大到小排序,最终选取前n个相近词以及对应的余弦距离形成文档的n个相近词和余弦度量;S5:计算文档中的词和选取的n个相近词在该文档中的权重,形成新的文本表示,输出每一个文档基于word2vec改进后的向量空间表示。

【技术实现步骤摘要】
一种基于word2vec的短文本表示方法
本专利技术涉及计算机科学与
,更具体地,涉及一种基于word2vec的短文本表示方法。
技术介绍
在文本挖掘处理中,机器解读样本信息需要先经过文本表示环节,将样本转化为数值。随着自然语言处理范围的不断扩宽和计算机技术的发展,如何使用数值更好地表示文本所代表的语义信息始终是文本处理领域至关重要的研究点之一,因为这直接影响了文本挖掘效果。对于短文本挖掘问题,有效的文本特征表示方法更是研究的难点,尤其是社交平台产生的短文本,不仅具有传统的特征稀疏、语义不完整、一词多义和多词一义等问题,还具有表达随意、新词滥用、数量庞大等特征。常用的文本表示模型有布尔模型、概率模型和向量空间模型,其中,最常用的文本表示模型是向量空间模型(VectorSpaceModel),由GerardSlaton等人在1958年提出。向量空间模型的基本思想是采用向量表示文本,即从训练集中选取部分特征词,然后将每个特征词作为向量空间坐标系的一维,这样文本就被形式化为多维向量空间中的一个向量,其中每个文本都是n维空间中的点,通过向量间的夹角或向量之间的距离就可以衡量文本之间的相似度(台德艺,王俊.文本分类特征权重改进算法[J].计算机工程,2010,36(9):197-199.)。然而向量空间模型具有数据空间表达稀疏且忽略词与词之间语义信息的缺陷,这导致其对短文本的表示能力稍弱。部分学者尝试针对这些缺陷进行修正,如WangBK等提出一个基于潜在狄利克雷分配和信息增益的strongfeaturethesaurus(SFT),SFT综合了LDA和IG以提高词汇的权重,从而选择出语义信息更强的特征词(WangBK,HuangYF,YangWX,etal.Shorttextclassificationbasedonstrongfeaturethesaurus[J].JOURNALOFZHEJIANGUNIVERSITY-SCIENCEC-COMPUTERS&ELECTRONICS,2012,13(9):649-659.)。YangLili等提出了一种通过结合短文本的词汇和语义特征的语义扩展方法,该方法利用维基百科作为背景知识库以获得词汇的语义特征,基于词汇和语义的组合重新计算特征词权重(YangL,LiC,DingQ,etal.CombiningLexicalandSemanticFeaturesforShortTextClassification[J].ProcediaComputerScience,2013,22(0):78-86.)。2013年,Google的TomasMikolov团队发布了一种基于深度学习的开源词向量生成工具——word2vec(MikolovT,LeQV,SutskeverI.Exploitingsimilaritiesamonglanguagesformachinetranslation[J].arXivpreprintarXiv:1309.4168,2013.MikolovT,ChenK,CorradoG,etal.Efficientestimationofwordrepresentationsinvectorspace[J].arXivpreprintarXiv:1301.3781,2013.)。该算法能够在较短的时间内从大规模真实文档语料库中学习到高质量的词向量,并用于方便地计算词与词之间的语义相似性。word2vec不仅可以发现词语之间的语义信息,还为向量空间模型在短文本表达稀疏的问题提供了新的解决方案。
技术实现思路
本专利技术旨在针对向量空间模型(VSM)存在的数据空间稀疏与语义缺失的问题,提出基于word2vec的短文本表示方法,使用基于word2vec的短文本表示方法表示的短文本的聚类结果能更好的提取出知识主题。为实现以上专利技术目的,采用的技术方案是:一种基于word2vec的短文本表示方法,包括以下步骤:S1:输入经过文本预处理的训练文本集,设置word2vec方法参数,训练得到训练文本集对应的词向量集合;S2:对于每篇文档中的每个词通过词向量之间的余弦距离计算得到该词在整个训练文本集中的一系列相近词;S3:计算每篇文档中的相近词与文档的余弦距离;S4:按照余弦距离从大到小排序,最终选取前n个相近词以及对应的余弦距离形成文档的n个相近词和余弦度量;S5:计算文档中的词和选取的n个相近词在该文档中的权重,形成新的文本表示,输出每一个文档基于word2vec改进后的向量空间表示。优选地,所述步骤S1训练文本集的预处理过程包括:S1.1:构建用户词典对训练文本进行分词处理和词性标注;S1.2:根据现有的停用词表去除停用词,并根据词性去除代词、介词、方位词;S1.3:采用TF、IDF或TF-IDF等方法进行特征选择,降低特征维度。优选地,所述步骤S3的具体计算过程如下:若文档中的某些词具有一致的相近词,则将一致的相近词的余弦距离相加,形成相近词与文档的余弦距离,否则保留原相近词及其与文档中的词的余弦距离:s(t,d)=s(t,t1)+s(t,t2)+s(t,t3)+…+s(t,tn)(1)其中,t,t1,t2,t3,…,tn为文档d中的词汇,s(t,tn)表示词t与文档d中的词汇tn的余弦度量,s(t,d)表示词t与文档d的余弦度量。优选地,所述步骤S5计算文档中的词和选取的n个相近词在该文档中的权重的具体过程如下:其中,W(t,nd)为词t在加入n个相近词后的文档nd中的权重,通过特征权重计算方法TF-IDF计算得到;s(t,d)表示词t与文档d的余弦度量。与现有技术相比,本专利技术的有益效果是:(1)本专利技术提出了一种基于word2vec的短文本表示方法,利用word2vec找到文本中各个词汇的相近词,进而计算得到文本的相近词作为该文本在向量空间模型中特征的扩展,这种特征扩展的方法既考虑了词语之间的语义关系,又解决了向量空间模型特征稀疏的问题。(2)实验结果表明,基于word2vec的短文本表示方法在实验的文本聚类以及文本分类环节均有显著优于传统向量空间模型的表现,聚类环节DB_index平均降低了0.704,分类环节分类准确率平均提高了4.614%,说明基于word2vec的短文本表示方法在技术和应用两个层面提高了聚类效果,能更好的提取语料中的知识主题。附图说明图1基于word2vec的向量空间模型改进方法表示短文本的过程图2基于传统向量空间模型方法表示的文本在不同聚类个数下随特征维数变化的DB_index折线图图3基于本专利技术所述方法表示的文本在不同聚类个数下随特征维数变化的DB_index折线图图4基于传统向量空间模型方法和本专利技术所述方法表示的文本的聚类DB_index取值柱状图图5基于传统向量空间模型方法和本专利技术所述方法表示的文本的分类准确率随特征维数变化的柱状图具体实施方式附图仅用于示例性说明,不能理解为对本专利的限制;以下结合附图和实施例对本专利技术做进一步的阐述。实施例1以下结合附图,对上述的本专利技术和另外的技术特征和优点作更详细的说明,在本实施方式中以全面二孩政策短文本语料库为例。训练文本集的获取和预处理过程如下:实验所用的全面二孩政策短文本语料库通本文档来自技高网
...

【技术保护点】
1.一种基于word2vec的短文本表示方法,其特征在于:包括以下步骤:S1:输入经过文本预处理的训练文本集,设置word2vec方法参数,训练得到训练文本集对应的词向量集合;S2:对于每篇文档中的每个词通过词向量之间的余弦距离计算得到该词在整个训练文本集中的一系列相近词;S3:计算每篇文档中的相近词与文档的余弦距离;S4:按照余弦距离从大到小排序,最终选取前n个相近词以及对应的余弦距离形成文档的n个相近词和余弦度量;S5:计算文档中的词和选取的n个相近词在该文档中的权重,形成新的文本表示,输出每一个文档基于word2vec改进后的向量空间表示。

【技术特征摘要】
1.一种基于word2vec的短文本表示方法,其特征在于:包括以下步骤:S1:输入经过文本预处理的训练文本集,设置word2vec方法参数,训练得到训练文本集对应的词向量集合;S2:对于每篇文档中的每个词通过词向量之间的余弦距离计算得到该词在整个训练文本集中的一系列相近词;S3:计算每篇文档中的相近词与文档的余弦距离;S4:按照余弦距离从大到小排序,最终选取前n个相近词以及对应的余弦距离形成文档的n个相近词和余弦度量;S5:计算文档中的词和选取的n个相近词在该文档中的权重,形成新的文本表示,输出每一个文档基于word2vec改进后的向量空间表示。2.根据权利要求1所述的基于word2vec的短文本表示方法,其特征在于:所述步骤S1训练文本集的预处理过程包括:S1.1:构建用户词典对训练文本进行分词处理和词性标注;S1.2:根据现有的停用词表去除停用词,并根据词性去除代词、介词、方位词;S1.3:采用TF、IDF...

【专利技术属性】
技术研发人员:路永和张炜婷
申请(专利权)人:中山大学
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1