一种基于Word2Vec与词共现相结合的文本关键词抽取方法技术

技术编号:17007374 阅读:28 留言:0更新日期:2018-01-11 03:46
本发明专利技术公开了一种基于Word2Vec与词共现相结合的文本关键词抽取方法,采用ICTCLAS分词系统对文本进行分词和词性标注得到词汇集合;然后对词汇集合进行预处理,将不合理的词汇组合过滤,得到初步候选集;将初步候选集放置到训练好的Word2Vec模型中得到词向量表,计算词向量表中词向量间的距离,对初步候选集进行kmeans聚类得到关键词的二次候选集,根据词向量距离得到二次候选集在初步候选集中的词共现率;不同词汇长度赋予不同的权值,根据词共现率、词汇长度得到相应的权重,根据权重排序,排名靠前的m个即为最终的关键词。本发明专利技术采用Word2Vec生成的词向量进行聚类,再结合词共现等基本特征提取文本关键词,提取的关键词更准确,可以适应不同文本的关键词抽取。

【技术实现步骤摘要】
一种基于Word2Vec与词共现相结合的文本关键词抽取方法
本专利技术涉及自然语言处理
,特别是一种基于Word2Vec与词共现相结合的文本关键词抽取方法。
技术介绍
关键词提取就是从文本中把跟这篇文章意义最相关的一些词汇抽取出来。这些词汇也可以极大的概括文章的主要内容和中心思想。作者在写论文时一般都要求提供若干关键词,这样可以极大的方便读者来确定该论文是否为所需要的论文,达到预览的效果。传统的关键词标注,主要是通过人工完成。一般是邀请领域专家对一些特定文档进行阅读,然后根据文本内容,选取一些词作为关键词。这样做的好处是,关键词的精确性比较髙,一般与文章内容非常契合,具有很强的代表性。但是人工标注的一个主要问题是效率太低,传统文本量下,可以采用人工标注,但是在大数据时代,数据爆炸式增长,人工标注无法有效应对如此巨量的数据,使用计算机进行自动关键词抽取成为了主流选择。关键词抽取算法的不断发展,使得关键词自动标注的准确率不断提高,但是这与人工关键词自动标注相比,依旧显得过低。已有的一些研巧表明,准确率和召回率评价上,一般只有30%-40%,这使得如何进一步提高关键词抽取的效果,成为十分有意义的研究议题。早期的关键词提取算法使用词频、词性、词在文章中位置等属性来表示词汇,然后根据某个规则计算出每个词的得分,选择得分高的词作为关键词,效果并不理想。除了基于得分的关键词提取方法之外,还有一类是基于机器学习的关键词提取方法。相对于基于得分的方法而言,这些方法虽然利用了数据集中的信息,但是并没有改变词的表示方式。其中词的特征仍然是词的词性、词频等,这种表示方式忽略了词汇之间的语义联系,比如同义词、反义词等。因此不论是聚类还是分类过程中,词汇的特征并不能给出关于词汇语义充分信息,所以这些关键词提取算法的准确率并不理想。综上,传统的关键词抽取方法存在关键词抽取的效果不佳、关键词抽取效率低的问题。
技术实现思路
本专利技术所要解决的技术问题是克服现有技术的不足而提供一种基于Word2Vec与词共现相结合的文本关键词抽取方法,本专利技术采用Word2Vec生成的词向量进行词间相似度计算而后聚类,再结合词共现等基本特征提取文本关键词,所提取的关键词更加准确,可以较好适应不同文本的关键词抽取。本专利技术为解决上述技术问题采用以下技术方案:根据本专利技术提出的一种基于Word2Vec与词共现相结合的文本关键词抽取方法,包括以下步骤:步骤A、将文本分为若干子句,对子句进行分词,同时进行词性标注得到词汇集合;步骤B、对词汇集合进行预处理,具体如下:扫描每个子句中的词汇,对相连词汇进行扫描组合得到词汇组合;根据停用词表,将虚词和以虚词为开头或结尾的词汇组合进行过滤,得到初步候选集D1;步骤C、将初步候选集D1输入到训练好的Word2Vec模型中,得到词向量表;计算词向量表中每个词向量与其余词向量的语义距离,采用该语义距离,对初步候选集D1进行kmeans聚类;步骤D、聚类后得到多个类别,删除类别中词汇和词汇组合数少于设定值的类别,然后选取每个类别中靠近聚类中心的多个词汇和词汇组合作为关键词的二次候选集D2,利用二次候选集D2中每个词汇和词汇组合的词向量计算词汇和词汇组合在每个子句中的相似共现,根据存在相似共现的子句的数量占总子句数量之比得到二次候选集D2在初步候选集D1中的词共现率;步骤E、对于二次候选集D2中的词汇和词汇组合,不同词汇和词汇组合长度赋予不同的权值,根据词共现率、词汇长度得到权重,根据权重排序,排名前m个权重所对应的词汇和词汇组合即为最终的关键词,权重的总个数为M,m为整数,0<(m÷M)<20%。作为本专利技术所述的一种基于Word2Vec与词共现相结合的文本关键词抽取方法进一步优化方案,步骤A中,根据截断符号将文本分为若干子句;分词和词性标注采用的是ICTCLAS分词系统对子句进行处理得到词汇集合。作为本专利技术所述的一种基于Word2Vec与词共现相结合的文本关键词抽取方法进一步优化方案,截断符号包括句号、问号、逗号和数字。作为本专利技术所述的一种基于Word2Vec与词共现相结合的文本关键词抽取方法进一步优化方案,虚词包括副词、介词、连词、助词、叹词和拟声词,步骤B中最大的词汇组合的长度N是预设的。作为本专利技术所述的一种基于Word2Vec与词共现相结合的文本关键词抽取方法进一步优化方案,步骤B中,词汇组合是指在一句话中,以一个词汇为基准,将该词汇前后相连的n个词汇进行组合,组合出所有的词汇组合,n小于等于N。作为本专利技术所述的一种基于Word2Vec与词共现相结合的文本关键词抽取方法进一步优化方案,2<N<5。作为本专利技术所述的一种基于Word2Vec与词共现相结合的文本关键词抽取方法进一步优化方案,所述步骤C中计算词向量表中每个词向量与其余词向量的语义距离,具体如下:采用欧式距离、余弦距离、线性平移距离以及TD-IDF线性平移距离这四种距离计算方法分别计算词向量表中每个词向量与其余词向量的距离,然后对这四种距离计算结果取算数平均得到算数平均语义距离,该算数平均语义距离即为语义距离。作为本专利技术所述的一种基于Word2Vec与词共现相结合的文本关键词抽取方法进一步优化方案,步骤C中的Word2Vec模型是通过如下过程得到的:训练Word2Vec模型,训练模型的语料来自于维基百科,对该语料进行分词,词性标注,词汇集合预处理,最终得到所需的Word2Vec模型。作为本专利技术所述的一种基于Word2Vec与词共现相结合的文本关键词抽取方法进一步优化方案,利用二次候选集D2中每个词汇和词汇组合的词向量计算词汇和词汇组合在每个子句中的相似共现,根据存在相似共现的子句的数量占总子句数量之比得到二次候选集D2在初步候选集D1中的词共现率;具体如下:以初步候选集D1中的每一子句为一个单位,利用二次候选集D2中每个词汇和词汇组合的词向量计算二次候选集D2中每个词汇和词汇组合与每个子句中词汇和词汇组合的语义距离,根据语义距离对二次候选集D2中每个词汇和词汇组合计算词汇和词汇组合与每个子句中的词汇和词汇组合在每个子句中的相似共现,根据存在相似共现的子句的数量占总子句数量之比得到二次候选集D2在初步候选集D1中的词共现率CoO。作为本专利技术所述的一种基于Word2Vec与词共现相结合的文本关键词抽取方法进一步优化方案,所述词共现率是指词汇和汇组合与文本中其他词汇和词汇组合的相似共现所占文中所有语义环境的比例,语义环境是一句话或是一个段落。本专利技术采用以上技术方案与现有技术相比,具有以下技术效果:本专利技术将词汇特征投影在一个更抽象的空间中,并在该空间中进行关键词的初步筛选,再结合词汇和词汇组合在文本中词共现、词汇长度等基本特征作为二次关键词筛选,所提取的关键词效果佳、关键词抽取效率高,可以较好适应不同文本的关键词抽取。附图说明图1是一种基于Word2Vec与共现相结合的文本关键词抽取的整体流程图。具体实施方式下面结合附图对本专利技术的技术方案做进一步的详细说明:图1为本专利技术方法的整体流程图,参照图1,本实施例中所述基于Word2Vec与词共现相结合的文本关键词抽取方法,该方法包括以下步骤:详细流程如下:步骤A):将本文档来自技高网
...
一种基于Word2Vec与词共现相结合的文本关键词抽取方法

【技术保护点】
一种基于Word2Vec与词共现相结合的文本关键词抽取方法,其特征在于,包括以下步骤:步骤A、将文本分为若干子句,对子句进行分词,同时进行词性标注得到词汇集合;步骤B、对词汇集合进行预处理,具体如下:扫描每个子句中的词汇,对相连词汇进行扫描组合得到词汇组合;根据停用词表,将虚词和以虚词为开头或结尾的词汇组合进行过滤,得到初步候选集D1;步骤C、将初步候选集D1输入到训练好的Word2Vec模型中,得到词向量表;计算词向量表中每个词向量与其余词向量的语义距离,采用该语义距离,对初步候选集D1进行kmeans聚类;步骤D、聚类后得到多个类别,删除类别中词汇和词汇组合数少于设定值的类别,然后选取每个类别中靠近聚类中心的多个词汇和词汇组合作为关键词的二次候选集D2,利用二次候选集D2中每个词汇和词汇组合的词向量计算词汇和词汇组合在每个子句中的相似共现,根据存在相似共现的子句的数量占总子句数量之比得到二次候选集D2在初步候选集D1中的词共现率;步骤E、对于二次候选集D2中的词汇和词汇组合,不同词汇和词汇组合长度赋予不同的权值,根据词共现率、词汇长度得到权重,根据权重排序,排名前m个权重所对应的词汇和词汇组合即为最终的关键词,权重的总个数为M,m为整数,0<(m÷M)<20%。...

【技术特征摘要】
1.一种基于Word2Vec与词共现相结合的文本关键词抽取方法,其特征在于,包括以下步骤:步骤A、将文本分为若干子句,对子句进行分词,同时进行词性标注得到词汇集合;步骤B、对词汇集合进行预处理,具体如下:扫描每个子句中的词汇,对相连词汇进行扫描组合得到词汇组合;根据停用词表,将虚词和以虚词为开头或结尾的词汇组合进行过滤,得到初步候选集D1;步骤C、将初步候选集D1输入到训练好的Word2Vec模型中,得到词向量表;计算词向量表中每个词向量与其余词向量的语义距离,采用该语义距离,对初步候选集D1进行kmeans聚类;步骤D、聚类后得到多个类别,删除类别中词汇和词汇组合数少于设定值的类别,然后选取每个类别中靠近聚类中心的多个词汇和词汇组合作为关键词的二次候选集D2,利用二次候选集D2中每个词汇和词汇组合的词向量计算词汇和词汇组合在每个子句中的相似共现,根据存在相似共现的子句的数量占总子句数量之比得到二次候选集D2在初步候选集D1中的词共现率;步骤E、对于二次候选集D2中的词汇和词汇组合,不同词汇和词汇组合长度赋予不同的权值,根据词共现率、词汇长度得到权重,根据权重排序,排名前m个权重所对应的词汇和词汇组合即为最终的关键词,权重的总个数为M,m为整数,0&lt;(m÷M)&lt;20%。2.根据权利要求1所述的一种基于Word2Vec与词共现相结合的文本关键词抽取方法,其特征在于,步骤A中,根据截断符号将文本分为若干子句;分词和词性标注采用的是ICTCLAS分词系统对子句进行处理得到词汇集合。3.根据权利要求2所述的一种基于Word2Vec与词共现相结合的文本关键词抽取方法,其特征在于,截断符号包括句号、问号、逗号和数字。4.根据权利要求1所述的一种基于Word2Vec与词共现相结合的文本关键词抽取方法,其特征在于,虚词包括副词、介词、连词、助词、叹词和拟声词,步骤B中最大的词汇组合的长度N是预设的。5.根据权利要求1所述的一种基于Word2Vec与词共现相结合的文本关键词抽取方法,其特征在于,步骤B中,词汇组合是指在一句话中,以一...

【专利技术属性】
技术研发人员:李晓飞刘佳雯韩光
申请(专利权)人:南京邮电大学
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1