【技术实现步骤摘要】
一种基于Word2Vec与词共现相结合的文本关键词抽取方法
本专利技术涉及自然语言处理
,特别是一种基于Word2Vec与词共现相结合的文本关键词抽取方法。
技术介绍
关键词提取就是从文本中把跟这篇文章意义最相关的一些词汇抽取出来。这些词汇也可以极大的概括文章的主要内容和中心思想。作者在写论文时一般都要求提供若干关键词,这样可以极大的方便读者来确定该论文是否为所需要的论文,达到预览的效果。传统的关键词标注,主要是通过人工完成。一般是邀请领域专家对一些特定文档进行阅读,然后根据文本内容,选取一些词作为关键词。这样做的好处是,关键词的精确性比较髙,一般与文章内容非常契合,具有很强的代表性。但是人工标注的一个主要问题是效率太低,传统文本量下,可以采用人工标注,但是在大数据时代,数据爆炸式增长,人工标注无法有效应对如此巨量的数据,使用计算机进行自动关键词抽取成为了主流选择。关键词抽取算法的不断发展,使得关键词自动标注的准确率不断提高,但是这与人工关键词自动标注相比,依旧显得过低。已有的一些研巧表明,准确率和召回率评价上,一般只有30%-40%,这使得如何进一步提高关 ...
【技术保护点】
一种基于Word2Vec与词共现相结合的文本关键词抽取方法,其特征在于,包括以下步骤:步骤A、将文本分为若干子句,对子句进行分词,同时进行词性标注得到词汇集合;步骤B、对词汇集合进行预处理,具体如下:扫描每个子句中的词汇,对相连词汇进行扫描组合得到词汇组合;根据停用词表,将虚词和以虚词为开头或结尾的词汇组合进行过滤,得到初步候选集D1;步骤C、将初步候选集D1输入到训练好的Word2Vec模型中,得到词向量表;计算词向量表中每个词向量与其余词向量的语义距离,采用该语义距离,对初步候选集D1进行kmeans聚类;步骤D、聚类后得到多个类别,删除类别中词汇和词汇组合数少于设定值 ...
【技术特征摘要】
1.一种基于Word2Vec与词共现相结合的文本关键词抽取方法,其特征在于,包括以下步骤:步骤A、将文本分为若干子句,对子句进行分词,同时进行词性标注得到词汇集合;步骤B、对词汇集合进行预处理,具体如下:扫描每个子句中的词汇,对相连词汇进行扫描组合得到词汇组合;根据停用词表,将虚词和以虚词为开头或结尾的词汇组合进行过滤,得到初步候选集D1;步骤C、将初步候选集D1输入到训练好的Word2Vec模型中,得到词向量表;计算词向量表中每个词向量与其余词向量的语义距离,采用该语义距离,对初步候选集D1进行kmeans聚类;步骤D、聚类后得到多个类别,删除类别中词汇和词汇组合数少于设定值的类别,然后选取每个类别中靠近聚类中心的多个词汇和词汇组合作为关键词的二次候选集D2,利用二次候选集D2中每个词汇和词汇组合的词向量计算词汇和词汇组合在每个子句中的相似共现,根据存在相似共现的子句的数量占总子句数量之比得到二次候选集D2在初步候选集D1中的词共现率;步骤E、对于二次候选集D2中的词汇和词汇组合,不同词汇和词汇组合长度赋予不同的权值,根据词共现率、词汇长度得到权重,根据权重排序,排名前m个权重所对应的词汇和词汇组合即为最终的关键词,权重的总个数为M,m为整数,0<(m÷M)<20%。2.根据权利要求1所述的一种基于Word2Vec与词共现相结合的文本关键词抽取方法,其特征在于,步骤A中,根据截断符号将文本分为若干子句;分词和词性标注采用的是ICTCLAS分词系统对子句进行处理得到词汇集合。3.根据权利要求2所述的一种基于Word2Vec与词共现相结合的文本关键词抽取方法,其特征在于,截断符号包括句号、问号、逗号和数字。4.根据权利要求1所述的一种基于Word2Vec与词共现相结合的文本关键词抽取方法,其特征在于,虚词包括副词、介词、连词、助词、叹词和拟声词,步骤B中最大的词汇组合的长度N是预设的。5.根据权利要求1所述的一种基于Word2Vec与词共现相结合的文本关键词抽取方法,其特征在于,步骤B中,词汇组合是指在一句话中,以一...
【专利技术属性】
技术研发人员:李晓飞,刘佳雯,韩光,
申请(专利权)人:南京邮电大学,
类型:发明
国别省市:江苏,32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。