一种基于word2vec和TextRank的科技文本关键词提取方法技术

技术编号:19634986 阅读:203 留言:0更新日期:2018-12-01 15:43
本发明专利技术公开了一种基于word2vec和TextRank的科技文本关键词提取方法。本发明专利技术使用科技语料训练word2vec模型,获取每个词的语义向量;针对待处理文本进行分词处理,并以每个词为顶点,词在滑动窗口中的词共现关系为边,词的相似度为权重构建有向带权图;为每个词赋予初始权重,进而基于边的语义相似度设计改进的TextRank算法,实现顶点权重的迭代更新。直至两次迭代的误差小于一个极小值ε,以此作为每个词的最终权重;取前N个权重最高的关键词作为该文本的关键词。本发明专利技术综合考虑了词与词在语义上的距离,以此来改进TextRank算法,使词的权重表示更为精准,从而提高文本关键词提取的可靠性、有效性。

A Keyword Extraction Method for Scientific Text Based on Word2vec and TextRank

The invention discloses a keyword extraction method for scientific and technological text based on word 2vec and TextRank. The invention uses scientific and technological corpus to train word2vec model to obtain the semantic vectors of each word; participle processing is carried out for the text to be processed, and each word is the vertex, the word co-occurrence relationship in the sliding window is the edge, and the similarity of words is the weight to construct a directed weighted graph; initial weight is given to each word, and then based on the edge. Semantic similarity design improved TextRank algorithm to achieve iterative updating of vertex weight. Up to two iterations, the error is less than a minimum value e, which is used as the final weight of each word, and the first N keywords with the highest weight are used as the keywords of the text. The invention comprehensively considers the semantic distance between words and words, thereby improving the TextRank algorithm, making the weight representation of words more accurate, thereby improving the reliability and effectiveness of text keyword extraction.

【技术实现步骤摘要】
一种基于word2vec和TextRank的科技文本关键词提取方法
本专利技术涉及自然语言处理领域,具体涉及一种基于word2vec和TextRank的科技文本关键词提取方法。
技术介绍
随着信息技术的发展,网络中数据总量呈现指数级增长。以科技信息为例,中国知网、万方等国内多家科技文献服务机构的中文论文、专利、项目总量已突破数亿项,而各大门户网站、科技服务类网站,如新浪、腾讯、迈科技的科技新闻咨询也以每日数万条累计。针对如此海量的科技信息,用户通常会利用关键词进行分类、统计、搜索、推荐以满足对科技信息的有效获取。然而,目前网络中很多科技新闻、科技项目都缺乏关键词信息,很多科技论文或专利给定的关键词也存在不准确的问题。因此,如何为科技文献选取、更正合适的关键词尤为重要。通常,针对小文本数据可以采用人工处理方式,但是人工方式主观性太强,且在面对海量科技文献场景时,人工方式效率极低,已经不能满足信息分析处理的需要。因此,进行高效且准确地关键词自动提取是非常有必要的。目前比较成熟的关键词提取方法有基于隐含主题模型的关键词提取、基于TF-IDF词频统计的关键词提取和基于TextRank词图模型本文档来自技高网...

【技术保护点】
1.一种基于word2vec和TextRank的科技文本关键词提取方法,其特征在于,该方法包含如下步骤:步骤1:科技语料的词向量训练步骤1.1使用网络爬虫抓取中文科技文献作为科技领域的训练语料,包括论文、专利、项目的标题、关键词和摘要,并进行数据清理,去除语料中的噪声,以保证语料的有效性;步骤1.2 提取上述训练语料中已抓取的关键词,进行关键词去重并通过词根特性及词法分析,结合关键词所在文献的质量因素,对关键词进行有效过滤和标准化,保留高质量关键词,构建分词词袋;步骤1.3 使用步骤1.2构建的分词词袋对上述训练语料分词,接着使用word2vec模型将分词结果进行词向量训练;所述词向量训练结果...

【技术特征摘要】
1.一种基于word2vec和TextRank的科技文本关键词提取方法,其特征在于,该方法包含如下步骤:步骤1:科技语料的词向量训练步骤1.1使用网络爬虫抓取中文科技文献作为科技领域的训练语料,包括论文、专利、项目的标题、关键词和摘要,并进行数据清理,去除语料中的噪声,以保证语料的有效性;步骤1.2提取上述训练语料中已抓取的关键词,进行关键词去重并通过词根特性及词法分析,结合关键词所在文献的质量因素,对关键词进行有效过滤和标准化,保留高质量关键词,构建分词词袋;步骤1.3使用步骤1.2构建的分词词袋对上述训练语料分词,接着使用word2vec模型将分词结果进行词向量训练;所述词向量训练结果包括分词词袋中的每个科技词及其语义向量;步骤2:目标科技文本的分词及分词关系的提取使用步骤1.2构建的分词词袋对目标科技文本进行分词,接着使用一个长度为n的滑动窗口从分词结果开头滑动至末尾,滑动过程中记录下任意出现在同一滑动窗口中的两个词的组合,这样两个词存在上下文关系,在步骤3构建有向带权图时需要在这两个词间添加一条边;步骤3:构建科技文本分词结果的有向带权图针对科技文本的分词结果构建有向带权图G=(V,E,W);其中,科技文本分词结果中的所有科技词作为G的顶点集,记为V;步骤2中获取的分词关系作为G的边集,记为E;G中每条边都具有权值,权值集记为W,边的权值由步骤1.3生成的词向量做余弦相似度得到;步骤4:顶点权重的迭代计算及文本关键词的获取首先为每个顶点赋予相同的权重,该权重表示这个词在整个文本中的重要性;顶点的权重在每次迭代计算中由相邻顶点权重及边的权重计算得到,具体的迭代计算过程如下:a)遍历图中每一个顶点逐个更新权重;b...

【专利技术属性】
技术研发人员:徐小良袁佳彬王宇翔
申请(专利权)人:杭州电子科技大学
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1