【技术实现步骤摘要】
一种自动提取中文文本关键词的方法与装置
本专利技术属于数字数据处理
,特别涉及一种自动提取中文文本关键词的方法与装置。
技术介绍
随着计算机网络的发展,互联网每天都产生海量的数据,数据的形式也多种多样,主要形式有文本、图片、音频和视频。虽然图片、音视、频数据所占体量大,但所包含的信息较少,文本数据所包含信息较多,也更难挖掘,如何更有效地挖掘文本中的信息,是信息检索和数据挖掘中重要的问题。提取文本关键词的目的是提取文本中最重要、最核心的词,是文本挖掘中的一个基本问题。目前,文本关键词提取有多种实现方式,基于统计的方法、基于语义分析的方法、基于图模型的方法和基于深度学习的方法。基于统计的方法有统计词频的方法,TF-IDF方法、LDA统计方法,通过统计单词的特征来确定文本中的关键词,但这种方法很难提取到有效的关键词,基于语义的方法有通过计算单词之间的语义相似度,构建语义相似度网络来衡量一个词词的重要程度。基于图模型的方法,最著名的就是基于谷歌网页重要程度计算算法PageRank思想上设计的TextRank算法,通过候选关键词上下文的投票机制来衡量该词的重要性,该算 ...
【技术保护点】
1.一种自动提取中文文本关键词的方法,其特征在于,包括以下阶段,预处理阶段:对文本进行中文分词和去除停用词;权重计算阶段:用大规模语料库训练的word2vec模型将单词转化为词向量,然后统计词频,通过词频和词语相似度计算单词在文本中的权重;图模型计算阶段:构建基于图模型的文本排序算法,多次迭代计算出顶点得分;关键词得分计算及排序阶段:每次迭代计算过程中对关键词合并,并在图模型中添加新顶点并计算得分,然后对顶点得分进行排序,得分最大的为文本中最重要的关键词。
【技术特征摘要】
1.一种自动提取中文文本关键词的方法,其特征在于,包括以下阶段,预处理阶段:对文本进行中文分词和去除停用词;权重计算阶段:用大规模语料库训练的word2vec模型将单词转化为词向量,然后统计词频,通过词频和词语相似度计算单词在文本中的权重;图模型计算阶段:构建基于图模型的文本排序算法,多次迭代计算出顶点得分;关键词得分计算及排序阶段:每次迭代计算过程中对关键词合并,并在图模型中添加新顶点并计算得分,然后对顶点得分进行排序,得分最大的为文本中最重要的关键词。2.根据权利要求1所述的自动提取中文文本关键词的方法,其特征在于,具体包括以下步骤:(1)对于一段中文文本Si,首先对该文本进行中文分词,去除停用词和标点符号之后将句子分成单词序列[w1,w2,…,wn];(2)然后对其中每个单词转化为词向量[v1,v2,…,vn],词向量转化使用在大规模中文语料库上训练的word2vec模型,该模型使用深度学习的思想,学习大量核心词的上下文关系,将单词转化为向量,通过计算向量之间的距离来衡量两个单词的相似程度,相似度计算使用向量的欧氏距离计算,对于n维向量xi和xj之间的欧式距离为(3)统计每个关键词在文本中的出现频率freq(wi),wi表示文本中的第i个单词,对于每个关键词wi,计算wi与其他单词的相似度,最终计算出wi在文本中的权重,权重计算公式为其中dis(wi,w1)+dis(wi,w2)+…+dis(wi,wn)为词wi与其他词之间的距离之和,距离越小表示两词之间的相似度越高,关键词出现的频率越高则该词在文本中的权重越高,表示该词在文本中的重要性越高;(4)然后使用基于图模型的文本排序算法对关键词进行排序,该算法把文本表示一个无向图G(V,E),V是顶点集合,一个关键词表示为一个顶点vi,E是无向边的集合,是V×V的子集,边的权重与两顶点的相似度有关,也就是单词之间的相似度,vi与vj之间边的权重wij的计算公式为顶点vi的初始得分为上述单词wi在文本中的权重weight(wi),词顶点vi最终得分的计算公式为其中α是阻尼系数,取值范围是0到1,含义是图模型中一顶点指向其他顶点的概率,多次递归迭代计算此公式,最终使其收敛,如果...
【专利技术属性】
技术研发人员:王佰玲,黄纯,辛国栋,魏玉良,何清刚,王巍,
申请(专利权)人:哈尔滨工业大学威海,哈工大威海创新创业园有限责任公司,
类型:发明
国别省市:山东,37
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。