The embodiment of the present invention provides a keyword extraction method and device. The method includes: acquiring web page text information, preprocessing the web page text information, obtaining the sequence of candidate keywords; constructing the candidate keyword graph according to the sequence of candidate keywords, obtaining the similarity value between each candidate keyword and other candidate keywords in the sequence of the candidate keywords according to the operation of the candidate keyword graph, and using the method described above. Similarity value is the initial weight value of each candidate keyword; according to the initial weight value of each candidate keyword, the corresponding convergence weight value of each candidate keyword is calculated, and the corresponding convergence weight value of each candidate keyword is sorted according to the size value of the convergence weight value of each candidate keyword, and the web page text information described in each candidate keyword is extracted. Target keywords. The embodiment of the present invention improves the initial weight algorithm of the TextRank algorithm, and achieves a more efficient extraction of keywords in web page text information.
【技术实现步骤摘要】
一种关键词提取方法及装置
本专利技术涉及计算机
,具体涉及一种关键词提取方法及装置。
技术介绍
文本关键词提取的目的在于高度凝练文本的主题,快速获取文本的核心内容。关键词提取在新闻、学术论文的自动摘要,社会化标签标注,文本主题提取等领域具有重要作用。关键词提取从语料是否被标记的角度可分为有监督和无监督两种。其中有监督的关键词提取典型代表可以把关键词提取看作是一个二分类问题,对于任何一个文本中的词汇,进行二值判断,即属于关键词还是非关键词二值分类,这种方法要求对文档集语料提前进行关键词人工标记,进行分类模型训练,进而实现关键词提取,需要大量的人工干预,代价较高。无监督的方法不用人工标记,因无需训练过程,应用较为方便。目前比较主流的无监督关键词提取方法主要有三种:基于词频统计的TF-IDF模型关键词提取、基于主题模型的关键词提取和基于词汇图模型的关键词提取。在三种主流的无监督关键词提取研究之上,又有很多其他相关的优化算法。基于词汇图模型关键词提取不需要额外的文档集进行训练,只依靠自身文本词汇结构信息即可进行关键词提取,简单而有效,所以得到广泛的应用,其中又以Te ...
【技术保护点】
1.一种关键词提取方法,其特征在于,所述方法包括:获取网页文本信息,对所述网页文本信息预先处理,获得候选关键词的序列;根据所述候选关键词的序列构建所述候选关键词图,根据所述候选关键词图运算获得所述候选关键词的序列中每个候选关键词与其他候选关键词之间的相似度值,并用所述相似度值作为每个候选关键词的初始权重值;根据各候选关键词的初始权重值,运算获得各候选关键词对应的收敛权重值,对各候选关键词对应的收敛权重值进行大小值排序,根据各候选关键词的收敛权重值的大小值排序,提取各候选关键词中所述网页文本信息的目标关键词。
【技术特征摘要】
1.一种关键词提取方法,其特征在于,所述方法包括:获取网页文本信息,对所述网页文本信息预先处理,获得候选关键词的序列;根据所述候选关键词的序列构建所述候选关键词图,根据所述候选关键词图运算获得所述候选关键词的序列中每个候选关键词与其他候选关键词之间的相似度值,并用所述相似度值作为每个候选关键词的初始权重值;根据各候选关键词的初始权重值,运算获得各候选关键词对应的收敛权重值,对各候选关键词对应的收敛权重值进行大小值排序,根据各候选关键词的收敛权重值的大小值排序,提取各候选关键词中所述网页文本信息的目标关键词。2.根据权利要求1所述的方法,其特征在于,所述对所述网页文本信息预先处理具体包括:按照完整句子分割所述网页文本信息,对所述完整句子进行分词和词性标注,过滤停用词和词性,保留所述候选关键词。3.根据权利要求1所述的方法,其特征在于,所述根据所述候选关键词的序列构建所述候选关键词图,根据所述候选关键词图运算获得所述候选关键词的序列中每个候选关键词与其他候选关键词之间的相似度值,并用所述相似度值作为每个候选关键词的初始权重值具体包括:根据词向量word2VEC算法的连续词袋模型CBOW对各候选关键词进行k维词向量表征,通过所述词向量计算所述候选关键词的序列中每个候选关键词与其他候选关键词之间的相似度值,即余弦夹角获得各候选关键词的初始权重值;其中,k的值为所述候选关键词图中转移矩阵R的元素。4.根据权利要求1所述的方法,其特征在于,所述根据各候选关键词的初始权重值,运算获得各候选关键词对应的收敛权重值具体包括:根据注意力机制利用如下公式迭代计算获得所述各候选关键词的收敛权重值;所述收敛权重值的计算公式为:其中,Vi为第i个候选关键词;Vj为第j个候选关键词;WS(Vi)为第i个候选关键词的收敛权重值;d为阻尼系数,取值范围为0到1,代表候选关键词序列中某一特定候选关键词指向其他候选关键词的概率,一般取值为0.85;In(Vi)为指向第i个候选关键词的候选关键词的集合;Out(Vi)为第i个候选关键词指向的候选关键词的集合;ωji为候选关键词的序列中第i个候选关键词与第j个候选关键词的相似度值Sim(ei,fj),并用所述相似度值作为第i个候选关键词与第j个候选关键词的初始权重值;ei为第i个候选关键词的词向量表示;fj为第j个候选关键词的词向量表示;ωjk为候选关键词的序列中第i个候选关键词与第k个候选关键词的相似度值Sim(ek,fj),并用所述相似度值作为第i个候选关键词与第k个候选关键词的初始权重值;kw,i的值为所述候选关键词图中转移矩阵R|V|x2b的元素;2b为长度为2b的窗口,2b表示窗口大小,即最多共线2b个候选关键词;|V|为候选关键词的数值;αji为候选关键词的序列中第i个候选关键词与第j个候选关键词之间注意力的值,αji=αij;所述注意力αij计算公式为:其中,kw,i为转移矩阵R|V|x2b中第w行第i列的元素值;expkw,i为以常数e为底的指数函数,常数e的值约为2.718282;Si为偏置量,窗口固定后自动获取;所述初始权重值ωji=Sim(ei,fj)计算公式为:5.一种关键词提取装置,其特征在于,所述装置包括:候选关键词获取模块,用于获取网页文本信息,对所述网页文本...
【专利技术属性】
技术研发人员:张春荣,
申请(专利权)人:普天信息技术有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。