【技术实现步骤摘要】
关键词提取方法以及关键词提取装置
本专利技术涉及文本处理领域,特别是涉及一种关键词提取方法及关键词提取装置。
技术介绍
为了能够有效地处理海量的文本数据,研究人员在文本分类、文本聚类、自动文摘和信息检索等方向进行了大量的研究,而这些研究都涉及到一个关键而又基础的问题,即如何获取文本中的关键词。因此,在自然语言处理和信息检索等任务中,关键词提取技术已逐渐成为热点研究问题。现有的研究成果中,关键词提取技术已被广泛应用于新闻服务、查询服务等领域,并被证明能够在信息检索、自动摘要、文本分类等任务中发挥重要作用。与此同时,海量信息处理也对关键词提取技术提出了新的挑战。关键词是对文本主题信息的精炼,高度概括了文本的主要内容,能帮助用户快速理解文本的主旨,易于使用户判断出文本是否是自己所需的内容,从而提高信息访问和信息搜索的效率。不仅如此,由于关键词精炼、简洁的特点,可以利用关键词以较低的复杂度进行文本相关性的计算,从而高效地进行文本分类、文本聚类和信息检索等处理。在这些应用中,使用最广泛的是信息检索,用户在搜索引擎或问答系统中输入关键词,系统将出现这些关键词的文本或问题答案返回给用户。在查询问句中,关键词代表了用户问句的主体含义。在问题分析时,提取问题中的关键词对于理解问题的语义至关重要。在信息检索中,需要从用户输入的问句中提取出对检索有用的关键词,关键词的提取的效果直接影响到信息检索的结果和答案的相似度计算与排序。因此,关键词提取是问答系统的基础,如何快速准确地从问句中提取关键词对于提升问答系统的性能至关重要。尽管现有的关键词提取方法在各类公开数据集上都能取得不错的 ...
【技术保护点】
1.一种关键词提取方法,其特征在于,包括:对提取文本的所有分析语句进行分词操作,以得到所述分析语句的词语单元,所述词语单元包括候选词以及停用词;对分词操作后的分析语句进行依存句法分析,确定所述分析语句中各个候选词与所述分析语句中其他候选词的依存关联度;根据所述提取文本中的候选词的出现频率、以及所述候选词与所述提取文本中其他候选词的语义相似度,确定所述候选词与所述提取文本中其他候选词的词引力;根据所述依存关联度以及所述词引力,计算每个分析语句中的候选词与所述分析语句中的其他候选词的相关权重;基于分析语句中的所有候选词、以及所述分析语句中的候选词与所述分析语句中的其他候选词的相关权重,创建每个分析语句的有权无向图,其中所述有权无向图包括用于表示候选词的顶点以及用于表示候选词之间的相关权重的权重边;基于文本排序算法,计算所述有权无向图的每个顶点的顶点得分;以及根据所述顶点得分,对于所述顶点对应的候选词进行排序,进而提取所述候选词中的关键词。
【技术特征摘要】
1.一种关键词提取方法,其特征在于,包括:对提取文本的所有分析语句进行分词操作,以得到所述分析语句的词语单元,所述词语单元包括候选词以及停用词;对分词操作后的分析语句进行依存句法分析,确定所述分析语句中各个候选词与所述分析语句中其他候选词的依存关联度;根据所述提取文本中的候选词的出现频率、以及所述候选词与所述提取文本中其他候选词的语义相似度,确定所述候选词与所述提取文本中其他候选词的词引力;根据所述依存关联度以及所述词引力,计算每个分析语句中的候选词与所述分析语句中的其他候选词的相关权重;基于分析语句中的所有候选词、以及所述分析语句中的候选词与所述分析语句中的其他候选词的相关权重,创建每个分析语句的有权无向图,其中所述有权无向图包括用于表示候选词的顶点以及用于表示候选词之间的相关权重的权重边;基于文本排序算法,计算所述有权无向图的每个顶点的顶点得分;以及根据所述顶点得分,对于所述顶点对应的候选词进行排序,进而提取所述候选词中的关键词。2.根据权利要求1所述的关键词提取方法,其特征在于,所述对分词操作后的分析语句进行依存句法分析,确定所述分析语句中各个候选词与所述分析语句中其他候选词的依存关联度的步骤包括:对所述分析语句进行依存句法分析,获取所述分析语句中所有候选词的依存关系路径;以及基于所述分析语句中各个候选词与分析语句中其他候选词的依存关系路径长度,确定所述分析语句中各个候选词与所述分析语句中其他候选词的依存关联度。3.根据权利要求2所述的关键词提取方法,其特征在于,所述关键词提取方法还包括步骤:对所述分词语句的词语单元进行去停用词处理,以得到所述分析语句的候选词以及停用词。4.根据权利要求1所述的关键词提取方法,其特征在于,所述根据所述提取文本中的候选词的出现频率、以及所述候选词与所述提取文本中其他候选词的语义相似度,确定所述候选词与所述提取文本中其他候选词的词引力的步骤包括:基于语言模型训练方法,获取所述提取文本中候选词的词向量;计算所述提取文本中候选词的词向量与所述提取文本中其他候选词的词向量的欧氏距离;以及根据所述提取文本中的候选词的出现频率、以及所述候选词的词向量与所述提取文本中其他候选词的词向量的欧氏距离,确定所述候选词与所述提取文本中其他候选词的词引力。5.根据权利要求1所述的关键词提取方法,其特征在于,所述基于文本排序算法,计算所述有权无向图的每个顶点的顶点得分的步骤包括:通过以下公式对所述有权无向图的每个顶点的顶点得分进行迭代收敛运算直至每次运算的顶点得分变化率小于设定值:其中d为阻尼系数,weight(vi,vj)表示有权无向图中的顶点i和顶点j之间的权重边的相关权重,weight(vj,vk)表示有权无向图中的顶点j和顶点k之间的权重边的相关权重,WS(vi)表示有权无向图中的顶点i的顶点得分,C(vi)表示与顶点i具有权重边的顶点集合,C(vj)表示与顶点j具有权重边的顶点集合。6.根据权利要求1所述的关键词提取方法,其特征在于,包括:所述根据所述顶点得分,对于所述顶点对应的候选词进行排序,进而提取所述候选词中的关键词的步骤包括:判断所述候选词是否具有重复候选词;如具有重复候选词,将所述重复候选词删除,并获取所述重复候选词对应的最大顶点得分;判断所述重复候选词对应的最大顶点得分是否大于所述候选词的顶点得分;如所述重复候选词对应的最大顶点得分大于所述候选词的顶点得分,则将所述重复候选词对应的最大顶点得分设定为所述候选词的顶点得分;以及将顶点得分最高的设定数量的候选词设定为所述提取文本的关键词。7.一种关键词...
【专利技术属性】
技术研发人员:王煦祥,尹庆宇,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。