关键词提取方法以及关键词提取装置制造方法及图纸

技术编号:18525948 阅读:20 留言:0更新日期:2018-07-25 12:46
本发明专利技术提供一种关键词提取方法,其包括:对提取文本的所有分析语句进行分词操作,以得到分析语句的词语单元;确定分析语句中各个候选词与分析语句中其他候选词的依存关联度;确定候选词与提取文本中其他候选词的词引力;计算每个分析语句中的候选词与分析语句中的其他候选词的相关权重;创建每个分析语句的有权无向图;基于文本排序算法,计算有权无向图的每个顶点的顶点得分;根据顶点得分,对于顶点对应的候选词进行排序,进而提取所述候选词中的关键词。本发明专利技术还提供一种关键词提取装置,本发明专利技术将两个候选词之间的相关权重作为文本排序算法中的权重边,从而提高了文本排序算法的计算准确度,进而提高了关键词的提取准确度。

【技术实现步骤摘要】
关键词提取方法以及关键词提取装置
本专利技术涉及文本处理领域,特别是涉及一种关键词提取方法及关键词提取装置。
技术介绍
为了能够有效地处理海量的文本数据,研究人员在文本分类、文本聚类、自动文摘和信息检索等方向进行了大量的研究,而这些研究都涉及到一个关键而又基础的问题,即如何获取文本中的关键词。因此,在自然语言处理和信息检索等任务中,关键词提取技术已逐渐成为热点研究问题。现有的研究成果中,关键词提取技术已被广泛应用于新闻服务、查询服务等领域,并被证明能够在信息检索、自动摘要、文本分类等任务中发挥重要作用。与此同时,海量信息处理也对关键词提取技术提出了新的挑战。关键词是对文本主题信息的精炼,高度概括了文本的主要内容,能帮助用户快速理解文本的主旨,易于使用户判断出文本是否是自己所需的内容,从而提高信息访问和信息搜索的效率。不仅如此,由于关键词精炼、简洁的特点,可以利用关键词以较低的复杂度进行文本相关性的计算,从而高效地进行文本分类、文本聚类和信息检索等处理。在这些应用中,使用最广泛的是信息检索,用户在搜索引擎或问答系统中输入关键词,系统将出现这些关键词的文本或问题答案返回给用户。在查询问句中,关键词代表了用户问句的主体含义。在问题分析时,提取问题中的关键词对于理解问题的语义至关重要。在信息检索中,需要从用户输入的问句中提取出对检索有用的关键词,关键词的提取的效果直接影响到信息检索的结果和答案的相似度计算与排序。因此,关键词提取是问答系统的基础,如何快速准确地从问句中提取关键词对于提升问答系统的性能至关重要。尽管现有的关键词提取方法在各类公开数据集上都能取得不错的效果,但存在计算两个词语相关性的时候,忽略了词语之间的句法结构关系的问题,因此现有的关键词提取方法的准确度较低。
技术实现思路
本专利技术实施例提供一种具有较高关键词提取准确度的关键词提取方法及关键词提取装置,以解决现有的关键词提取方法及关键词提取装置的关键词提取准确度较低的技术问题。本专利技术实施例提供一种关键词提取方法,其包括:对提取文本的所有分析语句进行分词操作,以得到所述分析语句的词语单元,所述词语单元包括候选词以及停用词;对分词操作后的分析语句进行依存句法分析,确定所述分析语句中各个候选词与所述分析语句中其他候选词的依存关联度;根据所述提取文本中的候选词的出现频率、以及所述候选词与所述提取文本中其他候选词的语义相似度,确定所述候选词与所述提取文本中其他候选词的词引力;根据所述依存关联度以及所述词引力,计算每个分析语句中的候选词与所述分析语句中的其他候选词的相关权重;基于分析语句中的所有候选词、以及所述分析语句中的候选词与所述分析语句中的其他候选词的相关权重,创建每个分析语句的有权无向图,其中所述有权无向图包括用于表示候选词的顶点以及用于表示候选词之间的相关权重的权重边;基于文本排序算法,计算所述有权无向图的每个顶点的顶点得分;以及根据所述顶点得分,对于所述顶点对应的候选词进行排序,进而提取所述候选词中的关键词。本专利技术实施例还提供一种关键词提取装置,其包括:分词模块,用于对提取文本的所有分析语句进行分词操作,以得到所述分析语句的词语单元,所述词语单元包括候选词以及停用词;依存关联度确定模块,用于对分词操作后的分析语句进行依存句法分析,确定所述分析语句中各个候选词与所述分析语句中其他候选词的依存关联度;词引力确定模块,用于根据所述提取文本中的候选词的出现频率、以及所述候选词与所述提取文本中其他候选词的语义相似度,确定所述候选词与所述提取文本中其他候选词的词引力;相关权重计算模块,用于根据所述依存关联度以及所述词引力,计算每个分析语句中的候选词与所述分析语句中的其他候选词的相关权重;有权无向图创建模块,用于基于分析语句中的所有候选词、以及所述分析语句中的候选词与所述分析语句中的其他候选词的相关权重,创建每个分析语句的有权无向图,其中所述有权无向图包括用于表示候选词的顶点以及用于表示候选词之间的相关权重的权重边;顶点得分计算模块,用于基于文本排序算法,计算所述有权无向图的每个顶点的顶点得分;以及关键词提取模块,用于根据所述顶点得分,对于所述顶点对应的候选词进行排序,进而提取所述候选词中的关键词。相较于现有技术,本专利技术的关键词提取方法及关键词提取装置将两个候选词之间的相关权重作为文本排序算法中的权重边,从而提高了文本排序算法的计算准确度,进而提高了关键词的提取准确度;解决了现有的关键词提取方法及关键词提取装置的关键词提取准确度较低的技术问题。附图说明图1为本专利技术的关键词提取方法的第一优选实施例的流程图;图2为本专利技术的关键词提取方法的第二优选实施例的流程图;图3A至图3C为本专利技术的关键词提取方法的第二优选实施例的候选词依存关系示意图;图4为本专利技术的关键词提取装置的第一优选实施例的结构示意图;图5为本专利技术的关键词提取装置的第二优选实施例的结构示意图;图6为本专利技术的关键词提取装置的第二优选实施例的依存关联度确定模块的结构示意图;图7为本专利技术的关键词提取装置的第二优选实施例的词引力确定模块的结构示意图;图8为本专利技术的关键词提取装置的第二优选实施例的关键词提取模块的结构示意图;图9为本专利技术的关键词提取装置所在的电子设备的工作环境结构示意图。具体实施方式请参照图式,其中相同的组件符号代表相同的组件,本专利技术的原理是以实施在一适当的运算环境中来举例说明。以下的说明是基于所例示的本专利技术具体实施例,其不应被视为限制本专利技术未在此详述的其它具体实施例。在以下的说明中,本专利技术的具体实施例将参考由一部或多部计算机所执行之作业的步骤及符号来说明,除非另有述明。因此,其将可了解到这些步骤及操作,其中有数次提到为由计算机执行,包括了由代表了以一结构化型式中的数据之电子信号的计算机处理单元所操纵。此操纵转换该数据或将其维持在该计算机之内存系统中的位置处,其可重新配置或另外以本领域技术人员所熟知的方式来改变该计算机之运作。该数据所维持的数据结构为该内存之实体位置,其具有由该数据格式所定义的特定特性。但是,本专利技术原理以上述文字来说明,其并不代表为一种限制,本领域技术人员将可了解到以下所述的多种步骤及操作亦可实施在硬件当中。本专利技术的关键词提取方法及关键词提取装置可设置在各种对文本内容进行处理的电子设备中,该电子设备包括但不限于可穿戴设备、头戴设备、医疗健康平台、个人计算机、服务器计算机、手持式或膝上型设备、移动设备(比如移动电话、个人数字助理(PDA)、媒体播放器等等)、多处理器系统、消费型电子设备、小型计算机、大型计算机、包括上述任意系统或设备的分布式计算环境,等等。该电子设备优选为进行关键词查找的检索服务器。本专利技术的电子设备对文本排序算法进行了改进,从而提高了关键词的提取准确度。请参照图1,图1为本专利技术的关键词提取方法的第一优选实施例的流程图;本优选实施例的关键词提取方法可使用上述的电子设备进行实施,该关键词提取方法包括:步骤S101,对提取文本的所有分析语句进行分词操作,以得到分析语句的词语单元;步骤S102,对分词操作后的分析语句进行依存句法分析,确定分析语句中各个候选词与分析语句中其他候选词的依存关联度;步骤S103,根据提取文本中的候选词的出现频率、以及候选词与提取文本中其他候选词本文档来自技高网
...

【技术保护点】
1.一种关键词提取方法,其特征在于,包括:对提取文本的所有分析语句进行分词操作,以得到所述分析语句的词语单元,所述词语单元包括候选词以及停用词;对分词操作后的分析语句进行依存句法分析,确定所述分析语句中各个候选词与所述分析语句中其他候选词的依存关联度;根据所述提取文本中的候选词的出现频率、以及所述候选词与所述提取文本中其他候选词的语义相似度,确定所述候选词与所述提取文本中其他候选词的词引力;根据所述依存关联度以及所述词引力,计算每个分析语句中的候选词与所述分析语句中的其他候选词的相关权重;基于分析语句中的所有候选词、以及所述分析语句中的候选词与所述分析语句中的其他候选词的相关权重,创建每个分析语句的有权无向图,其中所述有权无向图包括用于表示候选词的顶点以及用于表示候选词之间的相关权重的权重边;基于文本排序算法,计算所述有权无向图的每个顶点的顶点得分;以及根据所述顶点得分,对于所述顶点对应的候选词进行排序,进而提取所述候选词中的关键词。

【技术特征摘要】
1.一种关键词提取方法,其特征在于,包括:对提取文本的所有分析语句进行分词操作,以得到所述分析语句的词语单元,所述词语单元包括候选词以及停用词;对分词操作后的分析语句进行依存句法分析,确定所述分析语句中各个候选词与所述分析语句中其他候选词的依存关联度;根据所述提取文本中的候选词的出现频率、以及所述候选词与所述提取文本中其他候选词的语义相似度,确定所述候选词与所述提取文本中其他候选词的词引力;根据所述依存关联度以及所述词引力,计算每个分析语句中的候选词与所述分析语句中的其他候选词的相关权重;基于分析语句中的所有候选词、以及所述分析语句中的候选词与所述分析语句中的其他候选词的相关权重,创建每个分析语句的有权无向图,其中所述有权无向图包括用于表示候选词的顶点以及用于表示候选词之间的相关权重的权重边;基于文本排序算法,计算所述有权无向图的每个顶点的顶点得分;以及根据所述顶点得分,对于所述顶点对应的候选词进行排序,进而提取所述候选词中的关键词。2.根据权利要求1所述的关键词提取方法,其特征在于,所述对分词操作后的分析语句进行依存句法分析,确定所述分析语句中各个候选词与所述分析语句中其他候选词的依存关联度的步骤包括:对所述分析语句进行依存句法分析,获取所述分析语句中所有候选词的依存关系路径;以及基于所述分析语句中各个候选词与分析语句中其他候选词的依存关系路径长度,确定所述分析语句中各个候选词与所述分析语句中其他候选词的依存关联度。3.根据权利要求2所述的关键词提取方法,其特征在于,所述关键词提取方法还包括步骤:对所述分词语句的词语单元进行去停用词处理,以得到所述分析语句的候选词以及停用词。4.根据权利要求1所述的关键词提取方法,其特征在于,所述根据所述提取文本中的候选词的出现频率、以及所述候选词与所述提取文本中其他候选词的语义相似度,确定所述候选词与所述提取文本中其他候选词的词引力的步骤包括:基于语言模型训练方法,获取所述提取文本中候选词的词向量;计算所述提取文本中候选词的词向量与所述提取文本中其他候选词的词向量的欧氏距离;以及根据所述提取文本中的候选词的出现频率、以及所述候选词的词向量与所述提取文本中其他候选词的词向量的欧氏距离,确定所述候选词与所述提取文本中其他候选词的词引力。5.根据权利要求1所述的关键词提取方法,其特征在于,所述基于文本排序算法,计算所述有权无向图的每个顶点的顶点得分的步骤包括:通过以下公式对所述有权无向图的每个顶点的顶点得分进行迭代收敛运算直至每次运算的顶点得分变化率小于设定值:其中d为阻尼系数,weight(vi,vj)表示有权无向图中的顶点i和顶点j之间的权重边的相关权重,weight(vj,vk)表示有权无向图中的顶点j和顶点k之间的权重边的相关权重,WS(vi)表示有权无向图中的顶点i的顶点得分,C(vi)表示与顶点i具有权重边的顶点集合,C(vj)表示与顶点j具有权重边的顶点集合。6.根据权利要求1所述的关键词提取方法,其特征在于,包括:所述根据所述顶点得分,对于所述顶点对应的候选词进行排序,进而提取所述候选词中的关键词的步骤包括:判断所述候选词是否具有重复候选词;如具有重复候选词,将所述重复候选词删除,并获取所述重复候选词对应的最大顶点得分;判断所述重复候选词对应的最大顶点得分是否大于所述候选词的顶点得分;如所述重复候选词对应的最大顶点得分大于所述候选词的顶点得分,则将所述重复候选词对应的最大顶点得分设定为所述候选词的顶点得分;以及将顶点得分最高的设定数量的候选词设定为所述提取文本的关键词。7.一种关键词...

【专利技术属性】
技术研发人员:王煦祥尹庆宇
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1