【技术实现步骤摘要】
本专利技术涉及一种关键词的提取方法,具体涉及一种基于图的关键词抽取方法。
技术介绍
关键词(Key Word)是反映文本内容特征的、起关键作用的词,关键词类型丰富,可以是普通名词,也可以是人名、地名、书籍名等。关键词抽取常见方法有:监督式学习模型和无监督式学习模型两大类。早期的基于监督式学习的关键词抽取方法的主要任务是训练一个分类器判断候选词是否为关键词,基于这种思想的关键词抽取方法有:朴素贝叶斯(Naive Bayes)、决策树(decision trees)、Boosting算法、最大熵(Maximum Entropy)、支持向量机(support vector machines)等等。使用这些方法仅能得到关键词候选列表,其中的关键词都是同等重要的,但是事实上,不同的关键词具有不同的重要性(即权重),关键词抽取需要对关键词按重要程度进行排序,而不是仅仅给出关键词的列表,因此人们提出了一种基于排序机制的关键词抽取方法,该机制的核心是为候选关键词设计排序器,其基本思想是首先基于词汇识别候选关键词,计算每个候选关键词的特征值,然后根据机器学习方法预测哪些候选词是好 ...
【技术保护点】
一种基于图的关键词抽取方法,其特征在于,包括以下步骤:对文本信息进行预处理,所述预处理包括分词处理、词性标注处理和命名实体识别处理;计算节点特征,以及计算词汇的统计关系和词汇的语义关系;所述节点特征包括:节点的统计特征、位置特性、词性特征和实体特征;所述实体特征包括实体类型特征和命名实体链接特征;根据所述节点特征计算节点权重,以及根据所述词汇的统计关系和词汇的语义关系计算边权重;根据所述节点权重和所述边权重计算候选词的分值;根据候选词的分值排序结果以及文本大小信息确定该文本的关键词。
【技术特征摘要】
1.一种基于图的关键词抽取方法,其特征在于,包括以下步骤:对文本信息进行预处理,所述预处理包括分词处理、词性标注处理和命名实体识别处理;计算节点特征,以及计算词汇的统计关系和词汇的语义关系;所述节点特征包括:节点的统计特征、位置特性、词性特征和实体特征;所述实体特征包括实体类型特征和命名实体链接特征;根据所述节点特征计算节点权重,以及根据所述词汇的统计关系和词汇的语义关系计算边权重;根据所述节点权重和所述边权重计算候选词的分值;根据候选词的分值排序结果以及文本大小信息确定该文本的关键词。2.根据权利要求1所述的方法,其特征在于,在所述对文本信息进行预处理步骤之后,以及在所述计算节点特...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。