一种抽取关键词的方法及装置制造方法及图纸

技术编号:7974882 阅读:156 留言:0更新日期:2012-11-15 22:58
本发明专利技术公开一种抽取关键词的方法及装置,涉及自然语言处理领域,可以提高确定的关键词的准确率。本发明专利技术实施了提供的方案,通过获取文本经过词法分析以及预处理后的词语集合;根据所述词语集合,以及所述词语集合中的各个词语在所述文本中的语义关系,确定所述词语集合中任意两个词语的语义相似度;根据确定的所述语义相似度,计算所述词语集合中的各个词语的综合测度;根据所述各个词语的综合测度确定关键词。本发明专利技术实施了提供的方案适于抽取关键词时采用。

【技术实现步骤摘要】

本专利技术涉及自然语言处理领域,尤其涉及一种抽取关键词的方法及装置
技术介绍
目前,通常根据统计学方法对文本进行关键词抽取时,根据对关键词有重要影响的因子进行统计计算,然后对统计结果进行排序并确定候选关键词集合。例如,可以米用包括词频以及TF-IDF (term frequency-inverse documentfrequency,词频-倒文档频率)等特征统计信息。采用基于词频抽取关键词时,根据某个词的词频越高,则该词是关键词的概率越大的规则进行抽取关键词。首先统计文本中各个词的词频,然后对统计的词频进行排序,确定词频最高的若干个词为该文本的关键词。基于 TF-IDF抽取关键词时,通过统计计算每一个词的TF-IDF来确定关键词。TF-IDF指某个词或短语在一篇文章中出现的频率高,并且在其他文章中出现的频率低,则认为该词或者短语具有很好的类别区分能力,则确定此词或者短语为关键词。然而,采用现有技术抽取关键词时,由于很多高词频的词并不一定是关键词,当采用TF-IDF方法时,主要应用于搜索引擎中索引词的选择,应用于文本关键词的抽取时效果较差,因此导致确定的关键词的准确率较低。
技术实现思路
本专利技术的实施例提供一种抽取关键词的方法及装置,可以提闻确定的关键词的准确率。为达到上述目的,本专利技术的实施例采用如下技术方案一种抽取关键词的方法,包括获取文本经过词法分析以及预处理后的词语集合;根据所述词语集合,以及所述词语集合中的各个词语在所述文本中的语义关系,确定所述词语集合中任意两个词语的语义相似度;根据确定的所述语义相似度,计算所述词语集合中的各个词语的综合测度;根据所述各个词语的综合测度确定关键词。一种抽取关键词的装置,包括获取单元,用于获取文本经过词法分析以及预处理后的词语集合;第一处理单元,用于根据所述词语集合,以及所述词语集合中的各个词语在所述文本中的语义关系,确定所述词语集合中任意两个词语的语义相似度;第二处理单元,用于根据确定的所述语义相似度,计算所述词语集合中的各个词语的综合测度;关键词确定单元,用于根据所述各个词语的综合测度确定关键词。本专利技术实施例提供一种抽取关键词的方法及装置,通过获取文本经过词法分析以及预处理后的词语集合;根据所述词语集合,以及所述词语集合中的各个词语在所述文本中的语义关系,确定所述词语集合中任意两个词语的语义相似度;根据确定的所述语义相似度,计算所述词语集合中的各个词语的综合测度;根据所述各个词语的综合测度确定关键词。与现有技术中抽取关键词时,由于很多高词频的词并不一定是关键词,当采用TF-IDF方法时,主要应用于搜索引擎中索引词的选择,应用于文本关键词的抽取时效果较差,因此导致确定的关键词的准确率较低相比,本专利技术实施例提供的方法根据词语集合,以及所述词语集合中的各个词语在所述文本中的语义关系,及结合具体语境确定词语语义相似度,从而可以提闻确定的关键词的准确率。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图I为本专利技术实施例I提供的一种抽取关键词的方法的流程图; 图2为本专利技术实施例2提供的另一种抽取关键词的方法的流程图;图3为本专利技术实施例2提供的语义相似度图示意图;图4为本专利技术实施例2提供的区域位置因子权值表;图5为本专利技术实施例3提供的一种抽取关键词的装置的框图;图6为本专利技术实施例3提供的另一种抽取关键词的装置的框图。具体实施例方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。实施例I本专利技术实施例提供一种抽取关键词的方法,如图I所示,该方法包括步骤I 01,获取文本经过词法分析以及预处理后的词语集合;可选的,对文本进行切词并进行词性标注,例如,对“唯物主义-凡是承认存在即物质是第一性、是本原,而思维是第二性,是派生出来依附于物质存在的就是唯物主义“进行分词以及词性标注为唯物主义/n_/w凡是/d承认/V存/V在/p即/V物质/n是/V第一性/n、/w是/v本原/n, /w而/c思维/n是/v第二性/n, /w是/v派生/v出来/v依附/v于/p物质/n存在/v的/u就/d是/v唯物主义/n。/w,其中,η表示名词,w表示标点符号,d表示副词,V表示动词,ρ表示介词。可选的,对于不同的语言可以采用不同的词法分析系统,例如对汉语、韩语等可以采用多层隐马模型ICTCLAS进行切词及词性标注。进一步的,对文本进行切词及词性标注后的文本进行预处理,即根据词语或者标注的词语词性将文本中的介词,连词,副词,助词,以及标点符号、特殊符号等过滤掉,得到一个词语集合。步骤102,根据所述词语集合,以及所述词语集合中的各个词语在所述文本中的语义关系,确定所述词语集合中任意两个词语的语义相似度;可选的,根据所述文本,确定所述词语集合中所述各个词语的文本义项集合;确定所述词语集合中所述各个词语在语义知识管理系统中的词语义项集合;根据所述文本义项集合和所述词语义项集合的交集,得到所述词语集合中所述各个词语的目标义项集合;根据所述各个词语的目标义项集合,确定所述词语集合中任意两个词语的语义相似度。步骤103,根据确定的所述语义相似度,计算所述词语集合中的各个词语的综合测 度;根据所述词语集合中任意两个词语的语义相似度,生成所述文本的语义相似度图;将所述语义相似度图划分为至少一个意群社团,所述意群社团包括语义相近的一组词语;确定各个所述意群社团中包括的各个词语节点的综合测度参数中的至少两个;其中,所述综合测度参数包括所述意群社团的社团因子权值、所述意群社团中包括的各个词语节点的平均路径变化量、所述各个词语节点的聚类系数变化量、所述各个词语节点的度、所述各个词语节点的词频-倒文档频率以及所述各个词语节点的区域位置权值;根据确定的至少两个所述综合测度参数,计算各个所述意群社团中的各个词语的综合测度。步骤104,根据所述各个词语的综合测度确定关键词。可选的,将计算的各个所述意群社团中的所述各个词语的综合测度进行排序,确定所述综合测度最大的预设个数的词语为候选关键词;将所述候选关键词进行复合,获得所述文本的关键词。本专利技术实施例提供一种抽取关键词的方法,通过根据词语集合,以及所述词语集合中的各个词语在所述文本中的语义关系,及结合具体语境确定词语语义相似度,并根据语义相似度确定关键词,从而可以提高确定的关键词的准确率。实施例2本专利技术实施例提供一种抽取关键词的方法,如图2所示,该方法包括步骤201,获取文本经过词法分析以及预处理后的词语集合;可选的,对文本进行切词并进行词性标注,例如,对“唯物主义-凡是承认存在即物质是第一性、是本原,而思维是第二性,是派生出来依附于物质存在的就是唯物主义“进行分词以及词性标注为唯物主义/n_/w凡是/d承认/V存/V在/p即/V物质/n是/V第一性/n本文档来自技高网...

【技术保护点】
一种抽取关键词的方法,其特征在于,包括:获取文本经过词法分析以及预处理后的词语集合;根据所述词语集合,以及所述词语集合中的各个词语在所述文本中的语义关系,确定所述词语集合中任意两个词语的语义相似度;根据确定的所述语义相似度,计算所述词语集合中的各个词语的综合测度;根据所述各个词语的综合测度确定关键词。

【技术特征摘要】
1.一种抽取关键词的方法,其特征在于,包括 获取文本经过词法分析以及预处理后的词语集合; 根据所述词语集合,以及所述词语集合中的各个词语在所述文本中的语义关系,确定所述词语集合中任意两个词语的语义相似度; 根据确定的所述语义相似度,计算所述词语集合中的各个词语的综合测度; 根据所述各个词语的综合测度确定关键词。2.根据权利要求I所述的方法,其特征在于,所述根据所述词语集合,以及所述词语集合中的各个词语在所述文本中的语义关系,确定所述词语集合中任意两个词语的语义相似度包括 根据所述文本,确定所述词语集合中所述各个词语包含的文本义项集合; 确定所述词语集合中所述各个词语在语义知识管理系统中的词语义项集合; 根据所述文本义项集合和所述词语义项集合的交集,得到所述词语集合中所述各个词语的目标义项集合; 根据所述各个词语的目标义项集合,确定所述词语集合中任意两个词语的语义相似度。3.根据权利要求2所述的方法,其特征在于,所述根据确定的所述语义相似度,计算所述词语集合中的各个词语的综合测度包括 根据所述词语集合中任意两个词语的语义相似度,生成所述文本的语义相似度图; 将所述语义相似度图划分为至少一个意群社团,所述意群社团包括语义相近的一组词语; 确定各个所述意群社团中包括的各个词语节点的综合测度参数中的至少两个; 根据确定的至少两个所述综合测度参数,计算各个所述意群社团中的各个词语的综合测度。4.根据权利要求3所述的方法,其特征在于,所述综合测度参数包括所述意群社团的社团因子权值、所述意群社团中包括的各个词语节点的平均路径变化量、所述各个词语节点的聚类系数变化量、所述各个词语节点的度、所述各个词语节点的词频-倒文档频率以及所述各个词语节点的区域位置权值。5.根据权利要求3所述的方法,其特征在于,所述根据所述第一词语集合中任意两个词语的语义相似度,生成所述文本的语义相似度图; 1)当所述词语集合中第一词语和第二词语的语义相似度大于或者等于语义相似度阈值时,在标识所述第一词语的第一节点与标识所述第二词语的第二节点之间添加一条边,以连接所述第一节点和所述第二节点; 2)当所述词语集合中第三词语和第四词语为相同的词语时,合并标识所述第三词语的第三节点与标识所述第四词语的第四节点; 根据上述I)和2)生成所述文本的语义相似度图。6.根据权利要求I所述的方法,其特征在于,所述根据所述各个词语的综合测度确定关键词包括 将计算的各个所述意群社团中的所述各个词语的综合测度进行排序,确定所述综合测度最大的预设个数的词语为候选关键词;将所述候选关键词进行复合,获得所述...

【专利技术属性】
技术研发人员:翟周伟
申请(专利权)人:盘古文化传播有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1