从文本中挖掘语义关键词的方法和设备技术

技术编号:10806755 阅读:133 留言:0更新日期:2014-12-24 13:13
本发明专利技术公开了从文本中挖掘语义关键词的方法和设备。根据本发明专利技术的方法包括:在文本中搜索已知词,以得到多个候选关键词;根据所述已知词的参考概率和/或上下文,计算所述多个候选关键词的候选概率,所述参考概率表明所述已知词作为锚文本的可能性,所述候选概率表明所述候选关键词作为语义关键词的可能性;以及根据所述多个候选关键词的候选概率,确定所述多个候选关键词是否为所述文本的语义关键词。

【技术实现步骤摘要】
【专利摘要】本专利技术公开了从文本中挖掘语义关键词的方法和设备。根据本专利技术的方法包括:在文本中搜索已知词,以得到多个候选关键词;根据所述已知词的参考概率和/或上下文,计算所述多个候选关键词的候选概率,所述参考概率表明所述已知词作为锚文本的可能性,所述候选概率表明所述候选关键词作为语义关键词的可能性;以及根据所述多个候选关键词的候选概率,确定所述多个候选关键词是否为所述文本的语义关键词。【专利说明】从文本中挖掘语义关键词的方法和设备
本专利技术一般地涉及自然语言处理领域。具体而言,本专利技术涉及一种从文本中挖掘语义关键词的方法和设备。
技术介绍
文本是自然语言处理领域最常见的处理对象。面对海量的文本,直接利用文本本身进行操作显然并不实际,人们通常借助于代表文本的语义信息的语义关键词来帮助表示、索引、共享、检索、分类、聚类文本。 然而,文本的数量呈爆炸式增长,并且文本的种类繁多,相当一部分文本不具有固定的结构。故而,存在如何从海量、非结构化的文本中挖掘出语义关键词的问题。 因此,期望能够以较高的效率和准确度从文本中挖掘语义关键词。
技术实现思路
在下文中给出了关于本专利技术的简要概述,以便提供关于本专利技术的某些方面的基本理解。应当理解,这个概述并不是关于本专利技术的穷举性概述。它并不是意图确定本专利技术的关键或重要部分,也不是意图限定本专利技术的范围。其目的仅仅是以简化的形式给出某些概念,以此作为稍后论述的更详细描述的前序。 本专利技术的目的是针对现有技术的上述问题,提出了一种能够以较高的效率和准确度从文本中挖掘语义关键词的方法和设备。 为了实现上述目的,根据本专利技术的一个方面,提供了一种从文本中挖掘语义关键词的方法,该方法包括:在文本中搜索已知词,以得到多个候选关键词;根据所述已知词的参考概率和/或上下文,计算所述多个候选关键词的候选概率,所述参考概率表明所述已知词作为锚文本的可能性,所述候选概率表明所述候选关键词作为语义关键词的可能性;以及根据所述多个候选关键词的候选概率,确定所述多个候选关键词是否为所述文本的语义关键词。 根据本专利技术的另一个方面,提供了一种从文本中挖掘语义关键词的设备,该设备包括:候选关键词搜索装置,被配置为:在文本中搜索已知词,以得到多个候选关键词;候选概率计算装置,被配置为:根据所述已知词的参考概率和/或上下文,计算所述多个候选关键词的候选概率,所述参考概率表明所述已知词作为锚文本的可能性,所述候选概率表明所述候选关键词作为语义关键词的可能性;以及语义关键词确定装置,被配置为:根据所述多个候选关键词的候选概率,确定所述多个候选关键词是否为所述文本的语义关键 ο 另外,根据本专利技术的另一方面,还提供了一种存储介质。所述存储介质包括机器可读的程序代码,当在信息处理设备上执行所述程序代码时,所述程序代码使得所述信息处理设备执行根据本专利技术的上述方法。 此外,根据本专利技术的再一方面,还提供了一种程序产品。所述程序产品包括机器可执行的指令,当在信息处理设备上执行所述指令时,所述指令使得所述信息处理设备执行根据本专利技术的上述方法。 【专利附图】【附图说明】 参照下面结合附图对本专利技术实施例的说明,会更加容易地理解本专利技术的以上和其它目的、特点和优点。附图中的部件只是为了示出本专利技术的原理。在附图中,相同的或类似的技术特征或部件将采用相同或类似的附图标记来表示。附图中: 图1示出了根据本专利技术的第一实施例的已知词获取方法的流程图; 图2示出了根据本专利技术的第二实施例的已知词获取方法的流程图; 图3示出了根据本专利技术的第一实施例的挖掘文本语义关键词的方法的流程图; 图4示出了根据本专利技术的第二实施例的挖掘文本语义关键词的方法的流程图; 图5示出了根据本专利技术实施例的文本语义关键词挖掘设备的结构方框图;以及 图6示出了可用于实施根据本专利技术实施例的方法和设备的计算机的示意性框图。 【具体实施方式】 在下文中将结合附图对本专利技术的示范性实施例进行详细描述。为了清楚和简明起见,在说明书中并未描述实际实施方式的所有特征。然而,应该了解,在开发任何这种实际实施方式的过程中必须做出很多特定于实施方式的决定,以便实现开发人员的具体目标,例如,符合与系统及业务相关的那些限制条件,并且这些限制条件可能会随着实施方式的不同而有所改变。此外,还应该了解,虽然开发工作有可能是非常复杂和费时的,但对得益于本公开内容的本领域技术人员来说,这种开发工作仅仅是例行的任务。 在此,还需要说明的一点是,为了避免因不必要的细节而模糊了本专利技术,在附图中仅仅示出了与根据本专利技术的方案密切相关的装置结构和/或处理步骤,而省略了与本专利技术关系不大的其他细节。另外,还需要指出的是,在本专利技术的一个附图或一种实施方式中描述的元素和特征可以与一个或更多个其它附图或实施方式中示出的元素和特征相结合。 本专利技术的基本思想是将锚文本认定为语料中的语义关键词,抽取这些已知的语义关键词(下文中简称为已知词)的上下文并统计其作为锚文本出现的频率来得到已知词的特征。利用已知词来定位待处理文本中的候选语义关键词。利用已知词的特征,即根据已知词和候选语义关键词的上下文相似度以及已知词作为锚文本的可能性,判断候选语义关键词是否为文本的语义关键词。在该判断过程中,还可考虑候选语义关键词之间的语义关系。具体地,基于候选语义关键词及其语义关系构建语义图,利用先验知识(还可额外利用文本的结构信息)向语义图中的部分节点赋予初始标签,通过标签传播方法,获得符合语义关系的取值相对稳定的标签,根据标签的取值,判断候选语义关键词是否为文本的语义关键词。 由于本专利技术的方法从已知的语义关键词出发,因此,首先介绍如何获得已知词及其特征。 下面将参照图1描述根据本专利技术的第一实施例的已知词获取方法的流程。 图1示出了根据本专利技术的第一实施例的已知词获取方法的流程图。如图1所示,根据本专利技术的已知词获取方法,包括如下步骤:获取多个包含锚文本的网页,所述锚文本是关联有到另一个网页的链接的词(步骤SI);提取不是停止词的锚文本作为已知词(步骤S2);以及对于每一个所述已知词,计算其在所述多个网页中作为锚文本出现的频率,作为其参考概率;获取与其相邻的多个词,作为其上下文(步骤S3)。 在网页中,存在锚文本。锚文本是词或词组(本文中,为描述方便,统称为词),并且作为锚文本的词关联有到另一个网页的链接。锚文本是比较常见的,凭借经验可知,锚文本一般都是网页中文本的语义关键词。因此,本文中假设网页中的锚文本除了停止词之外都是网页中文本的语义关键词。 在此假设下,可首先在步骤SI中,获取多个包含锚文本的网页,作为生语料。 包含锚文本的多个网页例如可以是维基百科(Wikipedia)的网页。对包含锚文本的多个网页进行适当的预处理,例如字符归一化(包括繁简体转换)、数字归一化等。 然后,在步骤S2中,提取不是停止词的锚文本作为已知词。 中文的停止词例如是“的”、“地”、“得”等。英文的停止词例如是“匕”、“81^”、“#”等。停止词本身并不包含语义信息,因此,不应作为已知词。但是已知词中可能包括停止词,如已知词“挪威的森林”中包含停止词“的”。“挪威的森林”是作为整体出现还是分为“挪威”、本文档来自技高网...

【技术保护点】
一种从文本中挖掘语义关键词的方法,包括:在文本中搜索已知词,以得到多个候选关键词;根据所述已知词的参考概率和/或上下文,计算所述多个候选关键词的候选概率,所述参考概率表明所述已知词作为锚文本的可能性,所述候选概率表明所述候选关键词作为语义关键词的可能性;以及根据所述多个候选关键词的候选概率,确定所述多个候选关键词是否为所述文本的语义关键词。

【技术特征摘要】

【专利技术属性】
技术研发人员:缪庆亮孟遥于浩
申请(专利权)人:富士通株式会社
类型:发明
国别省市:日本;JP

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1