从文本中挖掘语义关键词的方法和设备技术

技术编号：10806755 阅读：133 留言：0更新日期：2014-12-24 13:13

本发明专利技术公开了从文本中挖掘语义关键词的方法和设备。根据本发明专利技术的方法包括：在文本中搜索已知词，以得到多个候选关键词；根据所述已知词的参考概率和/或上下文，计算所述多个候选关键词的候选概率，所述参考概率表明所述已知词作为锚文本的可能性，所述候选概率表明所述候选关键词作为语义关键词的可能性；以及根据所述多个候选关键词的候选概率，确定所述多个候选关键词是否为所述文本的语义关键词。

全部详细技术资料下载

【技术实现步骤摘要】
【专利摘要】本专利技术公开了从文本中挖掘语义关键词的方法和设备。根据本专利技术的方法包括：在文本中搜索已知词，以得到多个候选关键词；根据所述已知词的参考概率和/或上下文，计算所述多个候选关键词的候选概率，所述参考概率表明所述已知词作为锚文本的可能性，所述候选概率表明所述候选关键词作为语义关键词的可能性；以及根据所述多个候选关键词的候选概率，确定所述多个候选关键词是否为所述文本的语义关键词。【专利说明】从文本中挖掘语义关键词的方法和设备
本专利技术一般地涉及自然语言处理领域。具体而言，本专利技术涉及一种从文本中挖掘语义关键词的方法和设备。
技术介绍
文本是自然语言处理领域最常见的处理对象。面对海量的文本，直接利用文本本身进行操作显然并不实际，人们通常借助于代表文本的语义信息的语义关键词来帮助表示、索引、共享、检索、分类、聚类文本。然而，文本的数量呈爆炸式增长，并且文本的种类繁多，相当一部分文本不具有固定的结构。故而，存在如何从海量、非结构化的文本中挖掘出语义关键词的问题。因此，期望能够以较高的效率和准确度从文本中挖掘语义关键词。
技术实现思路
在下文中给出了关于本专利技术的简要概述，以便提供关于本专利技术的某些方面的基本理解。应当理解，这个概述并不是关于本专利技术的穷举性概述。它并不是意图确定本专利技术的关键或重要部分，也不是意图限定本专利技术的范围。其目的仅仅是以简化的形式给出某些概念，以此作为稍后论述的更详细描述的前序。本专利技术的目的是针对现有技术的上述问题，提出了一种能够以较高的效率和准确度从文本中挖掘语义...

【技术保护点】
一种从文本中挖掘语义关键词的方法，包括：在文本中搜索已知词，以得到多个候选关键词；根据所述已知词的参考概率和/或上下文，计算所述多个候选关键词的候选概率，所述参考概率表明所述已知词作为锚文本的可能性，所述候选概率表明所述候选关键词作为语义关键词的可能性；以及根据所述多个候选关键词的候选概率，确定所述多个候选关键词是否为所述文本的语义关键词。

【技术特征摘要】

【专利技术属性】
技术研发人员：缪庆亮，孟遥，于浩，
申请(专利权)人：富士通株式会社，
类型：发明
国别省市：日本;JP

全部详细技术资料下载我是这个专利的主人