【技术实现步骤摘要】
本专利技术涉及自然语言处理领域,特别涉及一种搭建词语网络及抓取关键词的方法和系统。
技术介绍
1、关键词是文档中反映全文主题内容信息的单词或术语,通过阅读关键词,可以快速了解文档的主要内容。关键词自动抓取是依靠计算机从文档中选择出反映文档主题内容的词。关键词抓取在文本分类、文本聚类、自动摘要、信息检索等方面具有十分重要的作用。
2、现有技术中,关键词自动抓取有以下方法:
3、一、基于统计的关键词抓取方法:通过统计文档中每个词语出现的频率,将频率高于某一阈值的词语作为关键词。然而,在实践中往往一些高频词语的重要性较低,而一些相对低频词语的重要性却很高,因此,该方法不能准确地反映词语的重要程度,抓取的关键词准确性较低。
4、二、基于词语网络的关键词抓取方法:通过搭建无权重的词语网络,计算词语网络中每个词语的中间度密度,将中间度密度高于某一阈值的词语作为关键词。
5、其中,词语网络g中顶点vi的中间度定义为:
6、
7、其中,n为词语网络g中所有顶点数目;gmk表示顶点v
...【技术保护点】
1.一种搭建词语网络的方法,其特征在于,该方法包括:
2.根据权利要求1所述的搭建词语网络的方法,其特征在于,所述计算所述词语集合中任意两个词语之间的语义相似度包括:
3.根据权利要求1所述的搭建词语网络的方法,其特征在于,所述根据所述词语集合及所述语义相似度,搭建带权重的语义相似度网络包括:
4.一种搭建词语网络的系统,其特征在于,该系统包括:
5.根据权利要求4所述的搭建词语网络的系统,其特征在于,所述相似度计算单元还用于:
6.根据权利要求4所述的搭建词语网络的系统,其特征在于,所述词语网络搭建单元还包
7...
【技术特征摘要】
1.一种搭建词语网络的方法,其特征在于,该方法包括:
2.根据权利要求1所述的搭建词语网络的方法,其特征在于,所述计算所述词语集合中任意两个词语之间的语义相似度包括:
3.根据权利要求1所述的搭建词语网络的方法,其特征在于,所述根据所述词语集合及所述语义相似度,搭建带权重的语义相似度网络包括:
4.一种搭建词语网络的系统,其特征在于,该系统包括:
5.根据权利要求4所述的搭建词语网络的系统,其特征在于,所述相似度计算单元还用于:
6.根据权利要求...
【专利技术属性】
技术研发人员:陈伟,金柱,何鹏,左罗,
申请(专利权)人:深圳市全景网络有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。