基于关键词频率的文本特征提取方法技术

技术编号:14348173 阅读:294 留言:0更新日期:2017-01-04 18:50
本发明专利技术提供了一种基于关键词频率的文本特征提取方法,循环读取用户搜索文本中的词条,以预定义类簇集合、各个类簇中的文本和每个词条在类簇的词频为初始条件,对搜索文本进行分词和索引;然后在训练集内每个类簇文本中,统计特征词词频高于阈值的数量;在各个类簇中计算词条特征值,存储在网页特征集合中;将网页特征值作为关键词排序并建立索引;用待分析网页的整句特征值在已有的网页库中进行索引,检索到候选网页;对候选网页与待分析网页执行相似度计算,根据计算结果决定是否将待分析网页推荐至用户。本发明专利技术提出了一种基于关键词频率的文本特征提取方法,快速挖掘到有价值的信息,提升搜索引擎的用户体验。

【技术实现步骤摘要】

本专利技术涉及自然语言处理,特别涉及一种基于关键词频率的文本特征提取方法
技术介绍
随着互联网技术及相关产业的迅猛发展,数据正以前所未有的规模急速增加,大数据在带给推动力的同时,也带来了挑战。如何在海量互联网数据中探寻有价值的资源,根据用户的搜索推荐相似内容,是大数据文本处理的重要任务。针对于网页的相似检测,要求算法的空间复杂度和时间复杂度都要尽可能地降低,以满足用户的需求。现有的基于文本相似度的推荐方法存在以下不足,当数据规模非常庞大时,网页特征值的生成和计算将耗费很长的时间;对专业领域,过多依赖基础语料库来计算词语权值;短文本相似度识别率低。
技术实现思路
为解决上述现有技术所存在的问题,本专利技术提出了一种基于关键词频率的文本特征提取方法,包括:循环读取用户搜索文本中的词条,以预定义类簇集合、各个类簇中的文本和每个词条在类簇的词频为初始条件,对搜索文本进行分词和索引;然后在训练集内每个类簇文本中,统计特征词词频高于阈值的数量;在各个类簇中计算词条特征值,存储在网页特征集合中;将网页特征值作为关键词排序并建立索引;用待分析网页的整句特征值在已有的网页库中进行索引,检索到候选网页;对候选网页与待分析网页执行相似度计算,根据计算结果决定是否将待分析网页推荐至用户。优选地,所述在各个类簇中计算词条特征值,进一步包括:预定义类簇集合{c1,c2,…,cm
基于关键词频率的文本特征提取方法

【技术保护点】
一种基于关键词频率的文本特征提取方法,其特征在于,包括:循环读取用户搜索文本中的词条,以预定义类簇集合、各个类簇中的文本和每个词条在类簇的词频为初始条件,对搜索文本进行分词和索引;然后在训练集内每个类簇文本中,统计特征词词频高于阈值的数量;在各个类簇中计算词条特征值,存储在网页特征集合中;将网页特征值作为关键词排序并建立索引;用待分析网页的整句特征值在已有的网页库中进行索引,检索到候选网页;对候选网页与待分析网页执行相似度计算,根据计算结果决定是否将待分析网页推荐至用户。

【技术特征摘要】
1.一种基于关键词频率的文本特征提取方法,其特征在于,包括:循环读取用户搜索文本中的词条,以预定义类簇集合、各个类簇中的文本和每个词条在类簇的词频为初始条件,对搜索文本进行分词和索引;然后在训练集内每个类簇文本中,统计特征词词频高于阈值的数量;在各个类簇中计算词条特征值,存储在网页特征集合中;将网页...

【专利技术属性】
技术研发人员:张俤
申请(专利权)人:成都轻车快马网络科技有限公司
类型:发明
国别省市:四川;51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1