预估新词文档频率的方法及装置制造方法及图纸

技术编号：10162462 阅读：160 留言：0更新日期：2014-07-01 18:08

本发明专利技术公开一种预估新词文档频率的方法及装置，其方法包括：获取第一文档集和第二文档集；第一文档集所包含的文档数据产生时间早于所述第二文档集；分别统计每一预设常用词在第一文档集和第二文档集中的文档频率；统计每一预设新词在第二文档集中的文档频率；获取预设常用词在第一文档集和第二文档集中的文档频率的对应拟合关系；根据对应拟合关系以及预设新词在第二文档集中的文档频率，获取预设新词在第一文档集中的文档频率。本发明专利技术提高了新词文档频率统计的准确率，弥补了传统的统计方法对于新词的文档频率统计结果误差较大的缺陷；且本发明专利技术对于新词在特征选择、关键词抽取、向量空间模型表示等技术领域的应用具有重要意义。

全部详细技术资料下载

【技术实现步骤摘要】
【专利摘要】本专利技术公开一种预估新词文档频率的方法及装置，其方法包括：获取第一文档集和第二文档集；第一文档集所包含的文档数据产生时间早于所述第二文档集；分别统计每一预设常用词在第一文档集和第二文档集中的文档频率；统计每一预设新词在第二文档集中的文档频率；获取预设常用词在第一文档集和第二文档集中的文档频率的对应拟合关系；根据对应拟合关系以及预设新词在第二文档集中的文档频率，获取预设新词在第一文档集中的文档频率。本专利技术提高了新词文档频率统计的准确率，弥补了传统的统计方法对于新词的文档频率统计结果误差较大的缺陷；且本专利技术对于新词在特征选择、关键词抽取、向量空间模型表示等
的应用具有重要意义。【专利说明】预估新词文档频率的方法及装置
本专利技术涉及互联网
，尤其涉及一种预估新词文档频率的方法及装置。
技术介绍
随着互联网技术的发展，新词日益增多，其已逐渐成为互联网领域越来越普遍的一个现象。新词又叫未登录词，是指以前从未出现，而最近比较流行的有意义的词。新词一般伴随热点事件、热点人物而产生，往往带有极大的信息量，是文本分类、关键词抽取等技术不可或缺的特征项。而文档频率(DF,Document Frequency)作为一种经典的信息度量因子，也在这些相关
被广泛应用，比如向量空间模型、特征选择、特征权重等等。通常，文档频率是指一个词在海量文档集合里出现的文档次数。传统的文档频率计算方法一般是基于海量文档集合的统计。其大致方法是先从全量文档中随机筛选出一个较大数量(比如100万)的文档集，然后对每篇文档集进行分词，并统计每...
预估新词文档频率的方法及装置

【技术保护点】
一种预估新词文档频率的方法，其特征在于，包括：获取第一文档集和第二文档集；所述第一文档集所包含的文档数据产生时间早于所述第二文档集；分别统计每一预设常用词在所述第一文档集和第二文档集中的文档频率；统计每一预设新词在所述第二文档集中的文档频率；获取所述预设常用词在所述第一文档集和第二文档集中的文档频率的对应拟合关系；根据所述对应拟合关系以及预设新词在所述第二文档集中的文档频率，获取所述预设新词在所述第一文档集中的文档频率。

【技术特征摘要】

【专利技术属性】
技术研发人员：蔡兵，
申请(专利权)人：腾讯科技武汉有限公司，
类型：发明
国别省市：湖北;42

全部详细技术资料下载我是这个专利的主人