预估新词文档频率的方法及装置制造方法及图纸

技术编号:10162462 阅读:160 留言:0更新日期:2014-07-01 18:08
本发明专利技术公开一种预估新词文档频率的方法及装置,其方法包括:获取第一文档集和第二文档集;第一文档集所包含的文档数据产生时间早于所述第二文档集;分别统计每一预设常用词在第一文档集和第二文档集中的文档频率;统计每一预设新词在第二文档集中的文档频率;获取预设常用词在第一文档集和第二文档集中的文档频率的对应拟合关系;根据对应拟合关系以及预设新词在第二文档集中的文档频率,获取预设新词在第一文档集中的文档频率。本发明专利技术提高了新词文档频率统计的准确率,弥补了传统的统计方法对于新词的文档频率统计结果误差较大的缺陷;且本发明专利技术对于新词在特征选择、关键词抽取、向量空间模型表示等技术领域的应用具有重要意义。

【技术实现步骤摘要】
【专利摘要】本专利技术公开一种预估新词文档频率的方法及装置,其方法包括:获取第一文档集和第二文档集;第一文档集所包含的文档数据产生时间早于所述第二文档集;分别统计每一预设常用词在第一文档集和第二文档集中的文档频率;统计每一预设新词在第二文档集中的文档频率;获取预设常用词在第一文档集和第二文档集中的文档频率的对应拟合关系;根据对应拟合关系以及预设新词在第二文档集中的文档频率,获取预设新词在第一文档集中的文档频率。本专利技术提高了新词文档频率统计的准确率,弥补了传统的统计方法对于新词的文档频率统计结果误差较大的缺陷;且本专利技术对于新词在特征选择、关键词抽取、向量空间模型表示等
的应用具有重要意义。【专利说明】预估新词文档频率的方法及装置
本专利技术涉及互联网
,尤其涉及一种预估新词文档频率的方法及装置。
技术介绍
随着互联网技术的发展,新词日益增多,其已逐渐成为互联网领域越来越普遍的一个现象。新词又叫未登录词,是指以前从未出现,而最近比较流行的有意义的词。新词一般伴随热点事件、热点人物而产生,往往带有极大的信息量,是文本分类、关键词抽取等技术不可或缺的特征项。而文档频率(DF,Document Frequency)作为一种经典的信息度量因子,也在这些相关
被广泛应用,比如向量空间模型、特征选择、特征权重等等。通常,文档频率是指一个词在海量文档集合里出现的文档次数。传统的文档频率计算方法一般是基于海量文档集合的统计。其大致方法是先从全量文档中随机筛选出一个较大数量(比如100万)的文档集,然后对每篇文档集进行分词,并统计每个词在多少篇文档中出现,由此统计的文档次数就作为该词的文档频率。这种基于海量文档集合统计的方法比较稳定,对于常用词的文档频率比较准确,但是由于新词只出现在极少的时新性高的文档中,传统的这种统计方法对于新词的文档频率统计结果误差较大,一般会大大低于其真实值。因此,传统的基于海量文档集统计的文档频率计算方法不太适用新词,寻找更好的新词文档频率计算方法显得尤为重要。
技术实现思路
本专利技术的主要目的在于提供一种预估新词文档频率的方法及装置,旨在提高新词文档频率统计的准确率。为了达到上述目的,本专利技术提出一种预估新词文档频率的方法,包括:获取第一文档集和第二文档集;所述第一文档集所包含的文档数据产生时间早于所述第二文档集;分别统计每一预设常用词在所述第一文档集和第二文档集中的文档频率;统计每一预设新词在所述第二文档集中的文档频率;获取所述预设常用词在所述第一文档集和第二文档集中的文档频率的对应拟合关系;根据所述对应拟合关系以及预设新词在所述第二文档集中的文档频率,获取所述预设新词在所述第一文档集中的文档频率。本专利技术还提出一种预估新词文档频率的装置,包括:文档集获取模块,用于获取第一文档集和第二文档集;所述第一文档集所包含的文档数据产生时间早于所述第二文档集;统计模块,用于分别统计每一预设常用词在所述第一文档集和第二文档集中的文档频率;统计每一预设新词在所述第二文档集中的文档频率;拟合关系获取模块,用于获取所述预设常用词在所述第一文档集和第二文档集中的文档频率的对应拟合关系;新词文档频率获取模块,用于根据所述对应拟合关系以及预设新词在所述第二文档集中的文档频率,获取所述预设新词在所述第一文档集中的文档频率。本专利技术提出的一种预估新词文档频率的方法及装置,通过确定海量文档集(第一文档集)和新文档集(第二文档集),并统计常用词在海量文档集和新文档集里的文档频率,再寻找这两个文档频率之间的关系,最后利用新词在新文档集里的文档频率来预估其在海量文档集中的文档频率,由此提高了新词文档频率统计的准确率,从而弥补了传统的统计方法对于新词的文档频率统计结果误差较大的缺陷;而且本专利技术对于新词在特征选择、关键词抽取、向量空间模型表示等
的应用具有重要意义。【专利附图】【附图说明】图1是本专利技术预估新词文档频率的方法较佳实施例的流程示意图;图2是本专利技术预估新词文档频率的方法较佳实施例中一种实例的文档频率拟合曲线示意图;图3是本专利技术预估新词文档频率的装置较佳实施例的结构示意图;图4是本专利技术预估新词文档频率的装置较佳实施例中拟合关系获取模块的结构示意图。为了使本专利技术的技术方案更加清楚、明了,下面将结合附图作进一步详述。【具体实施方式】本专利技术实施例的解决方案主要是:通过确定海量文档集(第一文档集)和新文档集(第二文档集),并统计常用词在海量文档集和新文档集里的文档频率,再寻找这两个文档频率之间的关系,最后利用新词在新文档集里的文档频率来预估其在海量文档集中的文档频率,以提高新词文档频率统计的准确率,弥补传统的统计方法对于新词的文档频率统计结果误差较大的缺陷。如图1所示,本专利技术较佳实施例提出一种预估新词文档频率的方法,包括:步骤S101,获取第一文档集和第二文档集;所述第一文档集所包含的文档数据产生时间早于所述第二文档集;由于新词往往只出现在时新性高的页面中,而传统的基于海量文档集统计的文档频率计算方法存在较大误差,本实施例引入新文档集概念,并基于海量文档集和新文档集来估计新词在海量文档集中的文档频率。具体地,首先,确定海量文档集A (即本实施例所称第一文档集)和新文档集B (即本实施例所称第二文档集)两个文档集合,其中:作为优选方案,海量文档集A共包含约100万篇文档,从全量文档中随机挑选;海量文档集A里的文档基本为两年前的数据。新文档集B共包含约5万篇文档,可以从各大门户网站首页中抓取;新文档集B里的文档基本为最近一个月以内的数据。需要说明的是,上述海量文档集A里的文档数据的产生时间也可以不限于两年前,比如还可以一年前等;上述新文档集B里的文档数据的产生时间也可以不限定为最近一个月以内,比如还可以是半月以内,等等。步骤S102,分别统计每一预设常用词在所述第一文档集和第二文档集中的文档频率;统计每一预设新词在所述第二文档集中的文档频率;其中,预设常用词是指经常出现的词,目前定义的常用词约有7万个;预设新词是指基于互联网技术发展而出现在时新性高的文档中的词,新词一般伴随热点事件、热点人物而产生,其存在时间较短。设定常用词为W,新词为t,在确定两个文档集A和B后,分别统计每个常用词w在A和B里的文档频率,分别表示为DF_A_w和DF_B_w,其中DF_A_w为常用词w在海量文档集A的真实文档频率,DF_B_w用于持续在新文档集B里与新词作比较。此外,还要统计每个新词t在新文档集B里的文档频率DF_B_t,以便后续得到常用词在海量文档集A和新文档集B中的文档频率的对应拟合关系后,依据新词t在新文档集B里的文档频率DF_B_t获取新词在海量文档集A中的文档频率DF_A_t。上述统计常用词w在A和B里的文档频率,以及统计新词t在B中的文档频率,可以采用以下方案:先对文档集(A或B)中的每篇文档进行分词,然后统计每个词在多少篇文档中出现过,由此统计得到的文档次数即作为该词的文档频率。步骤S103,获取所述预设常用词在所述第一文档集和第二文档集中的文档频率的对应拟合关系;步骤S104,根据所述对应拟合关系以及预设新词在所述第二文档集中的文档频率,获取所述预设新词在所述第一文档集中的文档频率。上述步骤本文档来自技高网
...
预估新词文档频率的方法及装置

【技术保护点】
一种预估新词文档频率的方法,其特征在于,包括:获取第一文档集和第二文档集;所述第一文档集所包含的文档数据产生时间早于所述第二文档集;分别统计每一预设常用词在所述第一文档集和第二文档集中的文档频率;统计每一预设新词在所述第二文档集中的文档频率;获取所述预设常用词在所述第一文档集和第二文档集中的文档频率的对应拟合关系;根据所述对应拟合关系以及预设新词在所述第二文档集中的文档频率,获取所述预设新词在所述第一文档集中的文档频率。

【技术特征摘要】

【专利技术属性】
技术研发人员:蔡兵
申请(专利权)人:腾讯科技武汉有限公司
类型:发明
国别省市:湖北;42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1