一种词汇质量挖掘评价方法及装置制造方法及图纸

技术编号:5208652 阅读:231 留言:0更新日期:2012-04-11 18:40
本发明专利技术公开了一种词汇质量挖掘评价方法及装置。本发明专利技术方案中,对海量的分类数据进行词汇的DF分布统计;根据词汇的DF分布统计对词汇进行多个单一角度度量;根据词汇的各单一角度度量进行词汇的多角度度量,得到词汇的重要度权重。本发明专利技术方案中利用概率统计和信息熵技术,提出一种词汇质量多角度评价的改进方案,输入的是海量的分类数据,输出的是高质量的词汇。根据本发明专利技术提供的方案,能够从海量的分类数据中,深入挖掘和评价词汇的重要性,综合各种评价获取高质量的词汇。

【技术实现步骤摘要】

本专利技术涉及互联网信息处理技术,特别是指一种词汇质量挖掘评价方法及装置
技术介绍
随着互联网(Internet)的迅猛发展,“信息过载”的问题日益突出。人们在享受互联网带来的方便快捷的同时,也被其包含的海量信息所淹没。如何能够更有效、更准确地从互联网的海量数据中提取有效信息,成为基于互联网的网络信息查询的当务之急。目前涌现了各种各样的互联网平台,向用户不断地提供着海量的信息。常见的互联网平台如搜索引擎,例如Google、百度、搜搜等;又如互动问答平台,例如知道、问问,知识堂等;再如广为流行的博客平台,例如Qzone、新浪博客。这些互联网平台均需要通过自然语言处理技术,从海量数据中抽取有效的核心信息来进行处理。自然语言处理,就是要对一篇文章的语义进行挖掘,如文本的分类、聚类,摘要提取,相关性计算,等等。由于文章都是由词汇构成的,这样,自然语言处理中的每一项具体技术都离不开最底层的词汇理解。因此,准确挖掘和评价句子中每个词汇的重要度,便成为一个重要的研究问题。例如,对于句子“中国有着悠久的历史,长城、兵马俑都是中国的骄傲。”,其中的词汇“中国”、“长城”、“兵马俑”、“历史”,显然相对于其他词汇重要。词汇质量挖掘评价,就是要对一批候选词划分一个合理的质量等级。例如,划分重要、普通、常用词三个等级,然后将重要的词挑选出来,并将普通的词和常用词挑选出来;这样,在对文章进行语义分析时,就可以优先考察重要的词,然后把普通词作为补充,而常用词则完全可以过滤。目前基于海量数据的词汇质量评价方法,一般是通过统计词汇的文档频率(DF,Document Frequency)、计算逆文档频率(IDF,Inverse DocumentFrequency)来衡量,即默认为不经常出现的词、即低频词都是不重要的词。但是,基于海量数据计算的DF或IDF,很难准确区分词汇的重要性。例如,基于一批语料的结算结果为:词汇“点亮”的IDF是2.89,而词汇“哈哈”的IDF是4.76。另外,对于非规范化数据,如问答平台、博客的数据,低频词可能是错误的词。例如,基于同样的语料,用户输入的错误英文串“asfsdfsfda”、“高启也”(由例句“高启也曾对新王朝抱有期待”分词得到)这样分词错误的词汇。另外,在文本分类中,通常通过信息增益(IG,Information Gain)、卡方χ2等特征值方法来度量词汇对类别的贡献度。但只是通过选择特征值排序在前的n个词作为有效特征,n为整数,可以根据词汇质量挖掘评价的需要进行选择,然后通过TF-IDF来计算分类权重,其中TF(Term Frequency)为词汇频率。基于IG、卡方选择特征词的方法,只是用来选择特征词汇,在规范化较强、规模不是很大的数据上可以取得较好的效果;在海量的口语化数据上,单一的度量则无法整体反映词汇的重要程度,不能用来有效地计算词汇的重要度。例如,基于相同的语料,词汇“的”的卡方是96292.63382,而词汇“荆州”的卡方却只有4445.62836,但是显然是卡方较低的“荆州”一词比较重要。-->
技术实现思路
有鉴于此,本专利技术的主要目的在于提供一种词汇质量挖掘评价方法及装置,准确确定词汇的重要度。为达到上述目的,本专利技术的技术方案是这样实现的:一种词汇质量挖掘评价方法,该方法包括:对海量的分类数据进行词汇的文档频率(DF)分布统计;根据词汇的DF分布统计对词汇进行多个单一角度度量;根据词汇的各单一角度度量进行词汇的多角度度量,得到词汇的重要度权重。较佳地,所述对海量的分类数据进行词汇的DF分布统计,包括:统计词汇在各个类别的分类数据中的DF分量;将词汇的各个DF分量的总和作为词汇在所有分类数据中的DF。较佳地,所述单一角度度量包括:逆文档频率(IDF)、平均逆文档频率(AVAIDF)、卡方、信息增益(IG)、互信息(MI)、期望交叉熵(ECE)、信息熵(ENT)和选择倾向性。进行所述IG度量时,具体包括:将所有候选词汇基于DF进行区间划分;基于划分得到的各个区间对应的分类数据计算词汇的IG。较佳地,所述根据词汇的各单一角度度量进行词汇的多角度度量得到词汇的重要度权重,包括:按照词汇的DF对各个候选词汇进行级别划分;根据词汇所在级别区间确定词汇的多角度度量,得到词汇在对应级别区间的重要度权重。所述按照词汇的DF对各个候选词汇进行级别划分,包括:根据各词汇在所有分类数据中的DF划分级别区间;根据词汇在所有分类数据中的DF将相应词汇划分至对应级别区间。较佳地,所述对海量的分类数据进行词汇的DF分布统计之前进一步,包括:对海量的分类数据中的词汇进行预处理;和/或,所述得到词汇的重要度权重之后,进一步包括:根据词汇的重要度权重对词汇进行质量分级。所述根据词汇的重要度权重对词汇进行质量分级,包括:针对各个级别区间分别设置重要阈值和常用阈值,所述级别区间是根据各词汇在所有分类数据中的DF划分得到的;在各个级别区间内依据设置的所述两个阈值与词汇在对应级别区间的重要度权重之间的关系对词汇进行质量分级;对各个级别区间对应的词汇的重要度权重进行归一处理,得到词汇的综合重要度权重;基于词汇的所述综合重要度权重,针对不同级别区间的所有同一质量等级的词汇进行相应质量等级的综合质量分级;或者,对各个级别区间对应的词汇的重要度权重进行归一处理,得到词汇的综合重要度权重,所述级别区间是根据各词汇在所有分类数据中的DF划分得到的;针对归一处理后的区间设置重要阈值和常用阈值;依据设置的所述两个阈值与词汇的综合重要度权重之间的关系对所有词汇进行综合质量分级。一种词汇质量挖掘评价装置,该装置包括:DF分布统计单元,用于对海量的分类数据进行词汇的DF分布统计;单角度度量单元,用于基于词汇的DF分布统计对词汇进行多个单一角度度量;-->多角度度量单元,用于根据词汇的各单一角度度量进行词汇的多角度度量,得到词汇的重要度权重。较佳地,所述DF分布统计单元包括:DF分量统计模块,用于统计词汇在各个类别的分类数据中的DF分量;DF计算模块,用于将词汇的各个DF分量的总和作为词汇在所有分类数据中的DF。较佳地,所述单角度度量单元包括:IDF模块、AVAIDF模块、卡方模块、IG模块、MI模块、ECE模块、ENT模块和选择倾向性模块。所述IG模块包括:区间划分模块,用于将所有候选词汇基于DF进行区间划分;IG计算模块,用于基于划分得到的各个区间对应的分类数据计算词汇的IG。较佳地,所述多角度度量单元包括:级别划分模块,用于按照词汇的DF对各个候选词汇进行级别划分;多角度度量确定模块,用于根据词汇所在级别区间确定词汇的多角度度量,得到词汇在对应级别区间的重要度权重。所述级别划分模块包括:级别区间划分模块,用于根据各词汇在所有分类数据中的DF划分级别区间;词汇划分模块,用于根据词汇在所有分类数据中的DF将相应词汇划分至对应级别区间。较佳地,所述装置进一步包括:预处理单元,用于对海量的分类数据中的词汇进行预处理;和/或,质量分级单元,用于根据词汇的重要度权重对词汇进行质量分级。所述质量分级单元包括:阈值设置模块,用于针对各个级别区间分别设置重要阈值和常用阈值,所述级别区间是根据各词汇在所有分类数据中的DF划分得到的;区间分级模块,本文档来自技高网
...

【技术保护点】
一种词汇质量挖掘评价方法,其特征在于,该方法包括:对海量的分类数据进行词汇的文档频率(DF)分布统计;根据词汇的DF分布统计对词汇进行多个单一角度度量;根据词汇的各单一角度度量进行词汇的多角度度量,得到词汇的重要度权重。

【技术特征摘要】
1.一种词汇质量挖掘评价方法,其特征在于,该方法包括:对海量的分类数据进行词汇的文档频率(DF)分布统计;根据词汇的DF分布统计对词汇进行多个单一角度度量;根据词汇的各单一角度度量进行词汇的多角度度量,得到词汇的重要度权重。2.根据权利要求1所述的方法,其特征在于,所述对海量的分类数据进行词汇的DF分布统计,包括:统计词汇在各个类别的分类数据中的DF分量;将词汇的各个DF分量的总和作为词汇在所有分类数据中的DF。3.根据权利要求1所述的方法,其特征在于,所述单一角度度量包括:逆文档频率(IDF)、平均逆文档频率(AVAIDF)、卡方、信息增益(IG)、互信息(MI)、期望交叉熵(ECE)、信息熵(ENT)和选择倾向性。4.根据权利要求3所述的方法,其特征在于,进行所述IG度量时,具体包括:将所有候选词汇基于DF进行区间划分;基于划分得到的各个区间对应的分类数据计算词汇的IG。5.根据权利要求1所述的方法,其特征在于,所述根据词汇的各单一角度度量进行词汇的多角度度量得到词汇的重要度权重,包括:按照词汇的DF对各个候选词汇进行级别划分;根据词汇所在级别区间确定词汇的多角度度量,得到词汇在对应级别区间的重要度权重。6.根据权利要求5所述的方法,其特征在于,所述按照词汇的DF对各个候选词汇进行级别划分,包括:根据各词汇在所有分类数据中的DF划分级别区间;根据词汇在所有分类数据中的DF将相应词汇划分至对应级别区间。7.根据权利要求1至6任一所述的方法,其特征在于,所述对海量的分类数据进行词汇的DF分布统计之前进一步,包括:对海量的分类数据中的词汇进行预处理;和/或,所述得到词汇的重要度权重之后,进一步包括:根据词汇的重要度权重对词汇进行质量分级。8.根据权利要求7所述的方法,其特征在于,所述根据词汇的重要度权重对词汇进行质量分级,包括:针对各个级别区间分别设置重要阈值和常用阈值,所述级别区间是根据各词汇在所有分类数据中的DF划分得到的;在各个级别区间内依据设置的所述两个阈值与词汇在对应级别区间的重要度权重之间的关系对词汇进行质量分级;对各个级别区间对应的词汇的重要度权重进行归一处理,得到词汇的综合重要度权重;基于词汇的所述综合重要度权重,针对不同级别区间的所有同一质量等级的词汇进行相应质量等级的综合质量分级;或者,对各个级别区间对应的词汇的重要度权重进行归一处理,得到词汇的综合重要度权重,所述级别区间是根据各词汇在所有分类数据中的DF划分得到的;针对归一处理后的区间设置重要阈值和常用阈值;依据设置的所述两个阈值与词汇的综合重要度权重之间的关系对所有词汇进行综合质量分级。9.一种词汇质量挖掘评价装置,其特征在于,该装置包括:DF分布统计...

【专利技术属性】
技术研发人员:刘怀军姜中博方高林
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:94[中国|深圳]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1