一种词汇分类的方法、系统和实现方法技术方案

技术编号:8883242 阅读:147 留言:0更新日期:2013-07-04 02:04
本发明专利技术公开了一种词汇分类的方法、系统和实现方法,首先获取文档分类训练集,包括文档及其所属的文档类别信息,对所有文档进行预处理,形成待分类词汇,获取每个待分类词汇在一个文档类别中的TF值和IDF值,并对两者求和得到TF-IDF,除以每个待分类词汇在其文档所属的所有文档类别中的TF-IDF之和,获得的商值作为待分类词汇属于文档类别的概率,生成包括待分类词汇、待分类词汇对应的类别和待分类词汇属于对应类别的概率的词汇分类数据库。采用了本发明专利技术的技术方案,能够自动完成词汇分类,而且投入很少,效果更加准确。

【技术实现步骤摘要】

本专利技术涉及文档分析
,尤其涉及。
技术介绍
在文档分析
中,分类词库是一个比较重要的技术,可以用于多种用途和领域。例如,用户行为分析里面,利用用户对关键词的输入,可以判断用户的基本类别。收集用户输入的搜索关键词,可以通过分类词库获取关键词的类别,进而对用户类别标示。表I权利要求1.一种词汇分类的方法,其特征在于,包括以下步骤: 获取文档分类训练集,所述文档分类训练集包括文档和所述文档所属的文档类别信息; 对所有文档进行预处理,形成待分类词汇; 获取每个待分类词汇在一个文档类别中的词汇频率值TF ; 获取每个待分类词汇在一个文档类别中的逆文档频率值IDF ; 采用每个待分类词汇在一个文档类别中的词汇频率值TF和逆文档频率值IDF获得每个待分类词汇在一个文档类别中的词汇频率-逆文档频率值TF-1DF ; 获取每个待分类词汇在其文档所属的所有文档类别中的词汇频率-逆文档频率值TF-1DF 之和; 每个待分类词汇在一个文档类别中的词汇频率-逆文档频率值TF-1DF除以所述待分类词汇在其文档所属的所有文档类别中的词汇频率-逆文档频率值TF-1DF之和获得的商值作为所述待分类词汇属 于所述文档类别的概率; 所述待分类词汇所在文档属于的文档类别作为所述待分类词汇的类别,生成包括待分类词汇、待分类词汇对应的类别和待分类词汇属于对应类别的概率的词汇分类数据库。2.根据权利要求1所述的一种词汇分类的方法,其特征在于,当一个文档同时属于不少于两个文档类别的情况下,还包括以下步骤: 获得一件文档所属的全部文档类别中的全部词汇; 获得所述文档所属的全部文档类别中任意不少于两个的文档都出现的词汇; 从所述的全部词汇中删除所述任意不少于两个的文档都出现的词汇,获得区别词汇; 获得所有区别词汇在所述文档所属的全部文档类别中的概率,并求和; 获得所有区别词汇在所述文档所属的一个文档类别中的概率,并求和; 将在所述一个文档类别中的词汇概率的和与所述全部文档类别中的词汇概率的和相除,获得的商作为所述文档对所述一个文档类别的贡献程度。3.根据权利要求2所述的一种词汇分类的方法,其特征在于,对所有文档进行预处理进一步包括以下步骤: 对文档进行分词; 去除其中停用词; 形成待分类词汇; 保留待分类词汇的位置信息和字体信息。4.根据权利要求3所述的一种词汇分类的方法,其特征在于,获取每个待分类词汇在一个文档类别中的词汇频率值TF进一步包括以下步骤: 采用以下公式获取待分类词汇在一个文档类别中的出现次数FC: FC =求和(I*(位置因子+字体因子)),其中位置因子根据待分类词汇的位置信息确定,字体因子根据待分类词汇的字体信息确定; 采用以下公式获取待分类词汇在一个文档类别中的词汇频率值TF: TF = log((1+FC) /SQRT (MAX FC)),其中MAX FC是一个文档类别中所有待分类词汇出现次数最多的待分类词汇的出现次数,SQRT是取平方的函数。5.根据权利要求4所述的一种词汇分类的方法,其特征在于,还包括以下步骤:对每个待分类词汇在一个文档类别中的词汇频率值TF进行归一化。6.根据权利要求3所述的一种词汇分类的方法,其特征在于,获取每个待分类词汇在一个文档类别中的逆文档频率值IDF进一步包括以下步骤: 采用以下公式获取待分类词汇在一个文档类别中的出现次数: DF =求和(I*(位置因子+字体因子)),其中位置因子根据待分类词汇的位置信息确定,字体因子根据待分类词汇的字体信息确定; 采用以下公式获取待分类词汇在一个文档类别中的逆文档频率值IDF: LogIDF = log (LabelDocumentCount/DF),其中 LabelDocumentCount 是一个文档类别中全部词汇的总数。7.根据权利要求1或者2所述的一种词汇分类的方法,其特征在于,采用每个待分类词汇在一个文档类别中的词汇频率值TF和逆文档频率值IDF之和作为每个待分类词汇在一个文档类别中的词汇频率-逆文档频率值TF-1DF。8.根据权利要求4或者6所述的一种词汇分类的方法,其特征在于,位置因子根据待分类词汇的位置信息确定进一步包括以下步骤: 获取位置信息,所述位置包括标题、正文、侧面链接和广告; 对不同的位置设置不同的位置因子,位置因子在O至I的范围。9.根据权利要求4或者6所述的一种词汇分类的方法,其特征在于,字体因子根据待分类词汇的字体信息确定进一步包括以下步骤: 获取字体信息,字体信息包括字体大小; 将文档中最大字体的字体因子设置为I ; 其他字体按照与最大字体的比例设置字体因子。10.根据权利要求1或者2所述的一种词汇分类的方法,其特征在于,所述文档是网页文档。11.一种词汇分类的系统,其特征在于,包括文档分类训练集模块、文档预处理模块、词频统计模块、词汇频率-逆文档频率值计算模块和词汇类别生成模块,其中, 文档分类训练集模块用于存储文档分类训练集,并将文档分类训练集提供给文档预处理模块; 文档预处理模块用于对所有文档进行预处理,形成待分类词汇; 词频统计模块用于统计待分类词汇在文档出现的频率,并发送给词汇频率-逆文档频率值计算模块; 词汇频率-逆文档频率值计算模块用于获取每个待分类词汇在一个文档类别中的词汇频率值TF和逆文档频率值IDF,采用每个待分类词汇在一个文档类别中的词汇频率值TF和逆文档频率值IDF获得每个待分类词汇在一个文档类别中的词汇频率-逆文档频率值TF-1DF,获取每个待分类词汇在其文档所属的所有文档类别中的词汇频率-逆文档频率值TF-1DF之和,并将每个待分类词汇在一个文档类别中的词汇频率-逆文档频率值TF-1DF除以所述待分类词汇在其文档所属的所有文档类别中的词汇频率-逆文档频率值TF-1DF之和获得的商值作为所述待分类词汇属于所述文档类别的概率; 词汇类别生成模块用于将所述待分类词汇所在文档属于的文档类别作为所述待分类词汇的类别,生成包括待分类词汇、待分类词汇对应的类别和待分类词汇属于对应类别的概率的词汇分类数据库。12.根据权利要求11所述的一种词汇分类的系统,其特征在于,词频统计模块还用于对每个待分类词汇在一个文档类别中的词汇频率值TF进行归一化。13.根据权利要求11所述的一种词汇分类的系统,其特征在于,还包括文档贡献程度计算模块,文档贡献程度计算模块用于获得一件文档所属的全部文档类别中的全部词汇,获得所述文档所属的全部文档类别中都出现的词汇,从所述的全部词汇中删除所述都出现的词汇,获得区别词汇,获得所有区别词汇在所述文档所属的全部文档类别中的概率,并求和,获得所有区别词汇在所述文档所属的一个文档类别中的概率,并求和,将在所述一个文档类别中的词汇概率的和与所述全部文档类别中的词汇概率的和相除,获得的商作为所述文档对所述一个文档类别的贡献程度。14.一种词汇分类的实现方法,其特征在于,包括以下步骤: A.获取文档分类训练集,所述文档分类训练集包括文档和所述文档所属的文档类别信息; B.对所有文档进行预处理,形成待分类词汇列表; C.主控节点将所述待分类词汇列表分区,以行为单位,将一行待分类词汇列表及文档类别分配到本文档来自技高网...

【技术保护点】
一种词汇分类的方法,其特征在于,包括以下步骤:获取文档分类训练集,所述文档分类训练集包括文档和所述文档所属的文档类别信息;对所有文档进行预处理,形成待分类词汇;获取每个待分类词汇在一个文档类别中的词汇频率值TF;获取每个待分类词汇在一个文档类别中的逆文档频率值IDF;采用每个待分类词汇在一个文档类别中的词汇频率值TF和逆文档频率值IDF获得每个待分类词汇在一个文档类别中的词汇频率?逆文档频率值TF?IDF;获取每个待分类词汇在其文档所属的所有文档类别中的词汇频率?逆文档频率值TF?IDF之和;每个待分类词汇在一个文档类别中的词汇频率?逆文档频率值TF?IDF除以所述待分类词汇在其文档所属的所有文档类别中的词汇频率?逆文档频率值TF?IDF之和获得的商值作为所述待分类词汇属于所述文档类别的概率;所述待分类词汇所在文档属于的文档类别作为所述待分类词汇的类别,生成包括待分类词汇、待分类词汇对应的类别和待分类词汇属于对应类别的概率的词汇分类数据库。

【技术特征摘要】

【专利技术属性】
技术研发人员:徐萌何洪凌邓超罗治国孙少陵陶涛
申请(专利权)人:中国移动通信集团公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1