一种基于位置信息的文档集的特征词提取方法及系统技术方案

技术编号:13343611 阅读:47 留言:0更新日期:2016-07-14 10:10
本发明专利技术公开了一种基于位置信息的文档集的特征词提取方法及系统,其对文档集进行空间向量模型处理;获取每个特征词在每篇文档集中的文档位置信息,并根据所述文档位置信息计算所述文档位置信息权重;根据所述文档位置信息权重采用加权词频计算特征词在文档集的TF‑IDF权重,并对所述TF‑IDF权重进行排序获取文档集特征词。本方法在TF‑IDF权重加入文档集位置信息权重,提高了文档集特征词提取的精准度,提高文档集自动化分类的准确度,降低人力纠正成本。

【技术实现步骤摘要】

本专利技术涉及文档集特征词提取
,特别涉及一种基于位置信息的文档集的特征词提取方法及系统
技术介绍
信息时代每天信息不断增长,文档集的特征词选取就是从原始高维的特征词中选取具有代表意义的部分特征词,然后利用选取的特征词用以后续的文档集处理,以提高分类效率和解决分类器在高维情形下表现不稳定的缺点。常用的特征词选取方法主要有,TF-IDF,信息增益,卡方检验,互信息等,其中IF-IDF方法形式简洁、结构简单,并且准确率较高。然而传统的TF-IDF方法主要以下不足:1)、没有充分考虑到文档段落在文档中的位置权重信息;2)、没有充分考虑特征词在段落内的位置权重信息。从而存在文档集的特征词提取精度不高,需要人工纠正的问题。因而现有技术还有待改进和提高。
技术实现思路
本专利技术要解决的技术问题在于,针对现有技术的不足,提供一种基于位置信息的文档集的特征词提取方法及系统,其解决现有TF-IDF特征词提取方法存在文档集的特征词提取精度不高,需要人工纠正的问题。为了解决上述技术问题,本专利技术所采用的技术方案如下:一种基于位置信息的文档集的特征词提取方法,其包括:S1、对文档集进行空间向量模型处理;S2、获取每个特征词在每篇文档集中的文档位置信息,并根据所述文档位置信息计算所述文档置信息权重;S3、根据所述文档集位置信息权重采用加权词频计算特征词在文档集的TF-IDF权重,并对所述TF-IDF权重进行排序获取文档集的特征词。所述基于位置信息的文档集的特征词提取方法,其中,所述步骤S1之后还包括:S0、对文档集进行停词、去停词处理,获取特征词候选文档集。所述基于位置信息的文档集的特征词提取方法,其中,所述文档位置信息为:所述特征词所处段落位于所属文档的段落位置信息和所述特征词位于所属段落的特征词位置信息。所述基于位置信息的文档集的特征词提取方法,其中,所述步骤S2具体包括:S21、获取所述空间向量模型中每个特征词所述段落位于所属文档的段落位置信息及所述特征词位于所属段落的特征词位置信息;S22、将所述文档划分为若干部分,计算所述段落位置信息对于每一部分的权重,并将每一部分的权重求和得到段落位置信息权重;S23、将所述段落划分为若干部分,计算所述特征词位置信息对于每一部分的权重,并将每一部分的权重求和得到特征词位置信息权重。所述基于位置信息的文档集的特征词提取方法,其中,所述段落位置信息权重的计算公式如下:W段落-文档=α1I(k<=ceil(K*p1))+...+αaI(ceil(K*pa-1)<k<=ceil(K*pa))其中,t表示特征词;K表示文档段落总数,按段落顺序将段落标记为1,2,...k,...K;I(·)为示性函数;ceil(x)表示取整函数;α1,...,αa表示权重系数且为正整数,p1,...,pa表示权重分位数且为常数,a表示将文档划分部分数,按划分部分的顺序记为1,...,a。所述基于位置信息的文档集的特征词提取方法,其中,所述特征词位置信息权重的计算公式如下:W特征词→段落=β1I(Jkt<=ceil(Jk*q1))+...+βbI(ceil(Jk*qb-1)<Jkt<=ceil(Jk*qb))其中,t表示特征词;K表示文档集段落总数,按段落顺序将段落标记为1,2,...k,...K;Jk表示k段落包含的词语数量,按词语顺序给予编号1,...,Jk;Jkt记特征词出现的段落编号;I(·)为示性函数,ceil(x)表示取整函数;β1,...,βb为权重系数且为正整数,q1,...,qb表示权重分位数且为常数;b表示将段落拆分部分数,按划分部分的顺序记为1,...,b。所述基于位置信息的文档集的特征词提取方法,其中,所述步骤S3具体包括:S31、根据所述段落位置信息权重和特征词位置信息权重采用加权计算所述特征词的词频,并计算所述特征词的逆向文档集频率;S32、根据所述词频及逆向文档集频率计算所述特征词的TF-IDF权重;S33、将所述特征词的TF-IDF权重按照从大到小的顺序进行排序,并提取特征词。所述基于位置信息的文档集的特征词提取方法,其中,所述特征词加权频率为计算公式为:其中,nt表示特征词t在文档中出现的频次。一种基于位置信息的文档集特的征词提取系统,其包括:处理模块,用于对文档集进行空间向量模型处理;获取模块,用于获取每个特征词在每个文档集中的文档位置信息,并根据所述文档位置信息计算所述文档位置信息权重;提取模块,用于根据所述文档位置信息权重采用加权词频计算特征词在文档的TF-IDF权重,并对所述TF-IDF权重进行排序获取文档集的特征词。所述基于位置信息的文档集的特征词提取系统,其还包括:预处理模块,用于预先对文档集进行停词、去停词处理,获取特征词候选文档集。有益效果:与现有技术相比,本专利技术所提供基于位置信息的文档集的特征词提取方法及系统,其对文档集进行空间向量模型处理;获取每个特征词在每篇文档集中的文档位置信息,并根据所述文档位置信息计算所述文档位置信息权重;根据所述文档置信息权重采用加权词频计算特征词在文档集的TF-IDF权重,并对所述TF-IDF权重进行排序获取文档集的特征词。本方法在TF-IDF权重加入文档集位置信息权重,提高了文档集的特征词提取的精准度,提供文档集自动化分类的准确度,降低人力纠正成本。附图说明图1为本专利技术提供基于位置信息的文档集的特征词提取方法的流程图。图2为本专利技术提供基于位置信息的文档集的特征词提取系统的结构原理图。图3为本专利技术提供一种终端的原理示意图。具体实施方式本专利技术提供基于位置信息的文档集的特征词提取方法及系统,为使本专利技术的目的、技术方案及效果更加清楚、明确,以下参照附图并举实施例对本专利技术进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本专利技术,并不用于限定本专利技术。词频(termfrequency,TF)指的是某一个给定的词语在该文件中出现的频率。 tf i , j = n i , j Σ k n k 本文档来自技高网...

【技术保护点】
一种基于位置信息的文档集的特征词提取方法,其特征在于,其包括:A、对文档集进行空间向量模型处理;B、获取每个特征词在每篇文档中的文档位置信息,并根据所述文档位置信息计算所述文档位置信息权重;C、根据所述文档位置信息权重采用加权词频计算特征词在文档集的TF‑IDF权重,并对所述TF‑IDF权重进行排序获取文档集的特征词。

【技术特征摘要】
1.一种基于位置信息的文档集的特征词提取方法,其特征在于,其包括:
A、对文档集进行空间向量模型处理;
B、获取每个特征词在每篇文档中的文档位置信息,并根据所述文档位置信息计算所述
文档位置信息权重;
C、根据所述文档位置信息权重采用加权词频计算特征词在文档集的TF-IDF权重,并对
所述TF-IDF权重进行排序获取文档集的特征词。
2.根据权利要求1所述基于位置信息的文档集的特征词提取方法,其特征在于,所述步
骤A之后还包括:
A0、预先构建停词词典,根据所述停词词典对待提取特征词的文档集进行停词、去停词
处理,获取特征词候选文档集。
3.根据权利要求1所述基于位置信息的文档集的特征词提取方法,其特征在于,所述文
档位置信息为:
特征词所处段落位于所属文档的段落位置信息和特征词位于所属段落的特征词位置
信息。
4.根据权利要求3所述基于位置信息的文档集的特征词提取方法,其特征在于,所述步
骤B具体包括:
B1、获取所述空间向量模型中每个特征词所属段落位于所属文档的段落位置信息及所
述特征词位于所属段落的特征词位置信息;
B2、将所述文档划分为若干部分,计算所述段落位置信息对于每一部分的权重,并将每
一部分的权重求和得到段落位置信息权重;
B3、将所述段落划分为若干部分,计算所述特征词位置信息对于每一部分的权重,并将
每一部分的权重求和得到特征词位置信息权重。
5.根据权利要求4所述基于位置信息的文档集的特征词提取方法,其特征在于,所述段
落位置信息权重的计算公式如下:
W段落-文档=α1I(k<=ceil(K*p1))+...+αaI(ceil(K*pa-1)<k<=ceil(K*pa))
其中,t表示特征词;K表示文档段落总数,按段落顺序将段落标记为1,2,...k,...K;I
(·)为示性函数;ceil(x)表示取整函数;α1,...,αa表示权重系数且为正整数,p1,...,pa表
示权重分位数且为常数,a表示将文档划分部分数,按划分部分的顺序记为1,...,a。
...

【专利技术属性】
技术研发人员:吴成龙王巍
申请(专利权)人:TCL集团股份有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1