【技术实现步骤摘要】
本专利技术涉及文档集特征词提取
,特别涉及一种基于位置信息的文档集的特征词提取方法及系统。
技术介绍
信息时代每天信息不断增长,文档集的特征词选取就是从原始高维的特征词中选取具有代表意义的部分特征词,然后利用选取的特征词用以后续的文档集处理,以提高分类效率和解决分类器在高维情形下表现不稳定的缺点。常用的特征词选取方法主要有,TF-IDF,信息增益,卡方检验,互信息等,其中IF-IDF方法形式简洁、结构简单,并且准确率较高。然而传统的TF-IDF方法主要以下不足:1)、没有充分考虑到文档段落在文档中的位置权重信息;2)、没有充分考虑特征词在段落内的位置权重信息。从而存在文档集的特征词提取精度不高,需要人工纠正的问题。因而现有技术还有待改进和提高。
技术实现思路
本专利技术要解决的技术问题在于,针对现有技术的不足,提供一种基于位置信息的文档集的特征词提取方法及系统,其解决现有TF-IDF特征词提取方法存在文档集的特征词提取精度不高,需要人工纠正的问题。为了解决上述技术问题,本专利技术所采用的技术方案如下:一种基于位置信息的文档集的特征词提取方法,其包括:S1、对文档集进行空间向量模型处理;S2、获取每个特征词在每篇文档集中的文档位置信息,并根据所述文档位置信息计算所述文档置信息权重;S3、根据所述文档集位置信息权重采用加权词频计算特征词在文档集的TF-IDF权重,并对所述TF-IDF ...
【技术保护点】
一种基于位置信息的文档集的特征词提取方法,其特征在于,其包括:A、对文档集进行空间向量模型处理;B、获取每个特征词在每篇文档中的文档位置信息,并根据所述文档位置信息计算所述文档位置信息权重;C、根据所述文档位置信息权重采用加权词频计算特征词在文档集的TF‑IDF权重,并对所述TF‑IDF权重进行排序获取文档集的特征词。
【技术特征摘要】
1.一种基于位置信息的文档集的特征词提取方法,其特征在于,其包括:
A、对文档集进行空间向量模型处理;
B、获取每个特征词在每篇文档中的文档位置信息,并根据所述文档位置信息计算所述
文档位置信息权重;
C、根据所述文档位置信息权重采用加权词频计算特征词在文档集的TF-IDF权重,并对
所述TF-IDF权重进行排序获取文档集的特征词。
2.根据权利要求1所述基于位置信息的文档集的特征词提取方法,其特征在于,所述步
骤A之后还包括:
A0、预先构建停词词典,根据所述停词词典对待提取特征词的文档集进行停词、去停词
处理,获取特征词候选文档集。
3.根据权利要求1所述基于位置信息的文档集的特征词提取方法,其特征在于,所述文
档位置信息为:
特征词所处段落位于所属文档的段落位置信息和特征词位于所属段落的特征词位置
信息。
4.根据权利要求3所述基于位置信息的文档集的特征词提取方法,其特征在于,所述步
骤B具体包括:
B1、获取所述空间向量模型中每个特征词所属段落位于所属文档的段落位置信息及所
述特征词位于所属段落的特征词位置信息;
B2、将所述文档划分为若干部分,计算所述段落位置信息对于每一部分的权重,并将每
一部分的权重求和得到段落位置信息权重;
B3、将所述段落划分为若干部分,计算所述特征词位置信息对于每一部分的权重,并将
每一部分的权重求和得到特征词位置信息权重。
5.根据权利要求4所述基于位置信息的文档集的特征词提取方法,其特征在于,所述段
落位置信息权重的计算公式如下:
W段落-文档=α1I(k<=ceil(K*p1))+...+αaI(ceil(K*pa-1)<k<=ceil(K*pa))
其中,t表示特征词;K表示文档段落总数,按段落顺序将段落标记为1,2,...k,...K;I
(·)为示性函数;ceil(x)表示取整函数;α1,...,αa表示权重系数且为正整数,p1,...,pa表
示权重分位数且为常数,a表示将文档划分部分数,按划分部分的顺序记为1,...,a。
...
【专利技术属性】
技术研发人员:吴成龙,王巍,
申请(专利权)人:TCL集团股份有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。