一种特征词提取处理方法、系统及服务器技术方案

技术编号:18049930 阅读:66 留言:0更新日期:2018-05-26 08:00
本发明专利技术实施例提供一种特征词提取处理方法及服务器,涉及数据处理技术领域,所述方法包括:获取候选的特征词集;计算所述特征词集中每一个特征词所对应的与所述每一个特征词在同一文档类别内的词频相关的类内词频因子和与所述每一个特征词在不同文档类别的词频的方差相关的类间词频因子;根据所述每一个特征词的所述类内词频因子和所述类间词频因子,计算出所述每一个特征词的信息增益;根据计算出的所述每一个特征词的信息增益,提取所述特征词集中的目标特征词。所述服务器执行上述方法。本发明专利技术实施例提供的特征词提取处理方法及服务器,通过提取特征词集中的目标特征词,提高了地理位置短文本分类的准确性。

【技术实现步骤摘要】
一种特征词提取处理方法、系统及服务器
本专利技术实施例涉及数据处理领域,具体涉及一种特征词提取处理方法、系统及服务器。
技术介绍
以地理位置服务为代表的地球空间信息及应用服务产业已经成为当前IT产业的重要组成部分,为了提供更好的地理位置服务,需要对地理位置短文本信息精确解析,但是对短文本信息精确解析的关键在于将对短文本进行文本处理,使其转化成具有充分语义的信息。文本处理包括文本预处理、文本表示、特征选择、特征权值计算和构建处理模型等基本步骤。特征选取的优劣直接影响到文本处理模型结果的精度,特别是短文本特征维度较为稀疏的情况下,特征选择尤其重要。目前常见的特征选择方法有:文档频率(DF),词频(TF),互信息(MI),卡方分布(χ2),信息增益(IG)等。Yang等人针对常见特征选择算法进行大量的实验比照,得出信息增益是最好的特征选择方法之一。有研究表明,词频因素在文本处理领域扮演着至关重要的角色,但是传统信息增益选择方法的计算中均没有考虑词频因数,因此,如何引入词频因素来对文本最关键的特征进行提取成为亟须解决的问题。
技术实现思路
针对现有技术存在的问题,本专利技术实施例提供一种特征词提取处理方法、系统及服务器。一方面,本专利技术实施例提供一种特征词提取处理方法,包括:获取候选的特征词集;计算所述特征词集中每一个特征词所对应的与所述每一个特征词在同一文档类别内的词频相关的类内词频因子和与所述每一个特征词在不同文档类别的词频的方差相关的类间词频因子;根据所述每一个特征词的所述类内词频因子和所述类间词频因子,计算出所述每一个特征词的信息增益;根据计算出的所述每一个特征词的信息增益,提取所述特征词集中的目标特征词。另一方面,本专利技术实施例提供一种特征词提取处理系统,包括:获取模块,用于获取候选的特征词集;第一计算模块,用于计算所述特征词集中每一个特征词所对应的与所述每一个特征词在同一文档类别内的词频相关的类内词频因子和与所述每一个特征词在不同文档类别的词频的方差相关的类间词频因子;第二计算模块,用于根据所述每一个特征词的所述类内词频因子和所述类间词频因子,计算出所述每一个特征词的信息增益;提取模块,用于根据计算出的所述每一个特征词的信息增益,提取所述特征词集中的目标特征词。另一方面,本专利技术实施例提供一种特征词提取处理服务器,包括上述的系统。本实施例提供的特征词提取处理方法、系统及服务器,通过提取特征词集中的目标特征词,使得特征词的提取更加合理、提高了地理位置短文本分类的准确性。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术实施例特征词提取处理方法的流程示意图;图2为本专利技术实施例特征词提取处理系统的结构示意图;图3为本专利技术实施例提供的特征词提取处理系统实体结构示意图。具体实施方式为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。图1为本专利技术实施例特征词提取处理方法的流程示意图,如图1所示,本专利技术实施例提供的一种特征词提取处理方法,包括以下步骤:S1:获取候选的特征词集。在一种可选实施例中,可以由服务器获取特征词集。在一种可选实施例中,所述特征词集是从乘客终端和/或司机终端搜集得到的。需要说明的是:特征词集可以是所有乘客已经输入过的特征词总和组成的特征词集,也可以是所有司机已经输入过的特征词总和组成的特征词集,还可以是乘客和司机共同已经输入过的特征词总和组成的特征词集,特征词集的获取方式并不限于上述的几种情况,在此不作限定。S2:计算所述特征词集中每一个特征词所对应的与所述每一个特征词在同一文档类别内的词频相关的类内词频因子和与所述每一个特征词在不同文档类别的词频的方差相关的类间词频因子。在一种可选实施例中,服务器计算所述特征词集中每一个特征词所对应的与所述每一个特征词在同一文档类别内的词频相关的类内词频因子和与所述每一个特征词在不同文档类别的词频的方差相关的类间词频因子。需要说明的是:服务器会对所搜集到的特征词集所属的文档进行分类,其中的类内词频因子表征了特征词在所属文档类别中出现的频数特征,数值越高说明该特征词在所属文档类别中出现越频繁,反之则说明该特征词在所属文档类别中出现很少;类间词频因子表征了所属文档类别中同一特征词的词频的方差特征,方差数值越大说明所述文档类别的分类能力越强,反之则说明所述文档类别的分类能力越弱。S3:根据所述每一个特征词的所述类内词频因子和所述类间词频因子,计算出所述每一个特征词的信息增益。在一种可选实施例中,服务器根据所述每一个特征词的所述类内词频因子和所述类间词频因子,计算出所述每一个特征词的信息增益。S4:根据计算出的所述每一个特征词的信息增益,提取所述特征词集中的目标特征词。在一种可选实施例中,服务器根据计算出的所述每一个特征词的信息增益,提取所述特征词集中的目标特征词。本实施例提供的特征词提取处理方法,通过提取特征词集中的目标特征词,使得特征词的提取更加合理、提高了地理位置短文本分类的准确性。在一种可选实施例中,所述类内词频因子的计算,包括:获取所述候选的特征词集中的单词j在文档类别i中出现的概率Aij。在一种可选实施例中,由服务器获取所述候选的特征词集中的单词j在文档类别i中出现的概率Aij。Aij为各所述特征词集出现在各所述文档类别中的次数与各所述文档类别中的所有所述特征词集总和的比值。如表1所示:计算Aij,A11=30/(30+20+35+25+15)=30/100;其中词类数最大值为5;其他概率Aij的计算不再赘述。将所述单词j在各文档类别中出现的概率的最大值所对应的归一化计算结果作为所述单词j的所述类内词频因子。在一种可选实施例中,由服务器将所述单词j在各文档类别中出现的概率的最大值所对应的归一化计算结果作为所述单词j的所述类内词频因子。参照表1的数据,根据上述实施例的方法可以计算出各个Aij的数值,并比较计算出的各个Aij的数值,结果如下:A11>A12;A12>A22;A13>A23;A14<A24;A15<A25因此选取Ai′j=[A11;A12;A13;A24;A25]T再对得到的Ai′j进行归一化计算得到所述类内词频因子。表1特征词与文档类别次数对照表1在一种可选实施例中,所述类内词频因子αij通过以下公式进行归一化计算:其中,A'ij为所述单词j在各文档类别中出现的概率的最大值、以及m为所述特征词的词类总数。在一种可选实施例中,由服务器通过以下公式进行归一化计算:其中,A'ij为所述单词j在各文档类别中出现的概率的最大值、以及m为所述特征词的词类总数。本实施例提供的特征词提取处理方法,通过上述的计算过程获取到类本文档来自技高网...
一种特征词提取处理方法、系统及服务器

【技术保护点】
一种特征词提取处理方法,其特征在于,包括:获取候选的特征词集;计算所述特征词集中每一个特征词所对应的与所述每一个特征词在同一文档类别内的词频相关的类内词频因子和与所述每一个特征词在不同文档类别的词频的方差相关的类间词频因子;根据所述每一个特征词的所述类内词频因子和所述类间词频因子,计算出所述每一个特征词的信息增益;根据计算出的所述每一个特征词的信息增益,提取所述特征词集中的目标特征词。

【技术特征摘要】
1.一种特征词提取处理方法,其特征在于,包括:获取候选的特征词集;计算所述特征词集中每一个特征词所对应的与所述每一个特征词在同一文档类别内的词频相关的类内词频因子和与所述每一个特征词在不同文档类别的词频的方差相关的类间词频因子;根据所述每一个特征词的所述类内词频因子和所述类间词频因子,计算出所述每一个特征词的信息增益;根据计算出的所述每一个特征词的信息增益,提取所述特征词集中的目标特征词。2.根据权利要求1所述的方法,其特征在于,所述类内词频因子的计算,包括:获取所述候选的特征词集中的单词j在文档类别i中出现的概率Aij;将所述单词j在各文档类别中出现的词频数的最大值所对应的归一化计算结果作为所述单词j的所述类内词频因子。3.根据权利要求2所述的方法,其特征在于,所述类内词频因子αij通过以下公式进行归一化计算:其中,A'ij为所述单词j在各文档类别中出现的概率的最大值,以及m为所述特征词的词类总数。4.根据权利要求1所述的方法,其特征在于,包括:将通过以下公式计算的βj进行归一化的计算结果作为所述候选的特征词集中的单词j的类间词频因子:其中,tij和tqj分别是所述单词j在文档类别i或文档类别q中出现的词频次数,k为所述文档类别的类别总数。5.根据权利要求4所述的方法,其特征在于,所述类间词频因子通过以下公式进行归一化计算其中,βj为没有归一化的类间词频因子、β'j为归一化的类间词频因子、以及m为所述特征词的词类总数。6.根据权利要求1所述的方法,其特征在于,根据所述每一个特征词的所述类内词频因子和所述类间词频因子,使用以下公式计算所述每一个特征词的信息增益G(tj),包括:其中,第一概率P(ci)通过所述文档类别ci中的所有所述特征词的总数占所有所述特征词的总数的比值获得,k为所述文档类别的类别总数、m为所述特征词的词类总数;第二概率P(tj)通过所有所述文档类别所对应的某一特征词总数tj占所有所述特征词总数的比值获得,所述tj是通过计算出的;第三概率为1减去所述第二概率P(tj);第四概率通过所述文档类别ci中所述特征词tij占所有所述文档类别所对应的某一特征词总数tj的比值获得,所述tj是通过计算出的;第五概率通过所述文档类别ci中的所有所述特征词的总数中除所述文档类别ci中所述特征词tij以外的所有所述特征词的总数占的比值获得,所述是通过计算出的;αij为类内词频因子,βj′为类间词频因子。7.根据权利要求1所述的方法,其特征在于,所述根据计算出的所述每一个特征词的信息增益,提取所述特征词集中的目标特征词,包括:将所述每一个特征词按照其对应的信息增益的数值大小进行排序;将...

【专利技术属性】
技术研发人员:张凌宇
申请(专利权)人:北京嘀嘀无限科技发展有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1