一种文本特征提取系统和方法技术方案

技术编号:13165631 阅读:56 留言:0更新日期:2016-05-10 11:09
本发明专利技术公开了一种文本特征提取系统和方法。该方法包括:将已分好m个类别的文档内容进行分词处理得到多个特征词;计算文档的词频参数,所述参数包括每个类别的文档数量Ni、包含各个特征词的文档数量Nt、总文档数Ntotal和每个类别中包含各个特征词的文档数Ni,t;根据词频参数并行计算每个特征词属于各个类别的特征值;对每个特征词的m个类别的特征值进行并行累加计算;根据累加计算后的特征值的大小进行排序,并根据排序结果对应的特征词进行文本特征提取。本发明专利技术通过并行运算能够提高海量文本特征的提取速度、效率高。

【技术实现步骤摘要】

本专利技术涉及大数据/云计算
,尤其涉及。
技术介绍
在文本分类中,一般一类文档的词都有几十万,如果每个词都参与运算不仅会耗 费运行时间,而且分类效果会被大量不相关的词所干扰,因此文本特征提取是文本分类过 程中的一个重要环节。但目前文本特征提取方法还是基于单机运算,面对海量的互联网网 页信息,由于网页的文本特征数量巨大,采用单机运算,可扩展性差,对海量文本特征提取 无法扩展到多台机器进行并行运算,将会造成性能瓶颈。
技术实现思路
本专利技术要解决的是海量文本特征提取速度慢、效率低的问题。 根据本专利技术一方面,提出一种文本特征提取系统,包括: 分词模块,用于将已分好m个类别的文档内容进行分词处理得到多个特征词; 参数计算模块,用于计算文档的词频参数,所述参数包括每个类别的文档数量队、 包含各个特征词的文档数量N t、总文档数Ntotal和每个类别中包含各个特征词的文档数
; 特征值计算模块,用于根据参数计算模块计算的词频参数并行计算每个特征词属 于各个类别的特征值; 累加计算模块,用于对每个特征词的m个类别的特征值进行并行累加计算; 特征提取模块,用于根据累加计算后的特征值的大小进行排序,并根据排序结果 对应的特征词进行文本特征提取。 进一步,特征值计算模块用于根据计算每个特征词属于各个类 别的特征值。 进一步,初始化配置模块,用于从所述参数计算模块读取并保存文档的词频参数, 并将所述词频参数传递给所述特征值计算模块。 进一步,特征值计算模块设置在MapReduce编程架构的Map函数中。 进一步,累加计算模块设置在MapReduce编程架构的Reduce函数中。 根据本专利技术的另一方面,还提出一种文本特征提取方法,包括: 将已分好m个类别的文档内容进行分词处理得到多个特征词; 计算文档的词频参数,所述参数包括每个类别的文档数量队、包含各个特征词的 文档数量Nt、总文档数Ntotal和每个类别中包含各个特征词的文档数\ t ; 根据词频参数并行计算每个特征词属于各个类别的特征值; 对每个特征词的m个类别的特征值进行并行累加计算; 根据累加计算后的特征值的大小进行排序,并根据排序结果对应的特征词进行文 本特征提取。计算每个特征词属于各个类别的特征值。 进一步,初始化配置,包括读取并保存文档的词频参数,并将所述词频参数传递给 Map函数。 进一步,在MapReduce编程架构的Map函数中计算每个特征词属于各个类别的特 征值。 进一步,在MapReduce编程架构的Reduce函数中对每个特征词的m个类别的特征 值进行并行累加计算。 在本专利技术中,并行计算每个特征词属于各个类别的特征值,并对每个特征词的m 个类别的特征值进行并行累加计算,因此,通过并行运算能够提高海量文本特征的提取速 度、效率高。 通过以下参照附图对本专利技术的示例性实施例的详细描述,本专利技术的其它特征及其 优点将会变得清楚。【附图说明】 构成说明书的一部分的附图描述了本专利技术的实施例,并且连同说明书一起用于解 释本专利技术的原理。 参照附图,根据下面的详细描述,可以更加清楚地理解本专利技术,其中: 图1为实施例中一种文本特征提取系统的结构示意图。 图2为实施例中一种文本特征提取方法的流程图。【具体实施方式】 现在将参照附图来详细描述本专利技术的各种示例性实施例。应注意到:除非另外具 体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本 专利技术的范围。 同时,应当明白,为了便于描述,附图中所示出的各个部分的尺寸并不是按照实际 的比例关系绘制的。 以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本专利技术 及其应用或使用的任何限制。 对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适 当情况下,所述技术、方法和设备应当被视为授权说明书的一部分。 在这里示出和讨论的所有示例中,任何具体值应被解释为仅仅是示例性的,而不 是作为限制。因此,示例性实施例的其它示例可以具有不同的值。 应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一 个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。 为使本专利技术的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照 附图,对本专利技术进一步详细说明。 图1为实施例中一种文本特征提取系统的结构示意图,该系统包括:分词模块 110、参数计算模块120、特征值计算模块130、累加计算模块140和特征提取模块150。其 中: 分词模块110,用于将已分好m个类别的文档内容进行分词处理得到多个特征词。 参数计算模块120,用于计算文档的词频参数,所述参数包括每个类别的文档数量 队、包含各个特征词的文档数量N t、总文档数Ntotal和每个类别中包含各个特征词的文档数
。 特征值计算模块130,用于根据参数计算模块120计算的词频参数,设计Map函数, 并行计算每个特征词属于各个类别的特征值。Map函数的输入key值由类别label与特征 词term组合而成,value为类别label中包含特征term的文档数\ t,把特征词term与每 个特征词属于各个类别的特征值ce作为〈key, value〉值对输出。 在本专利技术的实施例中,根据如下公式,计算每个特征词属于各个类别的特征值, 即: 该公式可以根据期望交叉熵公式进行转换而来,本领域技术人员应该可以理解, 这里只是用于举例,不应理解为对本专利技术的限制。 期望交叉熵公式为: 其中,P(t)是包含特征词t的文档在训练集中出现的概率,Ρ((;)是类Q的文档在 训练集中出现的概率,p(cyt)是包含特征词t的文档属于类Q的概率,第i类为Q,共有 m类。例如,根据需要制定m个类别的文本分类体系(如:体育、财经等类别),通过爬虫、人 工等途径搜集每个类别的语料库,构建具有m个类别的"训练集",每个类别标记为Q (i = l...m) 〇 根据参数计算模块120计算的文档的词频参数,则: 记Ntotal为总文档数,Nt为包含特征词t的文档数,队为类Q的文档数,队,t为类 Q中包含特征词t的文档数,则期望交叉熵的计算公式转化为: 由于m为类别,因此,对于每个特征词属于各个类别的特征值为: 在上述各个公式中,关于log的底数可以为2,本领域技术人员应该可以理解,这 里只是用于举例说明,不应理解为对本专利技术的限制。底数的取值可以为10或者其他,并不 影响处理结果。[00当前第1页1 2 3 本文档来自技高网
...

【技术保护点】
一种文本特征提取系统,其特征在于,包括:分词模块,用于将已分好m个类别的文档内容进行分词处理得到多个特征词;参数计算模块,用于计算文档的词频参数,所述参数包括每个类别的文档数量Ni、包含各个特征词的文档数量Nt、总文档数Ntotal和每个类别中包含各个特征词的文档数Ni,t;特征值计算模块,用于根据参数计算模块计算的词频参数并行计算每个特征词属于各个类别的特征值;累加计算模块,用于对每个特征词的m个类别的特征值进行并行累加计算;特征提取模块,用于根据累加计算后的特征值的大小进行排序,并根据排序结果对应的特征词进行文本特征提取。

【技术特征摘要】

【专利技术属性】
技术研发人员:陶彩霞谢晓军陈康张青高智衡陈翀关迎晖刘春向勇吴旭
申请(专利权)人:中国电信股份有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1