基于CHI特征选取的文本事件分类方法技术

技术编号:12170604 阅读:85 留言:0更新日期:2015-10-08 04:02
本发明专利技术公开了一种基于CHI特征选取的文本事件分类方法,包括针对训练语料的分类模型训练过程和文本分类过程。该方法通过分析中文文本事件的语言描述特征,选取CHI值作为主题特征向量,针对选取的训练语料形成特征文件和训练模版,最终实现文本事件信息的分类。其中,模型训练过程包括以下步骤:(1)文本训练语料选取;(2)文本语料预处理;(3)类别特征选取,生成特征文件集合;(4)文本特征向量生成及归一化处理,生成特征向量文件;(5)SVM模型训练。文本分类过程与模型训练过程类似。本发明专利技术采用的方法可广泛地应用于中文文本数据挖掘的识别、分类、解析与监测过程,能够有效提升中文文本自然语言处理的解析效率与解析精度。

【技术实现步骤摘要】

本专利技术属于地理信息的数据挖掘领域,具体公开了一种基于CHI特征选取的文本 事件分类方法。
技术介绍
随着互联网资源爆炸式的增长,分类技术已经成为倍受关注的领域和研究的热 点。全球技术研究和咨询公司相关调查报告显示,未来10年中至少95%的人机交互信息是 文本语言,其中事件是人们认知和理解世界的基本单位,包含着人类对事件信息描述的时 空与属性要素信息W及事件各要素之间的语义关联关系。 然而,文本中事件信息的有效利用和知识的发现成为了现今文本数据挖掘领域亟 待面对的问题。文本分类既能够为信息与知识的抽取奠定基础,又能够有效降低文本中事 件信息的挖掘利用难度。目前,分类体系、模式匹配与机器学习等方法大部分应用于文本的 分类,而缺乏完整的文本中事件的分类方法。
技术实现思路
本专利技术的目的在于;依据中文文本事件描述特点,提出一种基于CHI特征选取的 文本事件分类方法,有效改进中文文本自然语言处理中事件类型的分类,提升了中文文本 事件的分类精度和效率,为文本数据挖掘提供基础性分类依据。 为了实现上述目的,本专利技术通过分析中文文本事件的语言描述特征,选取CHI值 作为主题特征向量,针对选取的训练语料形成特征文件和训练模版,最终实现文本事件信 息的分类,具体的过程如下; 基于CHI特征选取的文本事件分类方法,其特征在于,包括如下过程:(一)分类模型训练过程:[000引步骤11 ;文本训练语料选取,即从网络文本中筛选文本训练语料,选取的语料包 括多种类别的主题事件,每类包括多篇语料文本; 步骤12 ;对筛选的文本训练语料进行预处理,具体方法如下: a)数据转码处理,将原始筛选文本中各种类别的中文编码格式统一转换为UTF-8 编码格式, b)将原始语料的格式内容进行初步筛选,过滤无效字符,删除低特征文本,C)文本分词,使用ICTCLAS工具包对文本进行分词处理,建立停用词表,对文本特 征进行初步筛选,并建立每篇语料文本的特征表; 步骤13;训练语料类别特征选取;对于每一类别主题事件,对每篇语料的每个特 征根据其对主题类别的贡献率W及对所在语料的贡献率进行特征的筛选,使用卡方统计量 CHI值作为特征选择的指标,最终每个类别提取一定数量的特征,并合并所有事件类别的特 征形成特征集合文件; 步骤14;文本特征向量生成;使用步骤13中生成的特征集合文件,遍历每一篇训 练语料,抽取其中包含的特征,计算相应的特征值,生成特征向量文件,并进行归一化处理, 最终生成SVM训练文件;步骤15;SVM分类模型训练:使用生成的训练文件训练SVM模型,同时通过交叉检 验工具调整参数对模型进行优化;(二)文本分类过程: 步骤21;对待分类的文本进行预处理,生成待分类文本的特征表; 步骤22;使用步骤13生成的特征集合文件抽取待分类文本中的类别特征; 步骤23 ;待分类文本的文本特征向量生成;使用词频值生成文本的特征向量,并 将特征向量进行归一化处理; 步骤24 ;文本分类:使用步骤15训练生成的SVM分类模型,对归一化的待分类文 本特征向量进行分类,得到待分类文本主题类别的预测结果。 本专利技术基于CHI特征选取的文本事件分类方法,利用中文文本事件的语言描述特 征,选取CHI值作为主题特征向量,结合机器学习的方法,实现了有效的文本事件分类。其 优点是分类模型中蕴含所有类型的主题特征信息,因此可W更加准确的实现事件文本的分 类。本专利技术所采用的方法可成功地应用于中文文本数据挖掘的识别、分类、解析与监测过 程,能够有效提升中文文本自然语言处理的解析效率与解析精度。此外,基于CHI特征选取 的文本事件分类方法还能够为信息的进一步抽取奠定有效的技术基础。【附图说明】 图1是本专利技术中文文本事件分类方法流程图; 图2是训练语料类别1特征集合示意图;图3是训练语料生成的特征集合文件示意图;[002引图4是归一化处理后的SVM训练文件; 图5是基于SVM模型形成的分类模型文件; 图6是文本分类结果。【具体实施方式】[002引下面结合附图和实施例,做进一步详细说明。 本方法总体流程参见图1。本实例选取网络新闻报道文稿作为模型训练的原始语 料,共选取9类主题包括;汽车、财经、IT、健康、体育、旅游、教育、招聘、文化W及军事的文 本,每类文本2000篇共18000篇语料,语料类别涵盖了社会生活中绝大多数事件主题,覆盖 度高,特征丰富,语料规模适中,可W提供足够的训练、测试用语料。待分类文本语料选取 "暴雨"事件的网络新闻报道20篇为例,作为实施示例。(一)分类模型训练过程: 步骤11 ;文本训练语料选取;即从网络文本中筛选文本训练语料。 步骤12;文本语料预处理; 将筛选的文本训练语料进行预处理,具体方法如下:a)数据转码处理,将原始筛选文本中各种类别的中文编码格式统一转换为UTF-8 编码格式。 b)将原始语料的格式内容进行初步筛选,过滤无效字符,删除低特征文本。C)文本分词,使用中科院ICTCLAS工具包对文本进行分词处理,建立停用词表,对 文本特征进行初步筛选,并建立每篇语料文本的特征表。 步骤13;训练语料类别特征选取;[003引选取每类语料的特征,并生成特征集合文件,对于每一类别主题事件,并非每篇语 料的所有特征都是有用特征,需要对每个特征针对其对主题类别的贡献率W及对所在语料 的贡献率进行特征的筛选,最终每个类别提取一定数量的特征,并合并所有事件类别的特 征形成特征集合文件,具体方法如下: a)计算CHI指标,使用CHI值作为特征选择的指标,即卡方统计量。某个特征的 CHI值依据W下公式计算: 其中,公式中各个参数的含义,说明如下;t;表示文本特征,[00创 C;表示类别,X2 (t,C);表示文本特征t与类另UC之间的相关关系,N;训练数据集文档总数, A;在一个类别中,包含某个词的文档的数量, B;在一个类别中,排除该类别,其他类别包含某个词的文档的数量, C;在一个类别中,不包含某个词的文档的数量, D;在一个类别中,不包含某个词也不在该类别中的文档的数量,b)特征集合选择,计算每个类别每个特征的CHI值,按照CHI值降序排列,此处选 择前200个特征作为该类别的特征集合,该集合的特征可W最大限度反映类别文本的领域 描述特性,特征集合将作为分类模型的重要依据,W类型一特征的特征集合为例,参见图2。 C)合并所有类别特征集合生成用W模型训练的特征集合文件,参见图3。 步骤14;文本特征向量生成; 使用步骤13中生成的特征集合文件,遍历每一篇训练语料,抽取其中包含的特 征,计算相应的特征值,生成特征向量文件,并进行归一化处理。具体步骤包括:a)通过TF-IDF值计算文本特征值,TF-IDF用W评估字词对于一个文件集或一个 语料库中的其中一份文件的重要程度,字词的重要性随着它在文件中出现的次数成正比增 加,但同时会随着它在语料库当前第1页1 2 本文档来自技高网...

【技术保护点】
基于CHI特征选取的文本事件分类方法,其特征在于,包括如下过程:(一)分类模型训练过程:步骤11:文本训练语料选取,即从网络文本中筛选文本训练语料,选取的语料包括多种类别的主题事件,每类包括多篇语料文本;步骤12:对筛选的文本训练语料进行预处理,具体方法如下:a)数据转码处理,将原始筛选文本中各种类别的中文编码格式统一转换为UTF‑8编码格式,b)将原始语料的格式内容进行初步筛选,过滤无效字符,删除低特征文本,c)文本分词,使用ICTCLAS工具包对文本进行分词处理,建立停用词表,对文本特征进行初步筛选,并建立每篇语料文本的特征表;步骤13:训练语料类别特征选取:对于每一类别主题事件,对每篇语料的每个特征根据其对主题类别的贡献率以及对所在语料的贡献率进行特征的筛选,使用卡方统计量CHI值作为特征选择的指标,最终每个类别提取一定数量的特征,并合并所有事件类别的特征形成特征集合文件;步骤14:文本特征向量生成:使用步骤13中生成的特征集合文件,遍历每一篇训练语料,抽取其中包含的特征,计算相应的特征值,生成特征向量文件,并进行归一化处理,最终生成SVM训练文件;步骤15:SVM分类模型训练:使用生成的训练文件训练SVM模型,同时通过交叉检验工具调整参数对模型进行优化;(二)文本分类过程:步骤21:对待分类的文本进行预处理,生成待分类文本的特征表;步骤22:使用步骤13生成的特征集合文件抽取待分类文本中的类别特征;步骤23:待分类文本的文本特征向量生成:使用词频值生成文本的特征向量,并将特征向量进行归一化处理;步骤24:文本分类:使用步骤15训练生成的SVM分类模型,对归一化的待分类文本特征向量进行分类,得到待分类文本主题类别的预测结果。...

【技术特征摘要】

【专利技术属性】
技术研发人员:张雪英王曙顾佳诚廖健平朱瑞军
申请(专利权)人:南京师范大学
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1