一种文本处理方法和系统技术方案

技术编号:14774562 阅读:92 留言:0更新日期:2017-03-09 12:06
本发明专利技术公开了一种文本处理方法和系统,所述文本处理方法包括:S1、建立分类超平面函数;以及S2:通过分类超平面函数,对新输入的文本进行预测;其中,所述步骤S1具体为:S10:对文本进行分词处理,建立词条文档矩阵;S20:通过决策树算法从词条文档矩阵中提取特征;S30:构造分类超平面函数。本发明专利技术的文本处理方法和系统,将存储的文本进行分词处理后,提取该文本的句子特征,根据决策树算法进行特征的提取,以此降低支持向量机中模型训练点维数,缩短训练时间。根据决策树训练提取了文本的特征向量,根据该特征向量采用多核的支持向量机算法进行文本分类,具有计算准确,模型训练样本少,训练时间短,文本分类准确率高的特点。

【技术实现步骤摘要】

本专利技术涉及智能文本信息处理
,特别涉及一种文本处理方法和系统
技术介绍
社会化大数据中80%是非结构化数据,非结构化大数据处理是大数据面临的最大挑战。结构化数据分析不能充分挖掘发现大数据中的语义。非结构化文本挖掘的挑战在于:语言多样性带来的维护挑战,包括文本中的语言表达方式多种多样,缩写、简写等不规范用法普遍存在,需要穷举所有语言表达方式,业务人员陷入语言表达细节,维护困难;业务分类及规则多变化快带来的维护挑战:业务分类多,分类变化快,每次分类变化时,需要把相关的所有分类的语言规则重新梳理,维护工作量巨大,维护效率低;多语种同步处理带来的挑战:不同语种的挖掘需要同时分析,需要对每种语言单独建立规则,要求维护的业务人员掌握多语种,对维护人员要求太高;文本中噪音大带来的分类挑战:文本长短不一,其中的关联性错综复杂,无法使用关键词统计的方法达到很好的挖掘效果。而现有的技术一般采用统计方法进行文本挖掘,没有考虑到业务人员的需求,只提供挖掘算法,给业务人员带来了很多的困扰。文本挖掘技术面临的问题是,如何从一篇或海量非结构化文本中分析挖掘出用户关心的有价值的信息,让业务人员从业务角度定义挖掘需求和挖掘规则,而无需考虑文本中语言表达习惯的多样性带来的语言歧义问题。因此,亟待出现一种无需考虑文本中语言表达习惯的多样性带来的语言歧义问题而对非结构化文本进行有效挖掘的文本处理方法和系统。
技术实现思路
针对上述技术问题,本专利技术提供一种无需考虑文本中语言表达习惯的多样性带来的语言歧义问题而对非结构化文本进行挖掘的文本处理方法以及文本处理系统。本专利技术解决技术问题采用如下技术方案:一种文本处理方法,其包括:S1、建立分类超平面函数;以及S2:通过分类超平面函数,对新输入的文本进行预测;其中,所述步骤S1具体为:S10:对文本进行分词处理,建立词条文档矩阵;S20:通过决策树算法从词条文档矩阵中提取特征;S30:构造分类超平面函数。可选的,所述步骤S10包括:将文本读入到R语言程序中,运用分词工具或用户定义的分词规则将所述文本拆分成单个的词,并统计每个词出现的词频;使用至少一个向量将该文本表示成布尔矩阵和词频矩阵的形式。可选的,所述布尔矩阵中,使用0和1表示特征值,如果第i个特征值在文本中出现,定义该文本特征向量的第i个分量值ti=1,否则ti=0,i=1,2,…,n。可选的,所述词频矩阵表示的特征词在文本中出现的次数,其中每一行代表一个文本向量,每列代表一个特征词,矩阵中的特征值ti代表特征词出现的次数。可选的,所述步骤S20中,计算训练数据集D的经验熵H(D):式中,D表示训练数据集,|D|表示其样本容量,设有K个类Ck,k=1,2,…K,K为自然数,|Ck|为属于Ck的样本个数;设特征A有n个不同的取值{a1,a2,…,an本文档来自技高网...
一种文本处理方法和系统

【技术保护点】
一种文本处理方法,其特征在于,包括:S1、建立分类超平面函数;以及S2:通过分类超平面函数,对新输入的文本进行预测;其中,所述步骤S1具体为:S10:对文本进行分词处理,建立词条文档矩阵;S20:通过决策树算法从词条文档矩阵中提取特征;S30:构造分类超平面函数。

【技术特征摘要】
1.一种文本处理方法,其特征在于,包括:S1、建立分类超平面函数;以及S2:通过分类超平面函数,对新输入的文本进行预测;其中,所述步骤S1具体为:S10:对文本进行分词处理,建立词条文档矩阵;S20:通过决策树算法从词条文档矩阵中提取特征;S30:构造分类超平面函数。2.根据权利要求1所述的文本处理方法,其特征在于,所述步骤S10包括:将文本读入到R语言程序中,运用分词工具或用户定义的分词规则将所述文本拆分成单个的词,并统计每个词出现的词频;使用至少一个向量将该文本表示成布尔矩阵和词频矩阵的形式。3.根据权利要求2所述的文本处理方法,其特征在于,所述布尔矩阵中,使用0...

【专利技术属性】
技术研发人员:张斌德夏珺峥李彩虹
申请(专利权)人:国信优易数据有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1