一种文本处理方法和系统技术方案

技术编号：14774562 阅读：92 留言：0更新日期：2017-03-09 12:06

本发明专利技术公开了一种文本处理方法和系统，所述文本处理方法包括：S1、建立分类超平面函数；以及S2：通过分类超平面函数，对新输入的文本进行预测；其中，所述步骤S1具体为：S10：对文本进行分词处理，建立词条文档矩阵；S20：通过决策树算法从词条文档矩阵中提取特征；S30：构造分类超平面函数。本发明专利技术的文本处理方法和系统，将存储的文本进行分词处理后，提取该文本的句子特征，根据决策树算法进行特征的提取，以此降低支持向量机中模型训练点维数，缩短训练时间。根据决策树训练提取了文本的特征向量，根据该特征向量采用多核的支持向量机算法进行文本分类，具有计算准确，模型训练样本少，训练时间短，文本分类准确率高的特点。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及智能文本信息处理
，特别涉及一种文本处理方法和系统。
技术介绍
社会化大数据中80％是非结构化数据，非结构化大数据处理是大数据面临的最大挑战。结构化数据分析不能充分挖掘发现大数据中的语义。非结构化文本挖掘的挑战在于：语言多样性带来的维护挑战，包括文本中的语言表达方式多种多样，缩写、简写等不规范用法普遍存在，需要穷举所有语言表达方式，业务人员陷入语言表达细节，维护困难；业务分类及规则多变化快带来的维护挑战：业务分类多，分类变化快，每次分类变化时，需要把相关的所有分类的语言规则重新梳理，维护工作量巨大，维护效率低；多语种同步处理带来的挑战：不同语种的挖掘需要同时分析，需要对每种语言单独建立规则，要求维护的业务人员掌握多语种，对维护人员要求太高；文本中噪音大带来的分类挑战：文本长短不一，其中的关联性错综复杂，无法使用关键词统计的方法达到很好的挖掘效果。而现有的技术一般采用统计方法进行文本挖掘，没有考虑到业务人员的需求，只提供挖掘算法，给业务人员带来了很多的困扰。文本挖掘技术面临的问题是，如何从一篇或海量非结构化文本中分析挖掘出用户关心的有价值的信息，让业务人员从业务角度定义挖掘需求和挖掘规则，而无需考虑文本中语言表达习惯的多样性带来的语言歧义问题。因此，亟待出现一种无需考虑文本中语言表达习惯的多样性带来的语言歧义问题而对非结构化文本进行有效挖掘的文本处理方法和系统。
技术实现思路
针对上述技术问题，本专利技术提供一种无需考虑文本中语言表达习惯的多样性带来的语言歧义问题而对非结构化文本进行挖掘的文本处理方法以及文本处理系统。本专利技术解决技术问题...
一种文本处理方法和系统

【技术保护点】
一种文本处理方法，其特征在于，包括：S1、建立分类超平面函数；以及S2：通过分类超平面函数，对新输入的文本进行预测；其中，所述步骤S1具体为：S10：对文本进行分词处理，建立词条文档矩阵；S20：通过决策树算法从词条文档矩阵中提取特征；S30：构造分类超平面函数。

【技术特征摘要】
1.一种文本处理方法，其特征在于，包括：S1、建立分类超平面函数；以及S2：通过分类超平面函数，对新输入的文本进行预测；其中，所述步骤S1具体为：S10：对文本进行分词处理，建立词条文档矩阵；S20：通过决策树算法从词条文档矩阵中提取特征；S30：构造分类超平面函数。2.根据权利要求1所述的文本处理方法，其特征在于，所述步骤S10包括：将文本读入到R语言程序中，运用分词工具或用户定义的分词规则将所述文本拆分成单个的词，并统计每个词出现的词频；使用至少一个向量将该文本表示成布尔矩阵和词频矩阵的形式。3.根据权利要求2所述的文本处理方法，其特征在于，所述布尔矩阵中，使用0...

【专利技术属性】
技术研发人员：张斌德，夏珺峥，李彩虹，
申请(专利权)人：国信优易数据有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人