一种并行化的电力设备缺陷文本分类方法技术

技术编号:17939795 阅读:59 留言:0更新日期:2018-05-15 20:11
本发明专利技术公开了一种并行化的电力设备缺陷文本分类方法,将领域词库加入到用户词典中,对缺陷案例进行预处理,进行分词和去停用词;利用爬虫算法,收集电网故障案例的文本语料,利用Spark的word2vec进行训练,获取该领域的词向量表示;将获取的缺陷案例和词向量进行向量化表示,将缺陷案例进行文本表示,形成矩阵;将矩阵输入到SVM多分类器中,进行训练与分类,得到分类结果。

A parallel text classification method for power equipment defects

The invention discloses a parallel method for classification of defective text in power equipment, adding a domain word library to a user's dictionary, preprocessing the defect cases, dividing words and discontinuing words; using the crawler algorithm to collect the text data of the fault case of the power grid, and training the field by using the word2vec of Spark to obtain this field. The word vector is expressed, the defect case and the word vector are expressed in quantization, the text of the defect is expressed and the matrix is formed; the matrix is input into the multiple classifier of SVM to be trained and classified, and the classification results are obtained.

【技术实现步骤摘要】
一种并行化的电力设备缺陷文本分类方法
本专利技术涉及一种并行化的电力设备缺陷文本分类方法。
技术介绍
文本分类算法主要包含预处理、文本特征抽取、文本表示、分类计算这四个步骤。其中中文文本的预处理步骤主要包含分词、去停用词;文本特征抽取主要有tfidf、textrank为代表的基于词频统计的方法和lda为代表的基于主题模型的方法;文本表示主要有不考虑上下文语境的one-hot方式和基于word2vec的方式;最后的分类步骤对于一般的分类挖掘算法均可纳入考虑。在特定领域的文本分类任务中,主要需考虑的问题就是结合领域的语言和专业的特点,在预处理、特征抽取等步骤进行相应的算法调整。文本分类过程中还需要根据分类对象的规模特点进行相应的算法改进,通常情况下,对于长文本可以直接使用上述流程进行分类,且分类效果一般会好于短文本,主要是因为长文本的信息含量较为充足,相比而言,短文本在分类过程中直接使用上述流程,会导致短文本本就贫乏的特征有所损失,因此通常会考虑只进行停用词的过滤,而不再通过tfidf等算法进一步的进行关键词的筛选。在电力缺陷文本中,对于缺陷的严重程度的分类,在以往都是人工根据经验对缺陷本文档来自技高网...
一种并行化的电力设备缺陷文本分类方法

【技术保护点】
一种并行化的电力设备缺陷文本分类方法,其特征是:包括以下步骤:(1)将领域词库加入到用户词典中,对缺陷案例进行预处理,进行分词和去停用词;(2)利用爬虫算法,收集电网故障案例的文本语料,利用Spark的word2vec进行训练,获取该领域的词向量表示;(3)将步骤(1)得到的原始缺陷案例中的词语转化为步骤(2)对应的词向量,并将案例数据进行文本表示,构成矩阵的形式;(4)将矩阵输入到SVM多分类器中,进行训练与分类,得到分类结果。

【技术特征摘要】
1.一种并行化的电力设备缺陷文本分类方法,其特征是:包括以下步骤:(1)将领域词库加入到用户词典中,对缺陷案例进行预处理,进行分词和去停用词;(2)利用爬虫算法,收集电网故障案例的文本语料,利用Spark的word2vec进行训练,获取该领域的词向量表示;(3)将步骤(1)得到的原始缺陷案例中的词语转化为步骤(2)对应的词向量,并将案例数据进行文本表示,构成矩阵的形式;(4)将矩阵输入到SVM多分类器中,进行训练与分类,得到分类结果。2.如权利要求1所述的一种并行化的电力设备缺陷文本分类方法,其特征是:所述步骤(1)和步骤(2)的顺序互换。3.如权利要求1所述的一种并行化的电力设备缺陷文本分类方法,其特征是:所述步骤(1)中,进行分词的处理方法为:将文本数据从HDFS上读取到程序的数据结构中,每一行为一条文本数据,存储的数据结构为RDD[String]形式。4.如权利要求3所述的一种并行化的电力设备缺陷文本分类方法,其特征是:将领域词库导入到ansj的用户词库中,调用ansj中的Library.makeForest接口将领域词典导入,将分词词库进行补全,得到完整词库,作为分词的依据;利用Spark的map操作对于每一个语料进行分词处理,采用精准分词,即调用ansj中的ToAnalysis.parse接口,利用map算子对于每一条语句同时并行地进行分词处理。5.如权利要求1所述的一种并行化的电力设备缺陷文本分类方法,其特征是:所述步骤(1)中,进行停用词的处理方法为:将停用词表从HDFS上导入到程序的数据结构中,原始输入为每一行为一个停用词的格式,存储的数据结构为RDD[String]形式;利用Spark的map算子对于每一个分完词的结果进行去停用词操作,比照划分得到的每一个词语,凡是在停用词集合中的过滤掉,同时利用map算子对于每一条文本同时地进行停用词过滤;将结果整理成RDD[Array[String]]格式,每一行为一个案例的处理结果,每条结果的格式为若干词语,中间用空格的形式隔开,将处理...

【专利技术属性】
技术研发人员:杨祎宇文梦柯王智翔白德盟辜超郭志红陈玉峰闫丹凤李贞林颖李程启秦佳峰郑文杰李娜
申请(专利权)人:国网山东省电力公司电力科学研究院北京邮电大学国家电网公司
类型:发明
国别省市:山东,37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1