基于词向量模型的95598工单文本挖掘方法和装置制造方法及图纸

技术编号:17705102 阅读:46 留言:0更新日期:2018-04-14 18:01
本发明专利技术公开了一种基于词向量模型的95598工单文本挖掘方法和装置,获取95598工单文本,并对95598工单文本进行分词处理,得到电力工单语料库;采用Word2vec模型对电力工单语料库进行训练,得到词向量;将词向量输入Word2vec模型,构建电力工单词典,并调整电力工单语料库中分词;结合电力工单语料库,利用TF‑IDF方法赋权得到段落向量;将段落向量输入SVM分类器进行训练,得到电力工单文本分类模型。本发明专利技术采用神经网络语言模型对工单文本进行训练,形成词向量,在词向量的基础上,作为其他模型的输入,实现进一步的文本挖掘分析,能够帮助客服人员了解客户诉求,提供更优质便捷的服务。

【技术实现步骤摘要】
基于词向量模型的95598工单文本挖掘方法和装置
本专利技术涉及工单文本挖掘领域,具体涉及一种基于词向量模型的95598工单文本挖掘方法和装置。
技术介绍
95598客服中心作为电网公司与客户交流的窗口,每天都要处理大量来自客户的诉求,形成大量的工单文本数据。目前,针对电力工单数据的文本挖掘已经取得进展,但在方法上仍有可以改进之处。当前电力工单文本挖掘(TextMining)主要有语料分析、文本分类(Textclassification)两方面,如客户诉求分析、客户满意度预测,电力标签特征词典、工单自动分类。文本挖掘最基础的环节就是文本表示,电力工单的文本表示多采用LDA主题模型进行特征提取。主题模型可以实现有效的降维,发现文档的潜在主题,但是主题模型需要大量的样本进行学习,训练难度大并且非常耗时,影响了分类的效率,而且无法捕捉词与词之间的共现关系。综上所述,现有技术中对于电力工单的文本训练难度大,分类效率低,无法捕捉词与词之间的共现关系的不足,尚缺乏有效的解决方案。
技术实现思路
为了克服上述现有技术的不足,本专利技术提供了一种基于词向量模型的95598工单文本挖掘方法和装置,采用神经网络语言模型进行训练得到词向量,在词向量的基础上进行相应文本挖掘。本专利技术所采用的技术方案是:一种基于词向量模型的95598工单文本挖掘方法,包括以下步骤:获取95598工单文本,并对95598工单文本进行分词处理,得到电力工单语料库;采用Word2vec模型对电力工单语料库进行训练,得到词向量;将词向量输入Word2vec模型,构建电力工单词典,并调整电力工单语料库中分词;结合电力工单语料库,利用TF-IDF方法赋权得到段落向量;将段落向量输入SVM分类器进行训练,得到电力工单文本分类模型。进一步的,所述95598工单文本包括故障报修、业务咨询、服务申请、信息查询、意见、投诉、客户催办、综合业务举报、表扬、建议、订阅信息和业扩报装工单文本。进一步的,所述获取95598工单文本,并对95598工单文本进行分词处理,得到电力工单语料库,包括:运用数据采集工具获取用于训练的95598工单文本;结合工单文本相关的词典和jieba分词工具对95598工单文本进行中文文本预处理,得到电力工单语料库。进一步的,所述中文文本预处理包括分词处理和去停用词处理两个过程。进一步的,所述采用Word2vec模型对电力工单语料库进行训练,得到词向量,包括:利用Word2vec模型对电力工单语料库进行训练,得到模型文件,该模型文件包括电力工单文本词语及其对应的词向量;输出电力工单文本词语及其对应的词向量。进一步的,所述将词向量输入Word2vec模型,构建电力工单词典,并调整电力工单语料库中分词,包括:读取模型文件中每一个词和其对应的词向量;将词向量作为Word2vec模型的输入,利用Word2vec模型附带函数,计算所输入的词向量与其他所有词的余弦相似度;如果两个词的余弦相似度超过阈值,则将该词补充到电力工单词典中;利用电力工单词典中词语来调整电力工单语料库中句子的分词。进一步的,所述结合电力工单语料库,利用TF-IDF方法赋权得到段落向量,包括:结合电力工单语料库中语句,根据词频利用TF-IDF方法对语句中词向量赋权;将赋权后的词向量相加来构造段落向量,来表示句子特征。进一步的,所述将段落向量输入SVM分类器进行训练,得到电力工单文本分类模型,包括:将段落向量进行预处理,根据专家经验添加类别标识,得到作为分类器输入的向量集合;从向量集合中选取一定量的数据作为训练集合,一定量的数据作为测试集合;利用libsvm工具构建训练工单文本分类器;将训练集合数据输入训练工单文本分类器进行训练,得到工单文本分类模型;将测试集合数据输入训练工单文本分类器,验证工单文本分类模型分类的精度,并进行交叉验证,调整工单文本分类模型参数,得到高精度的工单文本分类模型。一种计算机装置,用于95598工单文本挖掘,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现以下步骤,包括:获取95598工单文本,并对95598工单文本进行分词处理,得到电力工单语料库;采用Word2vec模型对电力工单语料库进行训练,得到词向量;将词向量输入Word2vec模型,构建电力工单词典,并调整电力工单语料库分词;结合电力工单语料库,利用TF-IDF方法赋权得到段落向量;将段落向量输入SVM分类模型进行训练,得到电力工单文本分类模型。一种计算机可读存储介质,其上存储有用于95598工单文本挖掘的计算机程序,该程序被处理器执行时实现以下步骤:获取95598工单文本,并对95598工单文本进行分词处理,得到电力工单语料库;采用Word2vec模型对电力工单语料库进行训练,得到词向量;将词向量输入Word2vec模型,构建电力工单词典,并调整电力工单语料库分词;结合电力工单语料库,利用TF-IDF方法赋权得到段落向量;将段落向量输入SVM分类模型进行训练,得到电力工单文本分类模型。与现有技术相比,本专利技术的有益效果是:(1)本专利技术结合电力工单特点,通过分析电力工单文本挖掘的现状,运用神经网络语言模型对工单文本进行训练,形成词向量;在词向量的基础上,作为其他模型的输入,实现进一步的文本挖掘分析,能够帮助客服人员了解客户诉求,提供更优质便捷的服务;(2)本专利技术通过词向量找寻与已有词汇相似的词补充加入到电力工单词典中,不断丰富词典内容;利用电力工单语料库,利用TF-IDF方法赋权得到段落向量段落向量,将段落向量作为SVM多分类的输入进行训练分类,构建分类模型,提高了分类模型的精度,满足实际分类需要。附图说明构成本申请的一部分的说明书附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。图1是本专利技术实施例公开的基于词向量模型的95598工单文本挖掘方法流程图;图2a是本专利技术实施例公开的CBoW结构图;图2b是本专利技术实施例公开的Skip-gram结构图;图3是本专利技术实施例公开的训练生成95598工单文本的词向量流程图;图4是本专利技术实施例公开的词向量结构图。具体实施方式应该指出,以下详细说明都是例示性的,旨在对本申请提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本申请所属
的普通技术人员通常理解的相同含义。需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。实施例一如图1所示,本实施例提供了一种基于词向量模型的95598工单文本挖掘方法,包括以下步骤:步骤101:对95598工单文本进行预处理,训练生成95598工单文本的词向量词向量(wordembedding)将每个词映射成一个固定长度的短向量,既能够降低维度,又能够把词与上下文的联系体现出来。词向量可以通过神经网络训练语言模型可以得到。神经网络语言模型(NNLM)由Bengio等人于2001年正本文档来自技高网
...
基于词向量模型的95598工单文本挖掘方法和装置

【技术保护点】
一种基于词向量模型的95598工单文本挖掘方法,其特征是,包括以下步骤:获取95598工单文本,并对95598工单文本进行分词处理,得到电力工单语料库;采用Word2vec模型对电力工单语料库进行训练,得到词向量;将词向量输入Word2vec模型,构建电力工单词典,并调整电力工单语料库中分词;结合电力工单语料库,利用TF‑IDF方法赋权得到段落向量;将段落向量输入SVM分类器进行训练,得到电力工单文本分类模型。

【技术特征摘要】
1.一种基于词向量模型的95598工单文本挖掘方法,其特征是,包括以下步骤:获取95598工单文本,并对95598工单文本进行分词处理,得到电力工单语料库;采用Word2vec模型对电力工单语料库进行训练,得到词向量;将词向量输入Word2vec模型,构建电力工单词典,并调整电力工单语料库中分词;结合电力工单语料库,利用TF-IDF方法赋权得到段落向量;将段落向量输入SVM分类器进行训练,得到电力工单文本分类模型。2.根据权利要求1所述的基于词向量模型的95598工单文本挖掘方法,其特征是,所述95598工单文本包括故障报修、业务咨询、服务申请、信息查询、意见、投诉、客户催办、综合业务举报、表扬、建议、订阅信息和业扩报装工单文本。3.根据权利要求1所述的基于词向量模型的95598工单文本挖掘方法,其特征是,所述获取95598工单文本,并对95598工单文本进行分词处理,得到电力工单语料库,包括:运用数据采集工具获取用于训练的95598工单文本;结合工单文本相关的词典和jieba分词工具对95598工单文本进行中文文本预处理,得到电力工单语料库。4.根据权利要求3所述的基于词向量模型的95598工单文本挖掘方法,其特征是,所述中文文本预处理包括分词处理和去停用词处理两个过程。5.根据权利要求3所述的基于词向量模型的95598工单文本挖掘方法,其特征是,所述采用Word2vec模型对电力工单语料库进行训练,得到词向量,包括:利用Word2vec模型对电力工单语料库进行训练,得到模型文件,该模型文件包括电力工单文本词语及其对应的词向量;输出电力工单文本词语及其对应的词向量。6.根据权利要求5所述的基于词向量模型的95598工单文本挖掘方法,其特征是,所述将词向量输入Word2vec模型,构建电力工单词典,并调整电力工单语料库中分词,包括:读取模型文件中每一个词和其对应的词向量;将词向量作为Word2vec模型的输入,使用Word2vec模型附带函数,计算所输入的词向量与其他所有词的余弦相似度;如果两个词的余弦相似度超过阈值,则将该词补充到电力工单词典中;利用电力工单词典中词语来调整电力工单语料...

【专利技术属性】
技术研发人员:谢季川宗振国刘宏国张春秋田晓孙国梁秦子炀郝一儒
申请(专利权)人:国网山东省电力公司电力科学研究院国家电网公司
类型:发明
国别省市:山东,37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1