基于词向量模型的95598工单文本挖掘方法和装置制造方法及图纸

技术编号：17705102 阅读：46 留言：0更新日期：2018-04-14 18:01

本发明专利技术公开了一种基于词向量模型的95598工单文本挖掘方法和装置，获取95598工单文本，并对95598工单文本进行分词处理，得到电力工单语料库；采用Word2vec模型对电力工单语料库进行训练，得到词向量；将词向量输入Word2vec模型，构建电力工单词典，并调整电力工单语料库中分词；结合电力工单语料库，利用TF‑IDF方法赋权得到段落向量；将段落向量输入SVM分类器进行训练，得到电力工单文本分类模型。本发明专利技术采用神经网络语言模型对工单文本进行训练，形成词向量，在词向量的基础上，作为其他模型的输入，实现进一步的文本挖掘分析，能够帮助客服人员了解客户诉求，提供更优质便捷的服务。

全部详细技术资料下载

【技术实现步骤摘要】
基于词向量模型的95598工单文本挖掘方法和装置
本专利技术涉及工单文本挖掘领域，具体涉及一种基于词向量模型的95598工单文本挖掘方法和装置。
技术介绍
95598客服中心作为电网公司与客户交流的窗口，每天都要处理大量来自客户的诉求，形成大量的工单文本数据。目前，针对电力工单数据的文本挖掘已经取得进展，但在方法上仍有可以改进之处。当前电力工单文本挖掘(TextMining)主要有语料分析、文本分类(Textclassification)两方面，如客户诉求分析、客户满意度预测，电力标签特征词典、工单自动分类。文本挖掘最基础的环节就是文本表示，电力工单的文本表示多采用LDA主题模型进行特征提取。主题模型可以实现有效的降维，发现文档的潜在主题，但是主题模型需要大量的样本进行学习，训练难度大并且非常耗时，影响了分类的效率，而且无法捕捉词与词之间的共现关系。综上所述，现有技术中对于电力工单的文本训练难度大，分类效率低，无法捕捉词与词之间的共现关系的不足，尚缺乏有效的解决方案。
技术实现思路
为了克服上述现有技术的不足，本专利技术提供了一种基于词向量模型的95598工单文本挖掘方法和装置，采用神经网络语言模型进行训练得到词向量，在词向量的基础上进行相应文本挖掘。本专利技术所采用的技术方案是：一种基于词向量模型的95598工单文本挖掘方法，包括以下步骤：获取95598工单文本，并对95598工单文本进行分词处理，得到电力工单语料库；采用Word2vec模型对电力工单语料库进行训练，得到词向量；将词向量输入Word2vec模型，构建电力工单词典，并调整电力工单语料库中分词；...
基于词向量模型的95598工单文本挖掘方法和装置

【技术保护点】
一种基于词向量模型的95598工单文本挖掘方法，其特征是，包括以下步骤：获取95598工单文本，并对95598工单文本进行分词处理，得到电力工单语料库；采用Word2vec模型对电力工单语料库进行训练，得到词向量；将词向量输入Word2vec模型，构建电力工单词典，并调整电力工单语料库中分词；结合电力工单语料库，利用TF‑IDF方法赋权得到段落向量；将段落向量输入SVM分类器进行训练，得到电力工单文本分类模型。

【技术特征摘要】
1.一种基于词向量模型的95598工单文本挖掘方法，其特征是，包括以下步骤：获取95598工单文本，并对95598工单文本进行分词处理，得到电力工单语料库；采用Word2vec模型对电力工单语料库进行训练，得到词向量；将词向量输入Word2vec模型，构建电力工单词典，并调整电力工单语料库中分词；结合电力工单语料库，利用TF-IDF方法赋权得到段落向量；将段落向量输入SVM分类器进行训练，得到电力工单文本分类模型。2.根据权利要求1所述的基于词向量模型的95598工单文本挖掘方法，其特征是，所述95598工单文本包括故障报修、业务咨询、服务申请、信息查询、意见、投诉、客户催办、综合业务举报、表扬、建议、订阅信息和业扩报装工单文本。3.根据权利要求1所述的基于词向量模型的95598工单文本挖掘方法，其特征是，所述获取95598工单文本，并对95598工单文本进行分词处理，得到电力工单语料库，包括：运用数据采集工具获取用于训练的95598工单文本；结合工单文本相关的词典和jieba分词工具对95598工单文本进行中文文本预处理，得到电力工单语料库。4.根据权利要求3所述的基于词向量模型的95598工单文本挖掘方法，其特征是，所述中文文本预处理包括分词处理和去停用词处理两个过程。5.根据权利要求3所述的基于词向量模型的95598工单文本挖掘方法，其特征是，所述采用Word2vec模型对电力工单语料库进行训练，得到词向量，包括：利用Word2vec模型对电力工单语料库进行训练，得到模型文件，该模型文件包括电力工单文本词语及其对应的词向量；输出电力工单文本词语及其对应的词向量。6.根据权利要求5所述的基于词向量模型的95598工单文本挖掘方法，其特征是，所述将词向量输入Word2vec模型，构建电力工单词典，并调整电力工单语料库中分词，包括：读取模型文件中每一个词和其对应的词向量；将词向量作为Word2vec模型的输入，使用Word2vec模型附带函数，计算所输入的词向量与其他所有词的余弦相似度；如果两个词的余弦相似度超过阈值，则将该词补充到电力工单词典中；利用电力工单词典中词语来调整电力工单语料...

【专利技术属性】
技术研发人员：谢季川，宗振国，刘宏国，张春秋，田晓，孙国梁，秦子炀，郝一儒，
申请(专利权)人：国网山东省电力公司电力科学研究院，国家电网公司，
类型：发明
国别省市：山东,37

全部详细技术资料下载我是这个专利的主人