本申请实施例提出了基于神经网络语言模型向量化的文本处理方法,包括从电网文本文件中提取文本信息,使用词向量算法在相似度距离维度对文本信息进行分类;对表征相似度距离的分类结果进行编码处理得到编码后的数字串;基于得到的数字串按业务需求拼接得到全量全字段的明细数据宽表;从明细数据宽表中选取数据实体,确定数据实体在电网文本中的具体位置以及所属类型,基于数据实体为基础进行完整文本提取。通过使用向量化方式基于空间相似度对电力文本进行归类和提取,能够弥补现有基础中无法对文本数据进行直接运算处理的缺陷,从而提升了处理效率。
Text processing method based on neural network language model Vectorization
【技术实现步骤摘要】
基于神经网络语言模型向量化的文本处理方法
本专利技术属于文本处理领域,尤其涉及基于神经网络语言模型向量化的文本处理方法。
技术介绍
数据清洗是数据挖掘工程中十分重要的一个环节,它是进行特征工程的基础环节,特征工程的优劣往往决定了数据挖掘算法的上限。本项目涉及的数据字段较多,包括各种文本型和数值型的数据,需要逐一进行去重、缺失值、错误值的判断和处理。某些字段的取值过于集中,方差接近于0,这种字段包含的信息十分有限,也是需要舍弃的。例如,“来源”字段的取值全部为相同值,也就是方差为0,此时该字段对模型的贡献的为0,应当舍弃。关键数值型字段的统计指标如图2所示,包括记录数、均值、标准差等。不同于图像、语音等,文本数据则以字符为基本单位,不能直接进行数值运算。
技术实现思路
为了解决现有技术中存在的缺点和不足,本专利技术提出了基于神经网络语言模型向量化的文本处理方法,借助空间向量化处理方式对电网文本文件进行处理,能够实现完整的文本提取,解决了无法直接进行文本提出的缺陷。具体的,本申请实施例提出的基于神经网络语言模型向量化的文本处理方法,所述文本处理方法,包括:从电网文本文件中提取文本信息,使用词向量算法在相似度距离维度对文本信息进行分类;对表征相似度距离的分类结果进行编码处理得到编码后的数字串;基于得到的数字串按业务需求拼接得到全量全字段的明细数据宽表;从明细数据宽表中选取数据实体,确定数据实体在电网文本中的具体位置以及所属类型,基于数据实体为基础进行完整文本提取。可选的,所述使用词向量算法在相似度距离维度对文本信息进行分类,包括:使用了词向量WordVector算法对文本信息进行分类,得到分类后代表相似度高低的分类结果。可选的,所述对表征相似度距离的分类结果进行编码处理得到编码后的数字串,包括:使用One-Hot编码算法对分类结果进行编码,转化为0和1组成的数字串。可选的,所述基于得到的数字串按业务需求拼接得到全量全字段的明细数据宽表,包括:以抢修单编号为关联字段,将环境因素、报修工单、抢修反馈工单、相关业务参数等集成拼接成全量全字段的明细数据宽表。可选的,所述从明细数据宽表中选取数据实体,确定数据实体在电网文本中的具体位置以及所属类型,基于数据实体为基础进行完整文本提取,包括:从代表明细数据宽表的非结构化文本选取数据实体,并标注出具体位置以及所属类型;基于数据实体的语法格式,通过对小样本标签进行训练实现完整文本的提取。本专利技术提供的技术方案带来的有益效果是:通过使用向量化方式基于空间相似度对电力文本进行归类和提取,能够弥补现有基础中无法对文本数据进行直接运算处理的缺陷,从而提升了处理效率。附图说明为了更清楚地说明本专利技术的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本申请实施例提出的基于神经网络语言模型向量化的文本处理方法的流程示意图;图2为在向量空间中使用WordVector技术向量化的抢修文本的示意图;图3为实体提取示意图。具体实施方式为使本专利技术的结构和优点更加清楚,下面将结合附图对本专利技术的结构作进一步地描述。实施例一具体的,本申请实施例提出的基于神经网络语言模型向量化的文本处理方法,如图1所示,所述文本处理方法,包括:11、从电网文本文件中提取文本信息,使用词向量算法在相似度距离维度对文本信息进行分类;12、对表征相似度距离的分类结果进行编码处理得到编码后的数字串;13、基于得到的数字串按业务需求拼接得到全量全字段的明细数据宽表;14、从明细数据宽表中选取数据实体,确定数据实体在电网文本中的具体位置以及所属类型,基于数据实体为基础进行完整文本提取。在实施中,计算机系统中,图像、语音等多媒体以采样值为基本单位,可以直接进行数值运算。不同于图像、语音等,文本数据则以字符为基本单位,不能直接进行数值运算。因此,在进行文本挖掘之前,首先要将文本数据转换为数值型数据。由于数据中存在大量文本型的字段,不能直接进行数值计算,需要将其转换为数值型数据。常见的转换方法有One-hot编码、词向量等。具体的,步骤11提出的使用词向量算法在相似度距离维度对文本信息进行分类,包括:使用了词向量WordVector算法对文本信息进行分类,得到分类后代表相似度高低的分类结果。自然语言处理技术中,将文本数值化的过程称为文本的向量化表示过程,并且文本表示的效果对后续的文本挖掘任务有十分直接的影响。传统的文本表示方法随着文本规模的增大存在特征维度过高、数据稀疏、无法保留词序信息、存在语义鸿沟等缺陷。自深度学习兴起后,一种来源于神经网络语言模型(NeuralNetworkLanguageModel,NNLM)的分布式表示方法——词向量,被提出并大规模使用。本项目在文本向量化的过程中使用了一种词向量技术WordVector。经过WordVector向量化表示的文本,在向量空间中将具有语义上的相似度,这将对后续的挖掘任务带来积极的影响。包括电力行业中常用的“保护装置”、“断路器”、“短路”、“断线”、“设备漏电”、“配电运检室”、“抢修班”、“运检班”、“抢修一班”、“抢修二班”在内的图2,展示了使用WordVector技术向量化的抢修文本,它们在图示的2维向量空间中,相似度较大的文本距离较近,相似度较小的文本则相聚较远。可选的,所述对表征相似度距离的分类结果进行编码处理得到编码后的数字串,包括:使用One-Hot编码算法对分类结果进行编码,转化为0和1组成的数字串。One-Hot编码,又称为一位有效编码,主要是采用N位状态寄存器来对N个状态进行编码,每个状态都由他独立的寄存器位,并且在任意时候只有一位有效。独热向量处理一般紧随字符编码处理之后,由于枚举类型的数据在发生概率上是相同的,不能让电脑认为2比1重要,将数据映射在高维矩阵中,使它们对原点的距离都为1,让电脑认为它们同等重要。因此,需要将设备型号、用电类别等枚举型数据进行独热向量处理,转化为0和1组成的数字串。可选的,所述基于得到的数字串按业务需求拼接得到全量全字段的明细数据宽表,包括:以抢修单编号为关联字段,将环境因素、报修工单、抢修反馈工单、相关业务参数等集成拼接成全量全字段的明细数据宽表。以抢修单编号为关联字段,将环境因素、报修工单、抢修反馈工单、相关业务参数等集成拼接成全量全字段的明细数据宽表以满足数据挖掘分析需求。可选的,所述从明细数据宽表中选取数据实体,确定数据实体在电网文本中的具体位置以及所属类型,基于数据实体为基础进行完整文本提取,包括:从代表明细数据宽表的非结构化文本选取数据实体,并标注本文档来自技高网...
【技术保护点】
1.基于神经网络语言模型向量化的文本处理方法,其特征在于,所述文本处理方法,包括:/n从电网文本文件中提取文本信息,使用词向量算法在相似度距离维度对文本信息进行分类;/n对表征相似度距离的分类结果进行编码处理得到编码后的数字串;/n基于得到的数字串按业务需求拼接得到全量全字段的明细数据宽表;/n从明细数据宽表中选取数据实体,确定数据实体在电网文本中的具体位置以及所属类型,基于数据实体为基础进行完整文本提取。/n
【技术特征摘要】
1.基于神经网络语言模型向量化的文本处理方法,其特征在于,所述文本处理方法,包括:
从电网文本文件中提取文本信息,使用词向量算法在相似度距离维度对文本信息进行分类;
对表征相似度距离的分类结果进行编码处理得到编码后的数字串;
基于得到的数字串按业务需求拼接得到全量全字段的明细数据宽表;
从明细数据宽表中选取数据实体,确定数据实体在电网文本中的具体位置以及所属类型,基于数据实体为基础进行完整文本提取。
2.根据权利要求1所述的基于神经网络语言模型向量化的文本处理方法,其特征在于,所述使用词向量算法在相似度距离维度对文本信息进行分类,包括:
使用了词向量WordVector算法对文本信息进行分类,得到分类后代表相似度高低的分类结果。
3.根据权利要求1所述的基于神经网络语言模型向量化的文本处理方法,其特征在于,所述对表征相似度...
【专利技术属性】
技术研发人员:徐晓华,杜欣,杨肖波,王宇辉,尹嶶嶶,丁晖,王瑾,陈涛,王加易,杨谊,
申请(专利权)人:国网浙江省电力有限公司杭州供电公司,
类型:发明
国别省市:浙江;33
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。