基于神经网络语言模型向量化的文本处理方法技术

技术编号:24207904 阅读:57 留言:0更新日期:2020-05-20 15:29
本申请实施例提出了基于神经网络语言模型向量化的文本处理方法,包括从电网文本文件中提取文本信息,使用词向量算法在相似度距离维度对文本信息进行分类;对表征相似度距离的分类结果进行编码处理得到编码后的数字串;基于得到的数字串按业务需求拼接得到全量全字段的明细数据宽表;从明细数据宽表中选取数据实体,确定数据实体在电网文本中的具体位置以及所属类型,基于数据实体为基础进行完整文本提取。通过使用向量化方式基于空间相似度对电力文本进行归类和提取,能够弥补现有基础中无法对文本数据进行直接运算处理的缺陷,从而提升了处理效率。

Text processing method based on neural network language model Vectorization

【技术实现步骤摘要】
基于神经网络语言模型向量化的文本处理方法
本专利技术属于文本处理领域,尤其涉及基于神经网络语言模型向量化的文本处理方法。
技术介绍
数据清洗是数据挖掘工程中十分重要的一个环节,它是进行特征工程的基础环节,特征工程的优劣往往决定了数据挖掘算法的上限。本项目涉及的数据字段较多,包括各种文本型和数值型的数据,需要逐一进行去重、缺失值、错误值的判断和处理。某些字段的取值过于集中,方差接近于0,这种字段包含的信息十分有限,也是需要舍弃的。例如,“来源”字段的取值全部为相同值,也就是方差为0,此时该字段对模型的贡献的为0,应当舍弃。关键数值型字段的统计指标如图2所示,包括记录数、均值、标准差等。不同于图像、语音等,文本数据则以字符为基本单位,不能直接进行数值运算。
技术实现思路
为了解决现有技术中存在的缺点和不足,本专利技术提出了基于神经网络语言模型向量化的文本处理方法,借助空间向量化处理方式对电网文本文件进行处理,能够实现完整的文本提取,解决了无法直接进行文本提出的缺陷。具体的,本申请实施例提出的基于神经网络语言模型向本文档来自技高网...

【技术保护点】
1.基于神经网络语言模型向量化的文本处理方法,其特征在于,所述文本处理方法,包括:/n从电网文本文件中提取文本信息,使用词向量算法在相似度距离维度对文本信息进行分类;/n对表征相似度距离的分类结果进行编码处理得到编码后的数字串;/n基于得到的数字串按业务需求拼接得到全量全字段的明细数据宽表;/n从明细数据宽表中选取数据实体,确定数据实体在电网文本中的具体位置以及所属类型,基于数据实体为基础进行完整文本提取。/n

【技术特征摘要】
1.基于神经网络语言模型向量化的文本处理方法,其特征在于,所述文本处理方法,包括:
从电网文本文件中提取文本信息,使用词向量算法在相似度距离维度对文本信息进行分类;
对表征相似度距离的分类结果进行编码处理得到编码后的数字串;
基于得到的数字串按业务需求拼接得到全量全字段的明细数据宽表;
从明细数据宽表中选取数据实体,确定数据实体在电网文本中的具体位置以及所属类型,基于数据实体为基础进行完整文本提取。


2.根据权利要求1所述的基于神经网络语言模型向量化的文本处理方法,其特征在于,所述使用词向量算法在相似度距离维度对文本信息进行分类,包括:
使用了词向量WordVector算法对文本信息进行分类,得到分类后代表相似度高低的分类结果。


3.根据权利要求1所述的基于神经网络语言模型向量化的文本处理方法,其特征在于,所述对表征相似度...

【专利技术属性】
技术研发人员:徐晓华杜欣杨肖波王宇辉尹嶶嶶丁晖王瑾陈涛王加易杨谊
申请(专利权)人:国网浙江省电力有限公司杭州供电公司
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1