【技术实现步骤摘要】
基于神经网络语言模型向量化的文本处理方法
本专利技术属于文本处理领域,尤其涉及基于神经网络语言模型向量化的文本处理方法。
技术介绍
数据清洗是数据挖掘工程中十分重要的一个环节,它是进行特征工程的基础环节,特征工程的优劣往往决定了数据挖掘算法的上限。本项目涉及的数据字段较多,包括各种文本型和数值型的数据,需要逐一进行去重、缺失值、错误值的判断和处理。某些字段的取值过于集中,方差接近于0,这种字段包含的信息十分有限,也是需要舍弃的。例如,“来源”字段的取值全部为相同值,也就是方差为0,此时该字段对模型的贡献的为0,应当舍弃。关键数值型字段的统计指标如图2所示,包括记录数、均值、标准差等。不同于图像、语音等,文本数据则以字符为基本单位,不能直接进行数值运算。
技术实现思路
为了解决现有技术中存在的缺点和不足,本专利技术提出了基于神经网络语言模型向量化的文本处理方法,借助空间向量化处理方式对电网文本文件进行处理,能够实现完整的文本提取,解决了无法直接进行文本提出的缺陷。具体的,本申请实施例提出的基 ...
【技术保护点】
1.基于神经网络语言模型向量化的文本处理方法,其特征在于,所述文本处理方法,包括:/n从电网文本文件中提取文本信息,使用词向量算法在相似度距离维度对文本信息进行分类;/n对表征相似度距离的分类结果进行编码处理得到编码后的数字串;/n基于得到的数字串按业务需求拼接得到全量全字段的明细数据宽表;/n从明细数据宽表中选取数据实体,确定数据实体在电网文本中的具体位置以及所属类型,基于数据实体为基础进行完整文本提取。/n
【技术特征摘要】
1.基于神经网络语言模型向量化的文本处理方法,其特征在于,所述文本处理方法,包括:
从电网文本文件中提取文本信息,使用词向量算法在相似度距离维度对文本信息进行分类;
对表征相似度距离的分类结果进行编码处理得到编码后的数字串;
基于得到的数字串按业务需求拼接得到全量全字段的明细数据宽表;
从明细数据宽表中选取数据实体,确定数据实体在电网文本中的具体位置以及所属类型,基于数据实体为基础进行完整文本提取。
2.根据权利要求1所述的基于神经网络语言模型向量化的文本处理方法,其特征在于,所述使用词向量算法在相似度距离维度对文本信息进行分类,包括:
使用了词向量WordVector算法对文本信息进行分类,得到分类后代表相似度高低的分类结果。
3.根据权利要求1所述的基于神经网络语言模型向量化的文本处理方法,其特征在于,所述对表征相似度...
【专利技术属性】
技术研发人员:徐晓华,杜欣,杨肖波,王宇辉,尹嶶嶶,丁晖,王瑾,陈涛,王加易,杨谊,
申请(专利权)人:国网浙江省电力有限公司杭州供电公司,
类型:发明
国别省市:浙江;33
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。