基于神经网络语言模型向量化的文本处理方法技术

技术编号：24207904 阅读：57 留言：0更新日期：2020-05-20 15:29

本申请实施例提出了基于神经网络语言模型向量化的文本处理方法，包括从电网文本文件中提取文本信息，使用词向量算法在相似度距离维度对文本信息进行分类；对表征相似度距离的分类结果进行编码处理得到编码后的数字串；基于得到的数字串按业务需求拼接得到全量全字段的明细数据宽表；从明细数据宽表中选取数据实体，确定数据实体在电网文本中的具体位置以及所属类型，基于数据实体为基础进行完整文本提取。通过使用向量化方式基于空间相似度对电力文本进行归类和提取，能够弥补现有基础中无法对文本数据进行直接运算处理的缺陷，从而提升了处理效率。

Text processing method based on neural network language model Vectorization

全部详细技术资料下载

【技术实现步骤摘要】
基于神经网络语言模型向量化的文本处理方法
本专利技术属于文本处理领域，尤其涉及基于神经网络语言模型向量化的文本处理方法。
技术介绍
数据清洗是数据挖掘工程中十分重要的一个环节，它是进行特征工程的基础环节，特征工程的优劣往往决定了数据挖掘算法的上限。本项目涉及的数据字段较多，包括各种文本型和数值型的数据，需要逐一进行去重、缺失值、错误值的判断和处理。某些字段的取值过于集中，方差接近于0，这种字段包含的信息十分有限，也是需要舍弃的。例如，“来源”字段的取值全部为相同值，也就是方差为0，此时该字段对模型的贡献的为0，应当舍弃。关键数值型字段的统计指标如图2所示，包括记录数、均值、标准差等。不同于图像、语音等，文本数据则以字符为基本单位，不能直接进行数值运算。
技术实现思路
为了解决现有技术中存在的缺点和不足，本专利技术提出了基于神经网络语言模型向量化的文本处理方法，借助空间向量化处理方式对电网文本文件进行处理，能够实现完整的文本提取，解决了无法直接进行文本提出的缺陷。具体的，本申请实施例提出的基...

【技术保护点】
1.基于神经网络语言模型向量化的文本处理方法，其特征在于，所述文本处理方法，包括：/n从电网文本文件中提取文本信息，使用词向量算法在相似度距离维度对文本信息进行分类；/n对表征相似度距离的分类结果进行编码处理得到编码后的数字串；/n基于得到的数字串按业务需求拼接得到全量全字段的明细数据宽表；/n从明细数据宽表中选取数据实体，确定数据实体在电网文本中的具体位置以及所属类型，基于数据实体为基础进行完整文本提取。/n

【技术特征摘要】
1.基于神经网络语言模型向量化的文本处理方法，其特征在于，所述文本处理方法，包括：
从电网文本文件中提取文本信息，使用词向量算法在相似度距离维度对文本信息进行分类；
对表征相似度距离的分类结果进行编码处理得到编码后的数字串；
基于得到的数字串按业务需求拼接得到全量全字段的明细数据宽表；
从明细数据宽表中选取数据实体，确定数据实体在电网文本中的具体位置以及所属类型，基于数据实体为基础进行完整文本提取。

2.根据权利要求1所述的基于神经网络语言模型向量化的文本处理方法，其特征在于，所述使用词向量算法在相似度距离维度对文本信息进行分类，包括：
使用了词向量WordVector算法对文本信息进行分类，得到分类后代表相似度高低的分类结果。

3.根据权利要求1所述的基于神经网络语言模型向量化的文本处理方法，其特征在于，所述对表征相似度...

【专利技术属性】
技术研发人员：徐晓华，杜欣，杨肖波，王宇辉，尹嶶嶶，丁晖，王瑾，陈涛，王加易，杨谊，
申请(专利权)人：国网浙江省电力有限公司杭州供电公司，
类型：发明
国别省市：浙江;33

全部详细技术资料下载我是这个专利的主人