一种基于seq2seq+attention的中文文本纠错方法技术

技术编号：20842749 阅读：27 留言：0更新日期：2019-04-13 08:46

本发明专利技术涉及一种基于seq2seq+attention的中文文本纠错方法，属于数据质量的研究范畴，涉及RNN，双向RNN，LSTM，seq2seq，attention机制等技术领域，主要针对通信设备检修记录，构建seq2seq+attention神经网络模型，采用Adam优化方法进行模型训练，利用已经训练好的模型进行纠错任务。本方法中所用到的神经网络模型可广泛应用于其他领域的文本纠错，在一定程度上避免了模型的重新设计。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于seq2seq+attention的中文文本纠错方法
本专利技术属于中文文本纠错的
，特别涉及到电力通信管理系统中产生的通信设备检修记录的纠错领域。
技术介绍
该领域涉及到的主要研究对象，关键技术和实际应用价值主要包括：电力通信管理系统：是作为智能电网重要支撑的电力专用通信网络系统，是总部和省公司“两级部署”，总部、分部、省公司、市县公司“四级应用”的通信管理系统“SG—TMS”。通过标准化规范化的项目建设以及对系统实用化的大力推进，“SG—TMS”已经深度融入数万电力通信专业人员的日常工作中，并且全面采集了数万台设备几年来的建设、运行、管理数据，积累下来的海量电力通信数据和众多外部系统数据、公共数据一同形成了开展大数据分析的基础。设备检修记录：智能电网通信的信息化管理系统中已经积累了大量检修数据、方式数据、运行记录数据，其中既有规范的结构化数据如检修类型、执行日期等，也有很多类似运行记录一类的半结构化数据，还有很多类似路由方式描述、“三措一案”文档、图片等非结构化数据。通过对这些过程和结论数据的深入分析与挖掘，可以总结出管理规律，对现有的制度和管理方式进行优化和合理安排。还可以通过大数据手段实现对运行方式、“三措一案”等流程化工作的机器自动初审、对工作记录的自动辅助纠错补缺等智能化功能，降低管理人员劳动强度，提升方式、检修审批效率和记录规范性。基于字粒度：主要有两个原因：第一，由于设备检修记录中包含错别字或者存在缺失情况，导致分词结果不准确，所以纠错任务不适合在词粒度上进行；第二，在给定固定的词汇表的情况下，基于词语的纠错任务无法处理OOV...

【技术保护点】
1.一种基于seq2seq+attention的中文文本纠错方法，其特征在于，包括以下步骤：步骤1，文本预处理：首先基于python读取数据库中的检修记录，提取文档文件中的所有内容，然后利用正则表达式进行中文分句操作，将结果存入文本文件中，每一行对应一个句子，同时将人工标注的正确文本存入另一个文本文件中，和原始文件一一对应；记录下电力通信领域中的专有符号，和常见的汉字表共同组成字符表；步骤2，构建基于attention的seq2seq神经网络模型，具体包括：步骤2.1，构建Encoder模块层，包括Embedding Layer和M层双向LSTM，其中：层一、Embedding Layer的输入为当前字符的one‑hot编码，one‑hot编码可以根据步骤1中形成的字符表得到；Embedding Layer的输出为当前字符的字向量即：et＝ET·xt

【技术特征摘要】
1.一种基于seq2seq+attention的中文文本纠错方法，其特征在于，包括以下步骤：步骤1，文本预处理：首先基于python读取数据库中的检修记录，提取文档文件中的所有内容，然后利用正则表达式进行中文分句操作，将结果存入文本文件中，每一行对应一个句子，同时将人工标注的正确文本存入另一个文本文件中，和原始文件一一对应；记录下电力通信领域中的专有符号，和常见的汉字表共同组成字符表；步骤2，构建基于attention的seq2seq神经网络模型，具体包括：步骤2.1，构建Encoder模块层，包括EmbeddingLayer和M层双向LSTM，其中：层一、EmbeddingLayer的输入为当前字符的one-hot编码，one-hot编码可以根据步骤1中形成的字符表得到；EmbeddingLayer的输出为当前字符的字向量即：et＝ET·xt其中xt是t时刻输入字符的one-hot编码，是v维列向量，v是步骤1得到的字符表中的字符总数；E是字符向量矩阵，是v×d维矩阵，在具体实现过程中，d取100-200之间的数字，d代表每一个字符向量的维度，矩阵E是模型的参数，通过训练得到；et是t时刻输入字符的字向量；在具体实现过程中，使用TensorFlow中tf.nn.embedding_lookup函数，得到字符向量；层二、M层双向LSTM中的基本单元是LSTM，第j层t时刻LSTM的隐藏状态计算公式如下：其中，初始化为零向量，函数σ(x)＝1/(1+e-x)，函数tanh(x)＝(ex-e-x)/(ex+e-x)，均...

【专利技术属性】
技术研发人员：李石君，邓永康，杨济海，余伟，余放，李宇轩，
申请(专利权)人：武汉大学，
类型：发明
国别省市：湖北,42

全部详细技术资料下载我是这个专利的主人