基于深度学习的电力舆情领域命名实体识别方法系统技术方案

技术编号：34176461 阅读：52 留言：0更新日期：2022-07-17 12:02

本发明专利技术提出一种基于深度学习的电力舆情领域命名实体识别方法与系统，整理电力舆情的文本数据，标记出所述文本数据中的实体词；将数据预处理标注为位置索引标注序列；对预处理后的数据进行特征提取；根据数据标注结果抽取新的电力舆情文本数据中的实体词。本发明专利技术的位置索引标注方式很好地解决了实体之间交叉包含的问题；结合文本中每个字的五笔顺序与偏旁部首的特征，通过BiLSTM模型进行特征的提取，与BERT预训练模型得到的BERT特征相融合，增强了特征向量中语义的表征，可以更好、更准确的抽取文本包含的实体；通过使用CRF层对得到的位置索引序列标签进行约束，大大减少不规则标签出现的概率，从而可以获得较好的实体标签序列。列。列。

Named entity recognition method system in power public opinion field based on deep learning

全部详细技术资料下载

【技术实现步骤摘要】
基于深度学习的电力舆情领域命名实体识别方法系统

[0001]本专利技术涉及自然语言处理、实体识别、电力舆情分析领域，更具体地，涉及一种基于深度学习的电力舆情领域命名实体识别方法与系统。

技术介绍

[0002]作为与国民生活息息相关的电力行业，电价调整、电力供应、电力设施维修、安全生产等一系列问题极易给国有特大型电力企业带来极大的影响，使其迫切需要探索出科学的舆情管理方案，做好舆情危机应对工作。在新媒体不断发展的大环境下，信息传播速度在不断增长，同时也使得舆情危机的爆发呈现出不可控性。而电网企业是非常容易成为舆论攻击点的，因此从电力舆情文本中快速的发现人们的关注点，即数据中的实体词是十分重要的。
[0003]命名实体识别(Named Entity Recognition，NER)是自然语言处理的一项基本处理任务，命名实体一般指的是文本中具有特定意义或者指代性的实体，通常包括人名、地名、机构名、日期时间、专有名词等。实体识别还可以根据业务需求识别出更多的实体，例如产品的名称、型号、规格大小等。目前命名实体识别的方法主要包括基于规则的命名实体识别和基于统计的命名实体识别。基于规则的命名实体识别，通过利用构造实体规则模板来过滤实体词的方法，在模板制定过程中，使用标点符号、关键词、指示词等的含有关键特征的字符，并结合预先整理的实体词库，来进行文本中实体词的过滤。但上述方法准确度不高，且需要不断进行模板更新，稳定性欠佳。基于统计的命名实体识别方法主要有隐马尔科夫模型(Hidden Markov Model，HMM)、最大...

【技术保护点】

【技术特征摘要】
1.一种基于深度学习的电力舆情领域命名实体识别方法，其特征在于，包括以下步骤：S1：整理电力舆情的文本数据，标记出所述文本数据中的实体词；S2：对整理的数据进行数据预处理，标注为位置索引标注序列；S3：对预处理后的文本数据进行特征提取；S4：根据数据标注结果抽取新的电力舆情文本数据中的实体词。2.根据权利要求1所述的基于深度学习的电力舆情领域命名实体识别方法，所述步骤S1包括：获取电力舆情文本的数据；通过人工标记的方式，标注出每一条文本中所包含的实体词。3.根据权利要求2所述的基于深度学习的电力舆情领域命名实体识别方法，其中所述步骤S2包括：S21：数据清洗：将文本数据中的空格以及特殊的字符去除，并将每一条文本数据进行单个字的拆分；S22：处理数据格式：将数据清洗后的数据转换成模型输入的格式，将文本数据标注成位置索引标注序列；位置索引标注的方式是将文本中的每个实体的长度标注到实体开始索引的位置，从开始位置向右经过实体长度个字符结束，得到所需要的实体。4.根据权利要求1所述的基于深度学习的电力舆情领域命名实体识别方法，其中所述步骤S3包括：S31：将文本数据拆分成单个字形式，通过使用BERT预训练模型来对电力舆情文本进行特征提取，得到其对应的BERT特征向量；S32：获得电力舆情文本数据中每个字对应的五笔顺序与偏旁部首，通过使用One
‑
Hot编码将其对应的五笔顺序与偏旁部首进行编码获得编码后的五笔顺序特征向量与偏旁部首特征向量；S33：将五笔顺序+偏旁部首特征向量与BERT特征向量进行融合，将融合后的特征向量经过线性层得到序列中每个字对应的位置索引标注序列的标签概率；S34：将最终获得的标签概率输入CRF层中得到最终标注好的位置索引标注序列的标签序列。5.根据权利要求1所述的基于深度学习的电力舆情领域命名实体识别方法，其中所述步骤S4包括：通过命名实体识别模型得到的位置索引标注的标签序列；从标签序列中不为0的位置开始，到标示数字大小的长度结束，表示一个实体词从开始到结束的全部，根据这些非0标签的位置从电力舆情文本中提取出所包含的实体词。6.一种基于深度学习的电力舆情领域命名实体识别系统，其特征在于，包括：数据获取模块：整理电力舆情的文本数据，标记出所述文本数据中的实体词；数据预处理模块：对整理的数据进行数据预处理，...

【专利技术属性】
技术研发人员：朱峰，邹云峰，祝宇楠，刘云鹏，范环宇，张青川，金庆雨，范晓宣，
申请(专利权)人：国网江苏省电力有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人