基于深度学习的电力舆情领域命名实体识别方法系统技术方案

技术编号:34176461 阅读:52 留言:0更新日期:2022-07-17 12:02
本发明专利技术提出一种基于深度学习的电力舆情领域命名实体识别方法与系统,整理电力舆情的文本数据,标记出所述文本数据中的实体词;将数据预处理标注为位置索引标注序列;对预处理后的数据进行特征提取;根据数据标注结果抽取新的电力舆情文本数据中的实体词。本发明专利技术的位置索引标注方式很好地解决了实体之间交叉包含的问题;结合文本中每个字的五笔顺序与偏旁部首的特征,通过BiLSTM模型进行特征的提取,与BERT预训练模型得到的BERT特征相融合,增强了特征向量中语义的表征,可以更好、更准确的抽取文本包含的实体;通过使用CRF层对得到的位置索引序列标签进行约束,大大减少不规则标签出现的概率,从而可以获得较好的实体标签序列。列。列。

Named entity recognition method system in power public opinion field based on deep learning

【技术实现步骤摘要】
基于深度学习的电力舆情领域命名实体识别方法系统


[0001]本专利技术涉及自然语言处理、实体识别、电力舆情分析领域,更具体地,涉及一种基于深度学习的电力舆情领域命名实体识别方法与系统。

技术介绍

[0002]作为与国民生活息息相关的电力行业,电价调整、电力供应、电力设施维修、安全生产等一系列问题极易给国有特大型电力企业带来极大的影响,使其迫切需要探索出科学的舆情管理方案,做好舆情危机应对工作。在新媒体不断发展的大环境下,信息传播速度在不断增长,同时也使得舆情危机的爆发呈现出不可控性。而电网企业是非常容易成为舆论攻击点的,因此从电力舆情文本中快速的发现人们的关注点,即数据中的实体词是十分重要的。
[0003]命名实体识别(Named Entity Recognition,NER)是自然语言处理的一项基本处理任务,命名实体一般指的是文本中具有特定意义或者指代性的实体,通常包括人名、地名、机构名、日期时间、专有名词等。实体识别还可以根据业务需求识别出更多的实体,例如产品的名称、型号、规格大小等。目前命名实体识别的方法主要包括基于规则的命名实体识别和基于统计的命名实体识别。基于规则的命名实体识别,通过利用构造实体规则模板来过滤实体词的方法,在模板制定过程中,使用标点符号、关键词、指示词等的含有关键特征的字符,并结合预先整理的实体词库,来进行文本中实体词的过滤。但上述方法准确度不高,且需要不断进行模板更新,稳定性欠佳。基于统计的命名实体识别方法主要有隐马尔科夫模型(Hidden Markov Model,HMM)、最大熵模型(Maximum Entropy,ME)、支持向量机(Support Vector Machine,SVM)和条件随机场(Conditional RandomField,CRF)等方法,通过大量的人工标注数据来标注数据语料,通过标注的数据进行训练获得实体标注模型。但该方法需要通过人工选取的方式从大量的文本中选取每条文本中所包含的关注的实体词,人力成本高。此外,上述方法对于文本中存在实体之间相互交叉包含的情况,不能准确地抽取实体词。

技术实现思路

[0004]为解决现有技术中存在的不足,本专利技术的目的在于,提供一种本方法实现了一种基于深度学习的电力舆情领域命名实体识别方法与系统,可以自动从文本中标注出包含的实体,并且可以解决标注实体之间相互包含的问题。本专利技术采用如下的技术方案。本专利技术通过使用一种基于深度学习的电力舆情领域命名实体识别方法与系统解决上述问题,其技术方案主要包括以下步骤:
[0005]S1:整理电力舆情的文本数据,标记出所述文本数据中的实体词;
[0006]S2:对整理的数据进行数据预处理,标注为位置索引标注序列;
[0007]S3:对预处理后的文本数据进行特征提取;
[0008]S4:根据数据标注结果抽取新的电力舆情文本数据中的实体词。
[0009]进一步地,所述步骤S1包括:获取电力舆情文本的数据;通过人工标记的方式,标注出每一条文本中所包含的实体词。
[0010]进一步地,所述步骤S2包括:
[0011]S21:数据清洗:将文本数据中的空格以及特殊的字符去除,并将每一条文本数据进行单个字的拆分;
[0012]S22:处理数据格式:将数据清洗后的数据转换成模型输入的格式,将文本数据标注成位置索引标注序列;位置索引标注的方式是将文本中的每个实体的长度标注到实体开始索引的位置,从开始位置向右经过实体长度个字符结束,得到所需要的实体。
[0013]进一步地,所述步骤S3包括:
[0014]S31:将文本数据拆分成单个字形式,通过使用BERT预训练模型来对电力舆情文本进行特征提取,得到其对应的BERT特征向量;
[0015]S32:获得电力舆情文本数据中每个字对应的五笔顺序与偏旁部首,通过使用One

Hot编码将其对应的五笔顺序与偏旁部首进行编码获得编码后的五笔顺序特征向量与偏旁部首特征向量;
[0016]S33:将五笔顺序+偏旁部首特征向量与BERT特征向量进行融合,将融合后的特征向量经过线性层得到序列中每个字对应的位置索引标注序列的标签概率;
[0017]S34:将最终获得的标签概率输入CRF层中得到最终标注好的位置索引标注序列的标签序列。
[0018]进一步地,所述步骤S4包括:通过命名实体识别模型得到的位置索引标注的标签序列;从标签序列中不为0的位置开始,到标示数字大小的长度结束,表示一个实体词从开始到结束的全部,根据这些非0标签的位置从电力舆情文本中提取出所包含的实体词。
[0019]本专利技术还提出一种基于深度学习的电力舆情领域命名实体识别系统,包括:
[0020]数据获取模块:整理电力舆情的文本数据,标记出所述文本数据中的实体词;
[0021]数据预处理模块:对整理的数据进行数据预处理,标注为位置索引标注序列;
[0022]特征提取模块:对预处理后的文本数据进行特征提取;
[0023]识别模块:根据数据标注结果抽取新的电力舆情文本数据中的实体词。
[0024]本专利技术还提出一种终端,包括处理器及存储介质;所述存储介质用于存储指令;所述处理器用于根据所述指令进行操作以执行根据本专利技术所述方法的步骤。
[0025]本专利技术还提出一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现本专利技术所述方法的步骤。
[0026]本专利技术中提出并使用的位置索引标注方式可以很好的解决实体之间交叉包含的问题,在实体抽取结果上,可以提出更多的且更准确的实体词;同时结合文本中每个字的五笔顺序与偏旁部首的特征,通过BiLSTM模型进行特征的提取,可以得到更全的上下文语义特征,并与BERT预训练模型得到的BERT特征相融合,增强了特征向量中语义的表征,可以更好、更准确的抽取文本中所包含的实体;通过使用CRF层对得到的位置索引序列标签进行约束,可以避免出现不符合规则的标签数据,大大减少不规则标签出现的概率,从而可以获得较好的实体标签序列。
[0027]与现有技术相比,本专利技术具有以下有益的技术效果:
[0028]第一,高效的实体词抽取,通过使用该模型可以快速抽出实体词,从大量的电力舆
情文本中标注出每条电力舆情文本所含有的实体词。
[0029]第二,节省人工量,通过人工选取的方式从大量的电力舆情文本中选取每条文本中所包含的关注的实体词是非常费事费力的一项工作,通过使用该模型进行电力舆情文本的实体标注可以节省大量的人工工作量,从而降低运营成本。
[0030]第三,相互包含实体的抽取,在同一条电力舆情文本中存在实体之间相互交叉包含的情况,该模型考虑到该种情况,可以从中抽取出更为准确的实体词。
[0031]第四,稳定性较好,且需要更新时简单易操作。在电力舆情文本没有太大改动的情况下模型可以长期稳定使用,如果有新的类型的实体需要标注,只需要标注一部分训练数据添加到原有的训练数据中重新训练本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于深度学习的电力舆情领域命名实体识别方法,其特征在于,包括以下步骤:S1:整理电力舆情的文本数据,标记出所述文本数据中的实体词;S2:对整理的数据进行数据预处理,标注为位置索引标注序列;S3:对预处理后的文本数据进行特征提取;S4:根据数据标注结果抽取新的电力舆情文本数据中的实体词。2.根据权利要求1所述的基于深度学习的电力舆情领域命名实体识别方法,所述步骤S1包括:获取电力舆情文本的数据;通过人工标记的方式,标注出每一条文本中所包含的实体词。3.根据权利要求2所述的基于深度学习的电力舆情领域命名实体识别方法,其中所述步骤S2包括:S21:数据清洗:将文本数据中的空格以及特殊的字符去除,并将每一条文本数据进行单个字的拆分;S22:处理数据格式:将数据清洗后的数据转换成模型输入的格式,将文本数据标注成位置索引标注序列;位置索引标注的方式是将文本中的每个实体的长度标注到实体开始索引的位置,从开始位置向右经过实体长度个字符结束,得到所需要的实体。4.根据权利要求1所述的基于深度学习的电力舆情领域命名实体识别方法,其中所述步骤S3包括:S31:将文本数据拆分成单个字形式,通过使用BERT预训练模型来对电力舆情文本进行特征提取,得到其对应的BERT特征向量;S32:获得电力舆情文本数据中每个字对应的五笔顺序与偏旁部首,通过使用One

Hot编码将其对应的五笔顺序与偏旁部首进行编码获得编码后的五笔顺序特征向量与偏旁部首特征向量;S33:将五笔顺序+偏旁部首特征向量与BERT特征向量进行融合,将融合后的特征向量经过线性层得到序列中每个字对应的位置索引标注序列的标签概率;S34:将最终获得的标签概率输入CRF层中得到最终标注好的位置索引标注序列的标签序列。5.根据权利要求1所述的基于深度学习的电力舆情领域命名实体识别方法,其中所述步骤S4包括:通过命名实体识别模型得到的位置索引标注的标签序列;从标签序列中不为0的位置开始,到标示数字大小的长度结束,表示一个实体词从开始到结束的全部,根据这些非0标签的位置从电力舆情文本中提取出所包含的实体词。6.一种基于深度学习的电力舆情领域命名实体识别系统,其特征在于,包括:数据获取模块:整理电力舆情的文本数据,标记出所述文本数据中的实体词;数据预处理模块:对整理的数据进行数据预处理,...

【专利技术属性】
技术研发人员:朱峰邹云峰祝宇楠刘云鹏范环宇张青川金庆雨范晓宣
申请(专利权)人:国网江苏省电力有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1