【技术实现步骤摘要】
基于Bert
‑
CRF的变电站防汛命名实体识别方法
[0001]本专利技术属于变电站防汛
,具体涉及一种基于Bert
‑
CRF的变电站防汛命名实体识别方法。
技术介绍
[0002]防汛数据文本通常存在一定的缺损、不规范以及格式不统一的问题,因此传统的数值分析与统计学方法对于此类数据的处理略显乏力,导致文本数据中所蕴含的知识无法得到有效利用。倘若对防汛文本数据进行标注并采取命名实体识别技术,将文本数据蕴含的经验知识与现场情况等信息进行挖掘,对于满足运维工作的及时高效、保障变电站安全具有重大意义。
[0003]数据标注是对数据再加工的一种行为,是有效利用数据的前提,目前,已有针对单一领域的标注系统,如计算机视觉领域中的静态图像行为标注,然而针对防汛领域仍依靠传统的人工标注,已逐渐不能适应海量数据标注的需求,亟需更为高效率的标注方式,而命名实体识别技术可以从一段文本中,识别出具有特定意义的实体,近年来广泛应用在金融和医学领域,但在防汛领域的应用仍处于初级阶段,同其他文本数据相比,防 ...
【技术保护点】
【技术特征摘要】 【专利技术属性】
1.一种基于Bert
‑
CRF的变电站防汛命名实体识别方法,其特征在于,包括以下步骤:步骤S1:获取防汛文本数据并标注;步骤S2:构建并训练基于Bert
‑
CRF的防汛命名实体识别模型;步骤S3:利用模型得出最优实体标签。2.根据权利要求1所述的基于Bert
‑
CRF的变电站防汛命名实体识别方法,其特征在于,步骤S1所述获取防汛文本数据并标注,包括:步骤S11:从众多数据中提取防汛文本数据;步骤S12:采用半监督学习中的字级标注,对步骤S11所述防汛文本数据进行半自动BIO标签标注。3.根据权利要求2所述的基于Bert
‑
CRF的变电站防汛命名实体识别方法,其特征在于,步骤S2所述构建并训练基于Bert
‑
CRF的防汛命名实体识别模型,包括:将Bert模型的softmax层用CRF层替换,建立基于Bert
‑
CRF的防汛命名实体识别模型,所述模型包括输入层、Bert层和CRF层,利用标注过的防汛文本数据对所述模型进行训练。4.根据权利要求3所述的基于Bert
‑
CRF的变电站防汛命名实体识别方法,其特征在于,步骤S3所述利用模型得出最优实体标签,包括:步骤S31:在输入层中输入需要进行命名实体识别的防汛文本数据;步骤S32:利用Bert层将输入的防汛文本数据生成包含丰富语义信息的动态词向量,并在词向量中融入上下文特征;步骤S33:利用CRF层约束词向量的输出,得出句子的最优实体标签。5.一种基于Bert
技术研发人员:刘善峰,姚德贵,宋伟,石英,智海燕,李哲,王超,王津宇,梁允,袁少光,田杨阳,毛万登,邱卡特,曲锋,
申请(专利权)人:国网河南省电力公司武汉理工大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。