两阶段优化的无线网优领域长实体识别方法及系统技术方案

技术编号:41742996 阅读:32 留言:0更新日期:2024-06-19 13:03
本发明专利技术提供一种两阶段优化的无线网优领域长实体识别方法及系统,属于无线网优运维技术领域,利用预先训练好的长实体识别模型对获取的待识别的文本内容进行处理,得到长实体识别结果;通过第一阶段前置任务,获得具备领域知识的预训练模型TelBert;第二阶段引入与实体相关的语义信息,得到基于机器阅读理解框架的长实体识别模型,以双指针网络的方式解码实体。本发明专利技术通过增加实体类型预测任务学习特定领域知识,增强基座模型文本表征学习的能力,缓解了小样本场景下模型调优的困难;对实体识别模型进行改进,得到适用于文档级长实体识别的MRC‑LER模型;提出基于语义相似度的评价指标,合理评估实体关键信息的有效抽取率。

【技术实现步骤摘要】

本专利技术涉及无线网优运维,具体涉及一种两阶段优化的无线网优领域长实体识别方法及系统


技术介绍

1、随着社会经济的飞速发展和通信网络技术的不断进步,通信业务需求呈现海量高并发的趋势,无线网优运维系统的规划整体正向着多元化、智能化、高速化演进,其中积累了海量的案例文本数据,为运维人员排障提供了大量案例问题分析及处理的宝贵经验。但无线网优领域案例文档数量庞大以及复杂的领域专业性,给人们案例阅读查找带来不小的挑战,因此构建无线网优领域案例知识图谱的需求愈发强烈。

2、在进行领域案例知识图谱构建时,实体识别任务是构建高质量知识图谱的重要基础。实体识别旨在从无结构化文本中抽取出预定义的实体,包括实体的定位和分类。无线网优领域的案例文本通常为长文档,其中实体类别包括问题现象、异常原因、解决方法、处理成效、设备id等。相比于通用领域实体如人名、地名等,该领域下的实体长度更长,通常为短句。此外,通过人工标注的领域实体数据集规模较小,使用通用的训练范式和深度学习方法对于领域文档级文本的表征学习能力不足,导致实体识别效果不佳。

3、训练范式指的是用于本文档来自技高网...

【技术保护点】

1.一种两阶段优化的无线网优领域长实体识别方法,其特征在于,包括:

2.根据权利要求1所述的两阶段优化的无线网优领域长实体识别方法,其特征在于,实体类型预测任务建模为多分类任务,首先将实体entityi进行语义表征,构造为[CLS]e1,e2,...eo[SEP],其中[CLS]和[SEP]用于标记起始和分割的特殊token,将序列输入至预训练模型BERT中,输出一个[CLS]向量其中,k指实体类别总数,[CLS]向量输出经过语义线性分类器,判断entityi的类型,得到预训练模型TelBert。

3.根据权利要求2所述的两阶段优化的无线网优领域长实体识别方法,其...

【技术特征摘要】

1.一种两阶段优化的无线网优领域长实体识别方法,其特征在于,包括:

2.根据权利要求1所述的两阶段优化的无线网优领域长实体识别方法,其特征在于,实体类型预测任务建模为多分类任务,首先将实体entityi进行语义表征,构造为[cls]e1,e2,...eo[sep],其中[cls]和[sep]用于标记起始和分割的特殊token,将序列输入至预训练模型bert中,输出一个[cls]向量其中,k指实体类别总数,[cls]向量输出经过语义线性分类器,判断entityi的类型,得到预训练模型telbert。

3.根据权利要求2所述的两阶段优化的无线网优领域长实体识别方法,其特征在于,在前置任务预调优阶段,通过反向传播算法不断更新网络参数,目标是将模型预测的结果和真实的标签之间的误差最小化,不断提高模型的泛化能力和预测性能;采用交叉熵损失函数评估真正标签labeltype和模型预测值predtype之间的误差。

4.根据权利要求2所述的两阶段优化的无线网优领域长实体识别方法,其特征在于,长实体识别任务建模为机器阅读理解任务,将数据集构建为(query,context,answer)三元组形式,其中query指与待识别文本context内容相关的句子,answer指与query对应的目标实体;对于每个实体类型y∈y,构造问题qy=(q1,q2,...qm),m代表问题的长度,并根据实体类别y标注实体estart,end,其中estart,end是context中的子片段且start<end,以此构建三元组...

【专利技术属性】
技术研发人员:范春晓吴岳辛黄淼孙娟娟
申请(专利权)人:北京邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1