【技术实现步骤摘要】
一种命名实体识别方法及系统
[0001]本专利技术涉及非结构化文本中的命名实体识别领域,特别是涉及一种命名实体识别方法及系统。
技术介绍
[0002]随着移动互联网、硬件设备以及网络通信技术的飞速发展,各个产业都在跟随互联网化的脚步,同时互联网也融入到人们的生产生活当中,电子资料的数据规模呈爆炸式增长的趋势,对于如何将大量的无结构化的数据结构化,分析和建模得出语言的本体模型的研究,将成为促进社会经济和科学技术发展的重要因素。
[0003]众多工业界及互联网公司已经着手设计命名实体识别系统。阿里巴巴在2020年CIKM会议中发表的文章AliMe KG详细介绍了实体抽取在构建电商知识图谱中的进展,在2020年百度发布了最新的中文命名实体识别系统百度LAC,使用深层BiGRU+CRF构造序列标注器,实现中文分词、词法分析和命名实体识别功能,并且以词法分析辅助实现专有名词的命名实体识别。
[0004]以上方法都是针对通用领域的实体识别系统,对于领域实体识别的系统极为匮乏,由于领域数据集存在着不同领域实体含义存在不一致 ...
【技术保护点】
【技术特征摘要】
1.一种命名实体识别方法,其特征在于,包括:采用BIO标注策略对运维领域故障文本进行实体标注,确定数据集;基于自训练机制的方法和所述数据集确定第一命名实体识别模型;基于多任务学习方法、所述数据集、第一命名实体识别模型确定第二命名实体识别模型;基于基于先验知识的抽象标签方法、所述数据集、第二命名实体识别模型确定第三命名实体识别模型;利用第三命名实体识别模型进行运维领域的命名实体识别。2.根据权利要求1所述的一种命名实体识别方法,其特征在于,所述采用BIO标注策略对运维领域故障文本进行实体标注,确定数据集,之后还包括:对数据集数据集进行清洗、脱敏以及纠错处理。3.根据权利要求1所述的一种命名实体识别方法,其特征在于,所述基于自训练机制的方法和所述数据集确定第一命名实体识别模型,具体包括:将数据集进行划分,确定训练集和验证集,并获取未标注的数据集;利用训练集训练教师模型;利用验证集对训练好的教师模型进行评估;利用训练好的教师模型对未标注的数据集进行标注,进而将标注后的数据集加入数据集,确定更新后的数据集;利用更新后的数据集训练学生模型,得到训练好的学生模型;所述训练好的学生模型为第一命名实体识别模型。4.根据权利要求1所述的一种命名实体识别方法,其特征在于,所述基于基于先验知识的抽象标签方法、所述数据集、第二命名实体识别模型确定第三命名实体识别模型,具体包括:通过抽象标签方法将转移关系转化为相同实体和不同实体之间标签转移概率;基于标签转移概率和先验知识掩码矩阵确定第三命名实体识别模型。5.一种命名实体识别系统,其特征在于,包括:数据集确定模块,用于采用BIO标注策略对运维领域故障文本进行实体标注,...
【专利技术属性】
技术研发人员:程渤,赵帅,章洋,王超,陈俊亮,
申请(专利权)人:北京邮电大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。