一种基于分层样本进行命名实体识别的方法技术

技术编号:41506977 阅读:19 留言:0更新日期:2024-05-30 14:47
一种基于分层样本进行命名实体识别的方法,属于自然语言处理领域。该方法包括四个模块:数据预处理模块、粗粒度实体筛选模块、样本分层处理模块以及细粒度实体分类模块。首先,通过数据预处理模块对原始数据进行处理及标注。然后,利用粗粒度实体筛选模块训练BiLSTM和CRF组合模型获得实体类别预测置信度,指导样本粗粒度分类。之后,利用样本分层处理模块,结合置信度,进一步对初筛后的粗粒度样本划分为多层次类型:易样本、难样本和误判样本的处理。最后,细粒度实体分类模块将分类处理后的样本输入CRF网络进行实体标签的细粒度分类。此方法利用了外部知识且有针对性的使用词汇增强显著提高了命名实体识别的准确性和鲁棒性。

【技术实现步骤摘要】

本专利技术属于自然语言处理领域,涉及一种基于分层样本进行命名实体识别的方法


技术介绍

1、我国历史悠久,绵延数千年,这其中的历史文物不仅具有极高的珍藏价值,更是我们了解和体验历史的重要桥梁。知识图谱为这些宝贵文物的信息提供了一种系统的组织形式,使得用户在搜索某一文物时,能够同时获得与其相关的丰富信息。在知识图谱的构建中,实体是其核心节点,因此,对实体的准确识别至关重要,这也使命名实体识别技术受到了广泛的关注。

2、目前,中文命名实体识别的方法主要可以分为两类:基于字符粒度的预测以及融合词汇信息的预测。传统的字粒度嵌入向量所包含的信息并不充足,有时不能准确地反映字符的真实语义。因此,许多研究者开始尝试通过融入外部词典信息来增强命名实体识别的准确性。这种词汇增强方法可以有效地降低传统分词技术中的分割错误,并强化中文词汇的语义和边界信息。

3、然而,这一方法在特定数据领域也存在其固有的问题。首先,构建专业的外部词典非常耗时和费力。其次,对于一些特定的领域,比如文物修复,现有的词典中几乎没有相关词汇信息,这导致在这些特定领域中,常规的词汇本文档来自技高网...

【技术保护点】

1.一种基于分层样本进行命名实体识别的方法,其特征在于,分为以下三个步骤:

2.根据权利要求1所述的一种基于分层样本进行命名实体识别的方法,其特征在于,该方法分为数据预处理模块(1)、粗粒度命名实体筛选模块(2)、样本分层处理模块(3)、细粒度命名实体分类模块(4);

【技术特征摘要】

1.一种基于分层样本进行命名实体识别的方法,其特征在于,分为以下三个步骤:

2.根据权利要求1所述的一种基于分层样本进行命名实体...

【专利技术属性】
技术研发人员:李建强齐宏智徐曦赵琳娜程文秀刘素芹高正凯江梦
申请(专利权)人:北京工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1