基于双层CRF的实体识别系统和方法技术方案

技术编号:46575101 阅读:2 留言:0更新日期:2025-10-10 21:18
本发明专利技术提供一种基于双层CRF的实体识别系统,包括:单一标签输出模块,用于将当前文本数据输入包括双层CRF的NER模型,通过Bert、BiLSTM依次进行向量化和时序特征提取后,经过第一层CRF输所有单一标签及其每个位置的概率分布;复合标签输出模块,用于将所有单一标签每个位置的概率分布输入第二层CRF,根据在第二层CRF中标签转移概率矩阵确定的复合规则,将符合复合规则的单一标签组合为复合标签,输出不符合复合规则的单一标签和复合标签;实体识别模块,用于根据不符合复合规则的单一标签得到当前文本数据中的单一实体,根据复合标签得到当前文本数据中的复合实体。本发明专利技术通过双层CRF架构实现了分层解码机制,使得复合实体的识别准确性得到提高。

【技术实现步骤摘要】

本专利技术涉及自然语言处理,具体涉及一种基于双层crf的实体识别系统和方法。


技术介绍

1、命名实体识别是自然语言处理的基本任务之一,基本目标是识别文本中预定义类别的词语,这些实体类别被称为实体类型,常见如人名、组织、地点、时间,这些被识别的词语,被称为实体或实体提及。如“小明明天要去北京”,这句话中“小明”属于人名,“明天”属于时间,“北京”属于地点。命名实体识别的任务目标,就是把这些实体抽取出来,并给出正确的实体类型。实体类型是预定义的,可以根据应用场景决定,如在分析电商销售情况时,也可以给出“品牌”这一实体类型,相应地,文本中出现的品牌,就属于这一类型下的实体。准确识别实体,是将非结构化的文本抽取为结构化文本的基础子任务。

2、目前传统的基于crf的模型解码,对简单命名实体识别效果较好,但在复合命名实体识别任务中存在问题。在一些领域语料中,组织名、地名,大量存在复合形式。我们把如“北京市”这样的实体称为简单地名,如“北京市海淀区”这样嵌套包含多个地名的实体,称为复合地名。复合地名、复合机构名的存在带来两个问题。一是,标志特征抽取问题。复合本文档来自技高网...

【技术保护点】

1.一种基于双层CRF的实体识别系统,其特征在于,包括:

2.根据权利要求1所述的基于双层CRF的实体识别系统,其特征在于:

3.根据权利要求2所述的基于双层CRF的实体识别系统,其特征在于,所述包括双层CRF的NER模型根据如下方法训练得到:

4.根据权利要求3所述的基于双层CRF的实体识别系统,其特征在于:

5.根据权利要求4所述的基于双层CRF的实体识别系统,其特征在于:

6.根据权利要求5所述的基于双层CRF的实体识别系统,其特征在于:

7.根据权利要求6所述的基于双层CRF的实体识别系统,其特征在于:...

【技术特征摘要】

1.一种基于双层crf的实体识别系统,其特征在于,包括:

2.根据权利要求1所述的基于双层crf的实体识别系统,其特征在于:

3.根据权利要求2所述的基于双层crf的实体识别系统,其特征在于,所述包括双层crf的ner模型根据如下方法训练得到:

4.根据权利要求3所述的基于双层crf的实体识别系统,其特征在于:

5.根据权利要求4所述的基于双层crf的实体识别系统,其特征在于:

6.根据权利...

【专利技术属性】
技术研发人员:覃基伟周自成马良荔牛敬华李永杰戴嘉轩
申请(专利权)人:中国人民解放军海军工程大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1