【技术实现步骤摘要】
一种融合实体类型与关键词特征的命名实体识别方法
[0001]本专利技术涉及命名实体识别
,尤其涉及一种融合实体类型与关键词特征的命名实体识别方法。
技术介绍
[0002]命名实体识别(Named Entity Recognition,简称NER),又称为“专名识别”,是指识别文本中具有特定意义的实体,主要包括人名、地名、专有名词、机构名等。命名实体识别是自然语言处理中的一项基础关键性任务,是信息提取、问答系统、句法分析、机器翻译、面向Semantic Web的元数据标注等应用领域的重要基础工具。一般来说,命名实体识别的任务是识别出待处理文本中三大类(实体类、时间类和数字类)、七小类(人名、机构名、地名、时间、日期、货币和百分比)命名实体。
[0003]方法上,从模型的层面,可分为基于规则的方法、基于机器学习的方法、基于深度学习的方法和混合方法4类。从输入的层面,则可分为基于字(character
‑
level)的方法、基于词(work
‑
level)的方法、两者结合的方法3类 ...
【技术保护点】
【技术特征摘要】
1.一种融合实体类型与关键词特征的命名实体识别方法,其特征在于,包括:从待处理文本中提取待处理文本中的关键词特征和实体类型特征;将关键词特征、实体类型特征和待处理文本共同送入编码层获取对应的向量化表示;将关键词向量、实体类型特征向量和文本向量进行向量融合;对融合后的向量使用多头自注意力机制;将注意力机制输出结果输入训练好的实体识别二分类器中,抽取相应的实体信息。2.根据权利要求1所述的一种融合实体类型与关键词特征的命名实体识别方法,其特征在于,在从待处理文本中提取待处理文本中的关键词特征和实体类型特征之前,还包括:采用指针网络标注策略对待处理文本进行标注。3.根据权利要求1所述的一种融合实体类型与关键词特征的命名实体识别方法,其特征在于,按照以下方式提取待处理文本中的关键词特征:使用HanLPClient对待处理文本进行分析,得到分析结果;将分析结果中得分权重值大于阈值的词语作为关键词使用,并添加到关键词特征词表中;逐一比对关键词特征词表中是否包含有存在于无关性词表中词语,若有将其从关键词特征词表中删除;通过BERTEncoder编码器得到关键词特征的向量化表示;通过向量拼接法,将关键词特征向量和文本特征向量进行融合,得到融合后的向量;将融合后的向量作为模型的输入。4.根据权利要求3所述的一种融合实体类型与关键词特征的命名实体识别方法,其特征在于,在逐一比对关键词特征词表中是否包含有存在于无关性词表中词语之前,还包括:建立无关词表,所述无关词表用于存储无关性词语。5.根据权利要求1所述的一种融合实体类型与关键词特征的命名实体识别方法,其特征在于,照以下方式提取待处理文本中的实体类型特征:依据数据集构建实体类型关键词词典;结合关键词词典和数据集特点,构造正则表达式用以提取文本中隐含的实体类型特征;使用正则表达式从文本中提取实体类型信息;使用BERTEncoder编码器得到实体类型信息的向量化表示;通过向量拼接法,将实体类型特征向量和文本特征向量进行融合,得到融合后的向量;将融合后的向量作为模型的输入。6.根据权利要求1所述的一种融合实体类型与关键词特征的命名实体识别方法,其特征在于,所述将关键词特征、实体类型特征和待处理文本共同送入编码层获取对应的向量化表示包括:将关键词特征、实体类型特征和待处理文本依照BERT模型提供的字典按字进行切割;将切割后的关键词特征、实体类型特征和待处理文本送入BERTEncoder编码器中,获取文本的数值化表示。7.根据权利要求1所述的一种融合实体类型与关键词特征的命名实体识别方法,其特征在于,使用逐位相加法将关键词向量、实体类型特征向量...
【专利技术属性】
技术研发人员:王沁武,汪永伟,张玉臣,刘鹏程,周洪伟,王艺霏,周胜男,李相成,
申请(专利权)人:中国人民解放军战略支援部队信息工程大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。