一种命名实体识别方法、装置、设备及存储介质制造方法及图纸

技术编号:30143160 阅读:18 留言:0更新日期:2021-09-23 15:11
本发明专利技术公开了一种命名实体识别方法、装置、设备及存储介质。该方法包括:获取待识别字符的图特征向量;将所述待识别字符的图特征向量输入目标命名实体识别模型,得到所述待识别字符的图特征向量对应的实体类别,通过本发明专利技术的技术方案,以解决命名实体识别模型初始特征缺少领域字符实体关系的问题,同时改善训练样本不均带来的个别实体被忽略问题。本不均带来的个别实体被忽略问题。本不均带来的个别实体被忽略问题。

【技术实现步骤摘要】
一种命名实体识别方法、装置、设备及存储介质


[0001]本专利技术实施例涉及计算机
,尤其涉及一种命名实体识别方法、装置、设备及存储介质。

技术介绍

[0002]命名实体识别是信息抽取任务的一种子任务。信息抽取即从非结构化的数据中(如文本)中提取出结构化的信息及特定的关系,其中,命名实体识别是要确定抽取出的信息实体的名称(类别),并同时确定出命名实体的范围与边界。对于这一应用问题,现有的解决方案有如下几大类:
[0003]1.基于规则的方法:对于特定知识领域下文本中的命名实体识别任务,基于规则的方法通常是让该领域的专家制定出一套识别规则,例如关键字/词,结构形式等,从目标文本中筛选出符合规则的实体。
[0004]2.传统机器学习方法:这类方法主要是采用对已有数据中的实体进行标注,辅以按照一定规则(例如几种词袋模型)对数据中文本要素(字、词等)生成的数值向量特征,再用数据训练统计机器学习模型,例如最大熵模型(MEME)、隐马尔可夫模型(HMM)、条件随机场模型(CRF)等,最后使用训练完成的模型预测新数据中存在的实体。
[0005]3.深度学习方法:这类方法是目前的主流。特点是训练各种神经网络,后进行预测。实际上,这类方法可视为对传统机器学习方法中数值向量特征生成方式的增强。这是因为传统方式中的各种模型往往是神经网络最后进行预测的部分,而在预测之前的神经网络结构事实上完成的任务是生成信息表达能力更强的向量特征。比较典型的方法是各种循环神经网络(如LSTM)加上预测模型(如CRF)。
>[0006]现有技术的缺点概括如下:
[0007]首先,基于规则的方法编制出的规则通常依赖于文本所属的领域以及撰写的风格,这些要素在不同文本中高度不稳定不一致,而规则缺乏灵活性,难以覆盖所有可能出现的情况,泛化能力差。
[0008]其次,传统机器学习方法虽然能从大量数据中学习到适应性相对较强的判断逻辑,但由于其特征表达能力尚有欠缺,当数据量增加、语言风格频繁变化时,常规特征工程难以充分表达出文本之间的共性与差异,进而影响方法整体的效果。
[0009]最后,基于深度学习的方法作为当前的主流,将传统分类器模型融入到神经网络模型中,使得模型具备更强的特征表达能力,进而对真实数据分布有更强的拟合能力。这一大类方法在各种领域的数据上展示出了良好的效果,得到了广泛的应用。但即便如此,此类方法仍有可改进之处,一个典型的问题就是模型输入特征向量的初始化。具体地,一般在深度学习模型中,作为模型最初输入的样本特征(或称表征、表示)向量若不进行特殊处理,则通常为随机数,不携带有效信息,在以目标函数为指导下进行训练后,其值才发生改变,并开始表达样本携带的信息。
[0010]因此,如何初始化特征向量对模型效果会产生相当的影响。目前,业界采用较多的
方式是使用一些使用广域、巨量文本数据预训练的词向量作为初始特征向量。这种方式存在一些不足。一方面,虽然提供了比较通用的语义特征,但缺少当前领域内特定的语义关系;另一方面,当训练数据中的实体分布非常不均匀时(例如总共6种实体,出现最多的实体出现10000次,出现最少的实体出现10次),容易出现模型整体预测准确度较好,但对于个别标签的预测准确度很差的情况。

技术实现思路

[0011]本专利技术实施例提供一种命名实体识别方法、装置、设备及存储介质,以解决命名实体识别模型初始特征缺少领域字符实体关系的问题,同时改善训练样本不均带来的个别实体被忽略问题。
[0012]第一方面,本专利技术实施例提供了一种命名实体识别方法,包括:
[0013]获取待识别字符的图特征向量;
[0014]将所述待识别字符的图特征向量输入目标命名实体识别模型,得到所述待识别字符的图特征向量对应的实体类别。
[0015]第二方面,本专利技术实施例还提供了一种命名实体识别装置,该装置包括:
[0016]获取模块,用于获取待识别字符的图特征向量;
[0017]识别模块,用于将所述待识别字符的图特征向量输入目标命名实体识别模型,得到所述待识别字符的图特征向量对应的实体类别。
[0018]第三方面,本专利技术实施例还提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如本专利技术实施例中任一所述的命名实体识别方法。
[0019]第四方面,本专利技术实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本专利技术实施例中任一所述的命名实体识别方法。
[0020]本专利技术实施例通过获取待识别字符的图特征向量;将所述待识别字符的图特征向量输入目标命名实体识别模型,得到所述待识别字符的图特征向量对应的实体类别,以解决命名实体识别模型初始特征缺少领域字符实体关系的问题,同时改善训练样本不均带来的个别实体被忽略问题。
附图说明
[0021]为了更清楚地说明本专利技术实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本专利技术的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
[0022]图1是本专利技术实施例中的一种命名实体识别方法的流程图;
[0023]图1a是本专利技术实施例中的基于字符

实体图特征的命名实体识别流程图;
[0024]图1b是本专利技术实施例中的带权字符

实体图构建示例图;
[0025]图1c是本专利技术实施例中的图自编码器SDNE结构的示意图;
[0026]图1d是本专利技术实施例中的BiLSTM+CRF命名实体识别模型的示意图;
[0027]图2是本专利技术实施例中的一种命名实体识别装置的结构示意图;
[0028]图3是本专利技术实施例中的一种电子设备的结构示意图;
[0029]图4是本专利技术实施例中的一种包含计算机程序的计算机可读存储介质的结构示意图。
具体实施方式
[0030]下面结合附图和实施例对本专利技术作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本专利技术,而非对本专利技术的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本专利技术相关的部分而非全部结构。此外,在不冲突的情况下,本专利技术中的实施例及实施例中的特征可以相互组合。
[0031]在更加详细地讨论示例性实施例之前应当提到的是,一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各项操作(或步骤)描述成顺序的处理,但是其中的许多操作可以被并行地、并发地或者同时实施。此外,各项操作的顺序可以被重新安排。当其操作完成时所述处理可以被终止,但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。此外,在不冲突的情况下,本专利技术中的实施例及实施例中的特征可以相互组合。
[0032]本专利技术使用的术语“包括”本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种命名实体识别方法,其特征在于,包括:获取待识别字符的图特征向量;将所述待识别字符的图特征向量输入目标命名实体识别模型,得到所述待识别字符的图特征向量对应的实体类别。2.根据权利要求1所述的方法,其特征在于,在获取待识别字符的图特征向量之前,还包括:获取文本样本,其中,所述文本样本包括:实体标注;根据所述文本样本中的字符和字符之间的关系建立字符实体图;根据所述字符实体图确定每个字符节点对应的邻接向量;将每个字符节点对应的邻接向量输入SDNE模型,得到每个字符节点对应的图特征向量。3.根据权利要求2所述的方法,其特征在于,获取待识别字符的图特征向量,包括:获取待识别字符;根据所述待识别字符查询所述每个字符节点对应的图特征向量,得到所述待识别字符的图特征向量。4.根据权利要求2所述的方法,其特征在于,根据所述文本样本中的字符和字符之间的关系建立字符实体图,包括:将所述文本样本中的每一个字符确定为字符节点,根据字符之间的关系建立字符节点之间的边,得到字符实体图。5.根据权利要求2所述的方法,其特征在于,在根据所述文本样本中的字符和字符之间的关系建立字符实体图之后,还包括:按照预设规则确定所述字符实体图的边的权重。6.根据权利要求5所述的方法,其特征在于,按照预设规则确定所述字符实体图的边的权重:根据各个实体占总实体数的比例确定各个实体对应的边的权重。7.根据权利要求2所述的方法,其特征在于,所述SDNE模型的损失函数...

【专利技术属性】
技术研发人员:钟韵辞万建伟孙科贺凯余非裴卫民冯文亮
申请(专利权)人:上海浦东发展银行股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1