命名实体标注方法、装置、电子设备及存储介质制造方法及图纸

技术编号:37604461 阅读:18 留言:0更新日期:2023-05-18 11:56
本申请实施例提供了一种命名实体标注方法、装置、电子设备及存储介质。其中,所述命名实体标注方法包括:获取待处理文本;根据所述待处理文本的语种,确定目标标注规则;确定所述待处理文本中的目标分词,所述目标分词为所述待处理文本中除非名词分词和数量短语修饰的分词外的未标注分词;根据所述目标标注规则对所述目标分词进行命名实体类别标注。通过本申请实施例,可以先通过排除法确定出待标注的目标分词,并结合命名实体在不同语言中的句法表现,根据目标标注规则对目标分词进行类别标注,而不是局限于对单个命名实体的识别,从而提高命名实体识别的效率。提高命名实体识别的效率。提高命名实体识别的效率。

【技术实现步骤摘要】
命名实体标注方法、装置、电子设备及存储介质


[0001]本申请涉及命名实体识别
,尤其涉及一种命名实体标注方法、装置、电子设备及存储介质。

技术介绍

[0002]命名实体一般指的是文本中具有特定意义或者指代性强的实体,学术上通常包括实体类、时间类、数字类三大类和人名、地名、组织机构名、时间、日期、货币、百分比七小类。
[0003]命名实体识别(Named Entity Recognition,NER)是分词的子任务,用于从非结构化的输入文本中抽取出命名实体,并根据业务需求识别出各类别的命名实体,为信息提取、问答系统、句法分析、机器翻译、知识图谱等众多自然语言处理(Natural Language Processing,NLP)任务提供重要基础工具支持。
[0004]由于命名实体的数量不断动态增加,不可能在词典中穷尽列出,而相关技术中的命名实体识别模型的训练通常仅针对单个词进行训练,存在效率低的问题。

技术实现思路

[0005]本申请提供一种命名实体标注方法、装置、电子设备及存储介质,以提高命名实体识别的效率本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种命名实体标注方法,其特征在于,包括:获取待处理文本;根据所述待处理文本的语种,确定目标标注规则;确定所述待处理文本中的目标分词,所述目标分词包括所述待处理文本中除非名词分词和数量短语修饰的分词外的未标注分词;根据所述目标标注规则对所述目标分词进行命名实体类别标注。2.根据权利要求1所述的方法,其特征在于,所述目标标注规则包括以下至少一项:第一规则:根据已标注命名实体的类别信息标注待标注词;第二规则:根据预设信息对应的类别信息标注待标注词。3.根据权利要求2所述的方法,其特征在于,所述方法还包括:在命名实体标注库中查找与所述目标分词对应的同构词文本,所述同构词文本为已标注命名实体;根据所述第一规则对所述目标分词进行命名实体类别标注。4.根据权利要求2所述的方法,其特征在于,所述方法还包括:在命名实体标注库中查找与所述待处理文本对应的同构句文本,所述同构句文本中包括与所述目标分词对应的已标注命名实体;计算所述同构句文本的混淆度和所述待处理文本的混淆度;若所述同构句文本的混淆度和所述待处理文本的混淆度的差值小于预设阈值,则根据所述第一规则对所述目标分词进行命名实体类别标注。5.根据权利要求2所述的方法,其特征在于,所述方法还包括:若确定所述待处理文本中包括与所述目标分词存在并列关系的已标注命名实体,则根据所述第一规则对所述目标分词进行命名实体类别标注。6.根据权利要求2所述的方法,其特征在于,所述预设信息包括预设代词,所述预设代词用于模糊表述预设类别的命名实体;所述方法还包括:将所述目标分词用所述预设代词替换,得到替换文本;计算所述替换文本的混淆度和所述待处理文本的混淆度;若...

【专利技术属性】
技术研发人员:白安琪吴海英肖冰
申请(专利权)人:马上消费金融股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1