命名实体标注方法、装置、电子设备及存储介质制造方法及图纸

技术编号:37604461 阅读:16 留言:0更新日期:2023-05-18 11:56
本申请实施例提供了一种命名实体标注方法、装置、电子设备及存储介质。其中,所述命名实体标注方法包括:获取待处理文本;根据所述待处理文本的语种,确定目标标注规则;确定所述待处理文本中的目标分词,所述目标分词为所述待处理文本中除非名词分词和数量短语修饰的分词外的未标注分词;根据所述目标标注规则对所述目标分词进行命名实体类别标注。通过本申请实施例,可以先通过排除法确定出待标注的目标分词,并结合命名实体在不同语言中的句法表现,根据目标标注规则对目标分词进行类别标注,而不是局限于对单个命名实体的识别,从而提高命名实体识别的效率。提高命名实体识别的效率。提高命名实体识别的效率。

【技术实现步骤摘要】
命名实体标注方法、装置、电子设备及存储介质


[0001]本申请涉及命名实体识别
,尤其涉及一种命名实体标注方法、装置、电子设备及存储介质。

技术介绍

[0002]命名实体一般指的是文本中具有特定意义或者指代性强的实体,学术上通常包括实体类、时间类、数字类三大类和人名、地名、组织机构名、时间、日期、货币、百分比七小类。
[0003]命名实体识别(Named Entity Recognition,NER)是分词的子任务,用于从非结构化的输入文本中抽取出命名实体,并根据业务需求识别出各类别的命名实体,为信息提取、问答系统、句法分析、机器翻译、知识图谱等众多自然语言处理(Natural Language Processing,NLP)任务提供重要基础工具支持。
[0004]由于命名实体的数量不断动态增加,不可能在词典中穷尽列出,而相关技术中的命名实体识别模型的训练通常仅针对单个词进行训练,存在效率低的问题。

技术实现思路

[0005]本申请提供一种命名实体标注方法、装置、电子设备及存储介质,以提高命名实体识别的效率。
[0006]第一方面,本申请实施例提供了一种命名实体标注方法,包括:获取待处理文本;根据所述待处理文本的语种,确定目标标注规则;确定所述待处理文本中的目标分词,所述目标分词为所述待处理文本中除非名词分词和数量短语修饰的分词外的未标注分词;根据所述目标标注规则对所述目标分词进行命名实体类别标注。
[0007]第二方面,本申请实施例提供了一种命名实体标注装置,包括:获取模块,用于获取待处理文本;第一确定模块,用于根据所述待处理文本的语种,确定目标标注规则;第二确定模块,用于确定所述待处理文本中的目标分词,所述目标分词为所述待处理文本中除非名词分词和数量短语修饰的分词外的未标注分词;标注模块,用于根据所述目标标注规则对所述目标分词进行命名实体类别标注。
[0008]第三方面,本申请实施例提供了一种电子设备,包括:处理器;以及,被安排成存储计算机可执行指令的存储器,所述可执行指令被配置由所述处理器执行,所述可执行指令包括用于执行上述第一方面所述的方法中的步骤。
[0009]第四方面,本申请实施例提供了一种存储介质,所述存储介质用于存储计算机可执行指令,所述可执行指令使得计算机执行上述第一方面所述的方法。
[0010]在本申请实施例中,先通过排除法确定出待标注的目标分词,并结合命名实体在不同语言中的句法表现,根据目标标注规则对目标分词进行类别标注,而不是局限于对单个命名实体的识别,从而提高命名实体识别的效率。
附图说明
[0011]为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。
[0012]图1为本申请实施例提供的一种命名实体标注方法的第一种流程示意图;
[0013]图2为本申请实施例提供的一种命名实体标注方法的第二种流程示意图;
[0014]图3为本申请实施例提供的一种命名实体标注方法的第三种流程示意图;
[0015]图4为本申请实施例提供的一种命名实体标注装置的模块组成示意图;
[0016]图5为本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
[0017]为了使本
的人员更好地理解本申请实施例中的技术方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请的一部分实施例,而不是全部的实施例。基于本申请实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都应当属于本申请的保护范围。
[0018]本申请的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象,而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,说明书以及权利要求中“和/或”表示所连接对象的至少其中之一,字符“/”,一般表示前后关联对象是一种“或”的关系。
[0019]以下结合附图,详细说明本申请各实施例提供的技术方案。
[0020]图1为本申请一个或多个实施例提供的一种命名实体标注方法的流程示意图。如图1所示,该方法包括以下步骤:
[0021]S110:获取待处理文本。
[0022]其中,待处理文本可以理解为以标点符号划分的单条文本。
[0023]S120:根据所述待处理文本的语种,确定目标标注规则。
[0024]在本申请实施例中,结合命名实体在不同语种中的句法表现,确定标注规则。
[0025]由于不同语种存在词法发达与句法发达的区别,例如,汉语、藏语等汉藏语系的句法发达,语序对语义的影响较大,词法简单,没有单复数、格的变换,而英语等印欧语系的词法发达,句法简单。因此,在不同语种环境中,命名实体的构成方式存在区别。由于命名实体在不同语言中存在不同的句法表现,故而根据不同的语种,确定不同的标注规则,例如语种1对应标注规则1、语种2对应标注规则2。
[0026]在S120之前,方法还包括确定待处理文本的语种。在一种实现方式中,通过获取待处理文本的语种标签,确定待处理文本的语种。在另一种实现方式中,对待处理文本进行语种检测,确定待处理文本的语种。对此,本申请实施例不进行限制。
[0027]另外,为方便举例说明,本申请实施例以待处理文本为汉语语种为例,对步骤进行具体的举例说明。
[0028]S130:确定所述待处理文本中的目标分词,所述目标分词包括所述待处理文本中除非名词分词和数量短语修饰的分词外的未标注分词。
[0029]在本申请实施例中,通过排除法确定出待标注的目标分词,先识别待处理文本中的非名词分词和数量短语修饰的分词,进而从待处理文本中排除非名词分词和数量短语修饰的分词,剩下的未标注分词即为待标注的目标分词。
[0030]其中,非名词指的是动词、形容词等非名词,例如“说”、“漂亮的”等。在一种实现方式中,引入词典对动词、形容词等进行识别。在本申请实施例中,从待处理人本中排除非名词分词,例如是排除“说”、“漂亮的”等非名词分词。
[0031]数量短语指的是由数词和量词构成的短语,例如“两只”、“三朵”等。对数量短语的识别可以通过对数词和量词的识别来实现,在一种实现方式中,引入数词词典对数词进行识别,引入量词词典对量词进行识别,若识别第一分词在数词词典中、位于第一分词之后的第二分词在量词词典中,则将第一分词和第二分词构成的短语确定为数量短语,进而识别位于该数量短语后的分词,就是数量短语修饰的分词。例如,待处理文本中包括“两只猫”,识别待处理文本中存在数量短语“两只”,从而识别“猫”为数量短语修饰的分词,在确定本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种命名实体标注方法,其特征在于,包括:获取待处理文本;根据所述待处理文本的语种,确定目标标注规则;确定所述待处理文本中的目标分词,所述目标分词包括所述待处理文本中除非名词分词和数量短语修饰的分词外的未标注分词;根据所述目标标注规则对所述目标分词进行命名实体类别标注。2.根据权利要求1所述的方法,其特征在于,所述目标标注规则包括以下至少一项:第一规则:根据已标注命名实体的类别信息标注待标注词;第二规则:根据预设信息对应的类别信息标注待标注词。3.根据权利要求2所述的方法,其特征在于,所述方法还包括:在命名实体标注库中查找与所述目标分词对应的同构词文本,所述同构词文本为已标注命名实体;根据所述第一规则对所述目标分词进行命名实体类别标注。4.根据权利要求2所述的方法,其特征在于,所述方法还包括:在命名实体标注库中查找与所述待处理文本对应的同构句文本,所述同构句文本中包括与所述目标分词对应的已标注命名实体;计算所述同构句文本的混淆度和所述待处理文本的混淆度;若所述同构句文本的混淆度和所述待处理文本的混淆度的差值小于预设阈值,则根据所述第一规则对所述目标分词进行命名实体类别标注。5.根据权利要求2所述的方法,其特征在于,所述方法还包括:若确定所述待处理文本中包括与所述目标分词存在并列关系的已标注命名实体,则根据所述第一规则对所述目标分词进行命名实体类别标注。6.根据权利要求2所述的方法,其特征在于,所述预设信息包括预设代词,所述预设代词用于模糊表述预设类别的命名实体;所述方法还包括:将所述目标分词用所述预设代词替换,得到替换文本;计算所述替换文本的混淆度和所述待处理文本的混淆度;若...

【专利技术属性】
技术研发人员:白安琪吴海英肖冰
申请(专利权)人:马上消费金融股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1