当前位置: 首页 > 专利查询>启元实验室专利>正文

文本实体标注方法及装置制造方法及图纸

技术编号:39185281 阅读:7 留言:0更新日期:2023-10-27 08:32
本申请公开了一种文本实体标注方法、文本实体标注装置、电子设备及存储介质,属于自然语言处理技术领域,其中,该方法包括:通过扩展实体识别模型中的多种算法对目标文本进行预测标注;将多种算法的预测标注结果取并集作为扩展实体词汇,以使扩展实体词汇最大限度地包含正确实体词汇;基于特定算法对扩展实体词汇进行筛选;通过实体词典库标注出目标文本的词典词汇;对词典词汇和经过筛选的扩展实体词汇进行匹配修正得到标注词汇。该方法通过大量匹配与精细筛选相结合有助于在实现全量标注,同时降低标注错误率,排除冗余词汇。排除冗余词汇。排除冗余词汇。

【技术实现步骤摘要】
文本实体标注方法及装置


[0001]本申请属于自然语言处理
,具体涉及一种文本实体标注方法、装置、电子设备及存储介质。

技术介绍

[0002]自然语言处理中,文本实体识别标注是重要的基础工作。传统的文本实体标注方法通常为人工标注,人工标注耗时长且需要消耗大量的人力,对于专业性较强的领域,普通的标注人员的标注难度较大,标注准确性较差。
[0003]现有的文本实体标注方法包括主动学习标注方法,主动学习能够提高标注的效率,但主动学习标注的准确性依赖于样本的质量和数量,不适用于数据稀缺的专业领域,采用主动学习进行全量标注时,易引入大量非专业领域词汇。

技术实现思路

[0004]本申请的目的是提供一种文本实体标注方法、装置、电子设备及存储介质以解决现有的文本实体标注的问题。
[0005]根据本申请实施例的第一方面,提供了一种文本实体标注方法,该方法可以包括:
[0006]通过扩展实体识别模型中的多种算法对目标文本进行预测标注;
[0007]将所述多种算法的预测标注结果取并集作为扩展实体词汇,以使所述扩展实体词汇最大限度地包含正确实体词汇;
[0008]基于特定算法对所述扩展实体词汇进行筛选;
[0009]通过实体词典库标注出目标文本的词典词汇;
[0010]对所述词典词汇和经过筛选的所述扩展实体词汇进行匹配修正得到标注词汇。
[0011]在一些实施例中,通过扩展实体识别模型中的多种算法对目标文本进行预测标注包括:
[0012]通过所述扩展实体识别模型中的关键词抽取算法提取所述目标文本的关键词,并将所述关键词作为扩展实体词汇在所述目标文本标出;
[0013]通过所述扩展实体识别模型中的词性标注算法提取所述目标文本的名词短语,并将所述名词短语作为扩展实体词汇在所述目标文本标出;
[0014]通过所述扩展实体识别模型中的命名实体识别算法提取所述目标文本的命名实体,并将所述命名实体作为扩展实体词汇在所述目标文本标出。
[0015]在一些实施例中,基于输入信号对所述扩展实体词汇进行筛选包括:
[0016]基于输入信号删除非专业领域的扩展实体词汇;
[0017]删除不符合上下文语法结构的扩展实体词汇;
[0018]从存在边界冲突的扩展实体词汇中选择字符数最长的扩展实体词汇保留,并删除其余扩展实体词汇。
[0019]在一些实施例中,对经过筛选的所述扩展实体词汇和所述词典词汇进行匹配修正
得到标注词汇包括:
[0020]当扩展实体词汇和词典词汇存在边界重叠时,判断词典词汇是否在扩展实体词汇内部得到第一判断结果;
[0021]所述第一判断结果为是,则删除词典词汇;
[0022]所述第一判断结果为否,则判断扩展实体词汇是否在词典词汇内部得到第二判断结果;
[0023]所述第二判断结果为是,则删除扩展实体词汇;
[0024]所述第二判断结果为否,则统计扩展实体词汇和词典词汇在目标文本中的词频;当扩展实体词汇的词频大于或等于词典词汇时,删除词典词汇;当扩展实体词汇的词频小于词典词汇时,删除扩展实体词汇。
[0025]在一些实施例中,基于所述标注词汇更新实体词典库;
[0026]基于所述标注词汇对所述扩展实体识别模型进行优化;
[0027]重复上述步骤N次完成目标文本实体标注。
[0028]在一些实施例中,基于所述标注词汇对所述扩展实体识别模型进行优化包括:
[0029]将目标文本作为样本,标注词汇作为标签,对所述扩展实体识别模型进行训练。
[0030]在一些实施例中,基于所述标注词汇更新实体词典库,包括:
[0031]从所述标注词汇中提取出所述实体词典库中不存在的新实体词汇;
[0032]将所述新实体词汇加入所述实体词典库得到更新后的所述实体词典库。
[0033]根据本申请实施例的第二方面,提供了一种文本实体标注装置,包括:
[0034]扩展标注模块,用于通过扩展实体识别模型中的多种算法对目标文本进行预测标注;
[0035]汇总模块,用于将所述多种算法的预测标注结果取并集作为扩展实体词汇,以使所述扩展实体词汇最大限度地包含正确实体词汇;
[0036]筛选模块,用于基于特定算法对所述扩展实体词汇进行筛选;
[0037]词典标注模块,用于通过实体词典库标注出目标文本的词典词汇;
[0038]匹配修正模块,用于对经过筛选的所述扩展实体词汇和所述词典词汇进行匹配修正得到标注词汇。
[0039]根据本申请实施例的第三方面,提供了一种电子设备,包括:处理器,存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令,所述程序或指令被所述处理器执行时实现如上述任一实施例提供的一种文本实体标注方法。
[0040]根据本申请实施例的第四方面,提供了一种可读存储介质,所述可读存储介质上存储程序或指令,所述程序或指令被处理器执行时实现如上述任一实施例提供的所述的一种文本实体标注方法。
[0041]本申请的上述技术方案具有如下有益的技术效果:
[0042]本申请实施例方法通过扩展实体识别模型与人工判断筛选相结合的标注方式能够避免引入非专业领域词汇,同时降低人工标注难度和系统的运算量,提高标注效率,通过引入词典词汇进一步进行匹配修正有助于在实现全量标注,同时降低标注错误率,排除冗余词汇。
附图说明
[0043]图1是本申请一示例性实施例中一种文本实体标注方法流程示意图;
[0044]图2是本申请一示例性实施例中扩展实体识别模型标注流程示意图;
[0045]图3是本申请一示例性实施例中对扩展实体词汇进行筛选流程示意图;
[0046]图4是本申请一示例性实施例中对扩展实体词汇和词典词汇进行匹配修正流程示意图;
[0047]图5是本申请又一示例性实施例中一种文本实体标注方法流程示意图;
[0048]图6是本申请一示例性实施例中一种文本实体标注装置结构示意图;
[0049]图7是本申请一示例性实施例中电子设备结构示意图;
[0050]图8是本申请一示例性实施例中电子设备的硬件结构示意图。
具体实施方式
[0051]为使本申请的目的、技术方案和优点更加清楚明了,下面结合具体实施方式并参照附图,对本申请进一步详细说明。应该理解,这些描述只是示例性的,而并非要限制本申请的范围。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本申请的概念。
[0052]显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
[0053]在本申请的描述中,需要说明的是,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。
[本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本实体标注方法,其特征在于,包括:通过扩展实体识别模型中的多种算法对目标文本进行预测标注;将所述多种算法的预测标注结果取并集作为扩展实体词汇,以使所述扩展实体词汇最大限度地包含正确实体词汇;基于特定算法对所述扩展实体词汇进行筛选;通过实体词典库标注出目标文本的词典词汇;对所述词典词汇和经过筛选的所述扩展实体词汇进行匹配修正得到标注词汇。2.根据权利要求1所述的一种文本实体标注方法,其特征在于,通过扩展实体识别模型中的多种算法对目标文本进行预测标注包括:通过所述扩展实体识别模型中的关键词抽取算法提取所述目标文本的关键词,并将所述关键词作为扩展实体词汇在所述目标文本标出;通过所述扩展实体识别模型中的词性标注算法提取所述目标文本的名词短语,并将所述名词短语作为扩展实体词汇在所述目标文本标出;通过所述扩展实体识别模型中的命名实体识别算法提取所述目标文本的命名实体,并将所述命名实体作为扩展实体词汇在所述目标文本标出。3.根据权利要求1所述的一种文本实体标注方法,其特征在于,基于输入信号对所述扩展实体词汇进行筛选包括:基于输入信号删除非专业领域的扩展实体词汇;删除不符合上下文语法结构的扩展实体词汇;从存在边界冲突的扩展实体词汇中选择字符数最长的扩展实体词汇保留,并删除其余扩展实体词汇。4.根据权利要求1所述的一种文本实体标注方法,其特征在于,对经过筛选的所述扩展实体词汇和所述词典词汇进行匹配修正得到标注词汇包括:当扩展实体词汇和词典词汇存在边界重叠时,判断词典词汇是否在扩展实体词汇内部得到第一判断结果;所述第一判断结果为是,则删除词典词汇;所述第一判断结果为否,则判断扩展实体词汇是否在词典词汇内部得到第二判断结果;所述第二判断结果为是,则删除扩展实体词汇;所述第二判断结果为否,则统计扩展实体词汇和词典词汇在目标文本中的词频;...

【专利技术属性】
技术研发人员:祁浩然王涛孙亚伟李涓子
申请(专利权)人:启元实验室
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1