数据集的标注方法、装置、电子设备及介质制造方法及图纸

技术编号:36397361 阅读:8 留言:0更新日期:2023-01-18 10:03
本发明专利技术提供了一种数据集的标注方法、装置、电子设备及介质,包括:基于预先得到的目标领域的实体字典确定实体字典长文本;计算实体字典长文本和待标注文本的公共子序列,并确定公共子序列的边界区间;基于公共子序列的边界区间将边界重合的公共子序列进行拼接,得到多个不相交子序列;基于实体字典中的实体名称对不相交子序列进行标注,得到标注文本。本发明专利技术减少了文本标注的工作量,同时降低了开发成本。本。本。

【技术实现步骤摘要】
数据集的标注方法、装置、电子设备及介质


[0001]本专利技术涉及人工智能
,尤其是涉及一种数据集的标注方法、装置、电子设备及介质。

技术介绍

[0002]命名实体识别(Named Entity Recognition,NER)是自然语言处理领域常用的信息提取技术,一般搭建NER模型需要用到标注数据,标注数据直接影响模型表现效果。
[0003]面对新领域的文本,NER模型训练存在冷启动问题,因此需要对训练文本的每个字符添加其所属的实体类别标注。然而对于新领域的NER模型训练,只能靠人工标注生成训练数据集,工作量大且速度慢;或者利用既有目标领域内的参考数据集构造辅助标注模型,比如根据领域知识图谱,以语句中被掩码实体字符为目标训练模型,用来对实体位置进行标注预测,但也增加了额外的工作量和开发成本,而且领域知识图谱并不多见,对于不存在领域知识图谱的情况就无计可施。综上所述,现有的数据集文本标注方法,存在工作量大且开发成本较高的问题。

技术实现思路

[0004]有鉴于此,本专利技术的目的在于提供一种数据集的标注方法、装置、电子设备及介质,以减少了文本标注的工作量,同时降低了开发成本。
[0005]为了实现上述目的,本专利技术实施例采用的技术方案如下:
[0006]第一方面,本专利技术实施例提供了一种数据集的标注方法,包括:基于预先得到的目标领域的实体字典确定实体字典长文本;计算实体字典长文本和待标注文本的公共子序列,并确定公共子序列的边界区间;基于公共子序列的边界区间将边界重合的公共子序列进行拼接,得到多个不相交子序列;基于实体字典中的实体名称对不相交子序列进行标注,得到标注文本。
[0007]在一种实施方式中,基于预先得到的目标领域的实体字典确定实体字典长文本,包括:获取目标领域的文本中的实体名称,得到实体字典;基于实体名称的关键字对实体字典进行分类,得到多个实体类别;基于实体类别对实体名称进行排序,得到实体字典长文本。
[0008]在一种实施方式中,计算实体字典长文本和待标注文本的公共子序列,并确定公共子序列的边界区间,包括:计算公共子序列为待标注文本和实体字典长文本之间连续相同的字符串,并确定字符串的长度;基于预先确定的公共子序列长度阈值,剔除字符串的长度小于公共子序列长度阈值的字符串,得到公共子序列;基于公共子序列中的字符在待标注文本中的字符位置确定公共子序列的边界区间。
[0009]在一种实施方式中,基于实体字典中的实体名称对不相交子序列进行标注之前,还包括:基于公共子序列确定停止词字典。
[0010]在一种实施方式中,基于实体字典中的实体名称对不相交子序列进行标注,包括:
基于实体字典中的实体名称对不相交子序列进行标注,得到第一标注结果;基于停止词字典,滤除第一标注结果中的停止词,得到待标注文本的标注结果。
[0011]第二方面,本专利技术实施例提供了一种数据集的标注装置,包括:实体字典长文本确定模块,用于基于预先得到的目标领域的实体字典确定实体字典长文本;公共子序列确定模块,用于计算实体字典长文本和待标注文本的公共子序列,并确定公共子序列的边界区间;拼接模块,用于基于公共子序列的边界区间将边界重合的公共子序列进行拼接,得到多个不相交子序列;标注模块,用于基于实体字典中的实体名称对不相交子序列进行标注,得到标注文本。
[0012]在一种实施方式中,实体字典长文本确定模块,还用于:获取目标领域的文本中的实体名称,得到实体字典;基于实体名称的关键字对实体字典进行分类,得到多个实体类别;基于实体类别对实体名称进行排序,得到实体字典长文本。
[0013]在一种实施方式中,公共子序列确定模块,还用于:计算公共子序列为待标注文本和实体字典长文本之间连续相同的字符串,并确定字符串的长度;基于预先确定的公共子序列长度阈值,剔除字符串的长度小于公共子序列长度阈值的字符串,得到公共子序列;基于公共子序列中的字符在待标注文本中的字符位置确定公共子序列的边界区间。
[0014]第三方面,本专利技术实施例提供了一种电子设备,包括处理器和存储器,存储器存储有能够被处理器执行的计算机可执行指令,处理器执行计算机可执行指令以实现上述第一方面提供的任一项的方法的步骤。
[0015]第四方面,本专利技术实施例提供了一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器运行时执行上述第一方面提供的任一项的方法的步骤。
[0016]本专利技术实施例带来了以下有益效果:
[0017]本专利技术实施例提供的上述数据集的标注方法、装置、电子设备及介质,首先,基于预先得到的目标领域的实体字典确定实体字典长文本;然后,计算实体字典长文本和待标注文本的公共子序列,并确定公共子序列的边界区间;接着,基于公共子序列的边界区间将边界重合的公共子序列进行拼接,得到多个不相交子序列;最后,基于实体字典中的实体名称对不相交子序列进行标注,得到标注文本。上述方法根据目标领域内的实体字典的实体字典长文本,计算实体字典长文本和待标注文本的公共子序列,进而根据公共子序列对待标注文本进行标注,从而能够快速生成初始实体识别模型需要的标注文本,减少了文本标注的工作量,同时降低了开发成本。
[0018]本专利技术的其他特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本专利技术而了解。本专利技术的目的和其他优点在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。
[0019]为使本专利技术的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
[0020]为了更清楚地说明本专利技术具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的
附图是本专利技术的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0021]图1为本专利技术实施例提供的一种数据集的标注方法的流程图;
[0022]图2为本专利技术实施例提供的一种实体模糊标注的示意图;
[0023]图3为本专利技术实施例提供的一种实体字典拼接示意图;
[0024]图4为本专利技术实施例提供的另一种数据集的标注方法的示意图;
[0025]图5为本专利技术实施例提供的一种数据集的标注装置的结构示意图;
[0026]图6为本专利技术实施例提供的一种电子设备的结构示意图。
具体实施方式
[0027]为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合附图对本专利技术的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0028]目前,对于新领域的NER模型训练,只能靠人工标注生成训练数据集,工作量大且速度慢;或者利用既有本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据集的标注方法,其特征在于,包括:基于预先得到的目标领域的实体字典确定实体字典长文本;计算所述实体字典长文本和待标注文本的公共子序列,并确定所述公共子序列的边界区间;基于所述公共子序列的边界区间将边界重合的所述公共子序列进行拼接,得到多个不相交子序列;基于所述实体字典中的实体名称对所述不相交子序列进行标注,得到标注文本。2.根据权利要求1所述的标注方法,其特征在于,基于预先得到的目标领域的实体字典确定实体字典长文本,包括:获取目标领域的文本中的实体名称,得到实体字典;基于所述实体名称的关键字对所述实体字典进行分类,得到多个实体类别;基于所述实体类别对所述实体名称进行排序,得到实体字典长文本。3.根据权利要求1所述的标注方法,其特征在于,计算所述实体字典长文本和待标注文本的公共子序列,并确定所述公共子序列的边界区间,包括:计算所述公共子序列为所述待标注文本和所述实体字典长文本之间连续相同的字符串,并确定所述字符串的长度;基于预先确定的公共子序列长度阈值,剔除所述字符串的长度小于所述公共子序列长度阈值的字符串,得到公共子序列;基于所述公共子序列中的字符在所述待标注文本中的字符位置确定所述公共子序列的边界区间。4.根据权利要求1所述的标注方法,其特征在于,基于所述实体字典中的实体名称对所述不相交子序列进行标注之前,还包括:基于所述公共子序列确定停止词字典。5.根据权利要求4所述的标注方法,其特征在于,基于所述实体字典中的实体名称对所述不相交子序列进行标注,包括:基于所述实体字典中的实体名称对所述不相交子序列进行标注,得到第一标注结果;基于所述停止词字典,滤除所述第一标注结果中的停止词,得到所述待...

【专利技术属性】
技术研发人员:张涵刘星辰陈晓峰麻沁甜张福缘
申请(专利权)人:上海苍阙信息科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1