数据集的标注方法、装置、电子设备及介质制造方法及图纸

技术编号：36397361 阅读：8 留言：0更新日期：2023-01-18 10:03

本发明专利技术提供了一种数据集的标注方法、装置、电子设备及介质，包括：基于预先得到的目标领域的实体字典确定实体字典长文本；计算实体字典长文本和待标注文本的公共子序列，并确定公共子序列的边界区间；基于公共子序列的边界区间将边界重合的公共子序列进行拼接，得到多个不相交子序列；基于实体字典中的实体名称对不相交子序列进行标注，得到标注文本。本发明专利技术减少了文本标注的工作量，同时降低了开发成本。本。本。

全部详细技术资料下载

【技术实现步骤摘要】
数据集的标注方法、装置、电子设备及介质

[0001]本专利技术涉及人工智能
，尤其是涉及一种数据集的标注方法、装置、电子设备及介质。

技术介绍

[0002]命名实体识别(Named Entity Recognition，NER)是自然语言处理领域常用的信息提取技术，一般搭建NER模型需要用到标注数据，标注数据直接影响模型表现效果。
[0003]面对新领域的文本，NER模型训练存在冷启动问题，因此需要对训练文本的每个字符添加其所属的实体类别标注。然而对于新领域的NER模型训练，只能靠人工标注生成训练数据集，工作量大且速度慢；或者利用既有目标领域内的参考数据集构造辅助标注模型，比如根据领域知识图谱，以语句中被掩码实体字符为目标训练模型，用来对实体位置进行标注预测，但也增加了额外的工作量和开发成本，而且领域知识图谱并不多见，对于不存在领域知识图谱的情况就无计可施。综上所述，现有的数据集文本标注方法，存在工作量大且开发成本较高的问题。

技术实现思路

[0004]有鉴于此，本专利技术的目的在于提供一种数据集的标注方法、装置、电子设备及介质，以减少了文本标注的工作量，同时降低了开发成本。
[0005]为了实现上述目的，本专利技术实施例采用的技术方案如下：
[0006]第一方面，本专利技术实施例提供了一种数据集的标注方法，包括：基于预先得到的目标领域的实体字典确定实体字典长文本；计算实体字典长文本和待标注文本的公共子序列，并确定公共子序列的边界区间；基于公共子序列的边界区间将边界重合的...

【技术保护点】

【技术特征摘要】
1.一种数据集的标注方法，其特征在于，包括：基于预先得到的目标领域的实体字典确定实体字典长文本；计算所述实体字典长文本和待标注文本的公共子序列，并确定所述公共子序列的边界区间；基于所述公共子序列的边界区间将边界重合的所述公共子序列进行拼接，得到多个不相交子序列；基于所述实体字典中的实体名称对所述不相交子序列进行标注，得到标注文本。2.根据权利要求1所述的标注方法，其特征在于，基于预先得到的目标领域的实体字典确定实体字典长文本，包括：获取目标领域的文本中的实体名称，得到实体字典；基于所述实体名称的关键字对所述实体字典进行分类，得到多个实体类别；基于所述实体类别对所述实体名称进行排序，得到实体字典长文本。3.根据权利要求1所述的标注方法，其特征在于，计算所述实体字典长文本和待标注文本的公共子序列，并确定所述公共子序列的边界区间，包括：计算所述公共子序列为所述待标注文本和所述实体字典长文本之间连续相同的字符串，并确定所述字符串的长度；基于预先确定的公共子序列长度阈值，剔除所述字符串的长度小于所述公共子序列长度阈值的字符串，得到公共子序列；基于所述公共子序列中的字符在所述待标注文本中的字符位置确定所述公共子序列的边界区间。4.根据权利要求1所述的标注方法，其特征在于，基于所述实体字典中的实体名称对所述不相交子序列进行标注之前，还包括：基于所述公共子序列确定停止词字典。5.根据权利要求4所述的标注方法，其特征在于，基于所述实体字典中的实体名称对所述不相交子序列进行标注，包括：基于所述实体字典中的实体名称对所述不相交子序列进行标注，得到第一标注结果；基于所述停止词字典，滤除所述第一标注结果中的停止词，得到所述待...

【专利技术属性】
技术研发人员：张涵，刘星辰，陈晓峰，麻沁甜，张福缘，
申请(专利权)人：上海苍阙信息科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人