待标注文本数据的处理方法、装置、电子设备及介质制造方法及图纸

技术编号:28473225 阅读:14 留言:0更新日期:2021-05-15 21:41
本申请公开一种待标注文件数据的处理方法、装置、电子设备及介质,该方法包括:获取用于识别文本数据中自定义关键词的机器学习模型;基于所述机器学习模型,识别待标注文本数据中的各自定义关键词;分别加密识别出的各自定义关键词,获得分别对应于所述各自定义关键词的各密文;将所述待标注文本数据中的各自定义关键词替换为对应的密文,获得脱敏后的所述待标注文本数据。待标注文本数据。待标注文本数据。

【技术实现步骤摘要】
待标注文本数据的处理方法、装置、电子设备及介质


[0001]本公开涉及人工智能
,更具体的,涉及一种待标注文本数据的处理方法、待标注文本数据的处理装置、电子设备、及一种计算机可读存储介质。

技术介绍

[0002]在文本数据标注过程中,由于标注工作量比较巨大往往会采用外包的形式将工作外包给其他数据标注机构来完成,但是数据在数据标注机构内标注过程中会存在隐私泄露的风险。
[0003]相关技术中,其对数据标注过程中的技术也主要集中在如何辅助人工加快标注效率,很少关注标注过程中的数据脱敏问题。

技术实现思路

[0004]本公开实施例的一个目的是提供一种待标注文本数据的处理的新的技术方案。
[0005]根据本公开的第一方面,提供一种待标注文本数据的处理方法,其包括:
[0006]获取用于识别文本数据中自定义关键词的机器学习模型;
[0007]基于所述机器学习模型,识别待标注文本数据中的各自定义关键词;
[0008]分别加密识别出的各自定义关键词,获得分别对应于所述各自定义关键词的各密文;
[0009]将所述待标注文本数据中的各自定义关键词替换为对应的密文,获得脱敏后的所述待标注文本数据。
[0010]可选地,所述自定义关键词涉及实体名称、实体关系、手机号码、账户名、账户密码中的至少一类。
[0011]可选地,所述获取用于识别文本数据中自定义关键词的机器学习模型,包括:
[0012]根据设定的获取规则,获取训练文本数据集;
[0013]基于深度学习算法,利用所述训练文本数据集训练出所述机器学习模型;
[0014]其中,所述设定的获取规则满足以下各项中的任意一项或多项:
[0015]所述训练文本数据集中包括的字的总数量超过第一设定数量;
[0016]所述训练文本数据集中包括的词的总数量超过第二设定数量;
[0017]所述训练文本数据集中包括的每一类自定义关键词的总数量超过第三设定数量。
[0018]可选地,在所述基于深度学习算法,利用所述训练文本数据集训练出所述机器学习模型之后,还包括:
[0019]根据所述机器学习模型,获得验证文本数据集中每一条验证文本数据中的各自定义关键词作为各预测自定义关键词;
[0020]将每一条验证文本数据中的各预测自定义关键词与对应的各实际自定义关键词相比较,获得所述机器学习模型的评估指标值;
[0021]在所述评估指标值大于或等于评估指标阈值的情况下,再执行基于所述机器学习
模型,识别待标注文本数据中的各自定义关键词的步骤。
[0022]可选地,所述方法还包括:
[0023]在所述评估指标值小于所述评估指标阈值的情况下,通过调整所述机器学习模型的训练次数和所述机器学习模型中超参数的数值中的至少一项,重新训练所述机器学习模型。
[0024]可选地,所述深度学习算法为BERT

CRF算法。
[0025]可选地,在所述识别待标注文本数据中的各自定义关键词之后,还包括:
[0026]获取所识别出的各自定义关键词的总数量;
[0027]在所识别出的自定义关键词的总数量大于零的情况下,再执行分别加密识别出的各自定义关键词,获得分别对应于所述各自定义关键词的各密文的步骤。
[0028]可选地,所述方法还包括:
[0029]在所识别出的自定义关键词的总数量为零的情况下,先将所述待标注文本数据输入至保密环境中,以在所述保密环境中重新识别所述待标注文本数据中的各自定义关键词之后,再执行分别加密识别出的各自定义关键词,获得分别对应于所述各自定义关键词的各密文的步骤。
[0030]可选地,所述分别加密识别出的各自定义关键词,获得分别对应于所述各关键词的各密文包括:
[0031]基于预设的加密算法,分别加密识别出的各自定义关键词,获得分别对应于所述各自定义关键词的各密文。
[0032]可选地,所述预设的加密算法包括随机扰动加密算法和哈希算法中的任意一种。
[0033]可选地,在所述分别加密识别出的各自定义关键词,获得分别对应于所述各自定义关键词的各密文之前,还包括:
[0034]在保密设备中存储所述待标注文本数据中的各自定义关键词及其在所述待标注文本数据中所处位置信息的映射关系。
[0035]可选地,在所述获得脱敏后的所述待标注文本数据后,还包括:
[0036]对脱敏后的所述待标注文本数据进行标注。
[0037]可选地,在所述对加密后的所述待标注文本数据进行标注之后,还包括:
[0038]从所述保密设备中获取所述映射关系;
[0039]根据所述映射关系,遍历进行标注后的所述待标注文本数据,并将各密文信息替换为对应的自定义关键词,以获得解密后的进行标注后的所述待标注文本数据。
[0040]根据本公开的第二方面,还提供一种待标注文本数据的处理装置,其包括:
[0041]获取模块,用于获取用于识别文本数据中自定义关键词的机器学习模型;
[0042]识别模块,用于基于所述机器学习模型,识别待标注文本数据中的各自定义关键词;
[0043]加密模块,分别加密识别出的各自定义关键词,获得分别对应于所述各自定义关键词的各密文;
[0044]替换模块,用于将所述待标注文本数据中的各自定义关键词替换为对应的密文,获得脱敏后的所述待标注文本数据。
[0045]可选地,所述自定义关键词涉及实体名称、实体关系、手机号码、账户名、账户密码
中的至少一类。
[0046]可选地,所述获取模块,具体用于:
[0047]根据设定的获取规则,获取训练文本数据集;
[0048]基于深度学习算法,利用所述训练文本数据集训练出所述机器学习模型;
[0049]其中,所述设定的获取规则满足以下各项中的任意一项或多项:
[0050]所述训练文本数据集中包括的字的总数量超过第一设定数量;
[0051]所述训练文本数据集中包括的词的总数量超过第二设定数量;
[0052]所述训练文本数据集中包括的每一类自定义关键词的总数量超过第三设定数量。
[0053]可选地,所述装置还包括验证模块,用于:
[0054]根据所述机器学习模型,获得验证文本数据集中每一条验证文本数据中的各自定义关键词作为各预测自定义关键词;
[0055]将每一条验证文本数据中的各预测自定义关键词与对应的各实际自定义关键词相比较,获得所述机器学习模型的评估指标值;
[0056]在所述评估指标值大于或等于评估指标阈值的情况下,再由所述识别模块基于所述机器学习模型,识别待标注文本数据中的各自定义关键词。
[0057]可选地,所述验证模块,还用于:
[0058]在所述评估指标值小于所述评估指标阈值的情况下,通过调整所述机器学习模型的训练次数和所述机器学习模型中超参数本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种待标注文本数据的处理方法,包括:获取用于识别文本数据中自定义关键词的机器学习模型;基于所述机器学习模型,识别待标注文本数据中的各自定义关键词;分别加密识别出的各自定义关键词,获得分别对应于所述各自定义关键词的各密文;将所述待标注文本数据中的各自定义关键词替换为对应的密文,获得脱敏后的所述待标注文本数据。2.根据权利要求1所述的方法,其中,所述自定义关键词涉及实体名称、实体关系、手机号码、账户名、账户密码中的至少一类。3.根据权利要求1所述的方法,其中,所述获取用于识别文本数据中自定义关键词的机器学习模型,包括:根据设定的获取规则,获取训练文本数据集;基于深度学习算法,利用所述训练文本数据集训练出所述机器学习模型;其中,所述设定的获取规则满足以下各项中的任意一项或多项:所述训练文本数据集中包括的字的总数量超过第一设定数量;所述训练文本数据集中包括的词的总数量超过第二设定数量;所述训练文本数据集中包括的每一类自定义关键词的总数量超过第三设定数量。4.根据权利要求3所述的方法,其中,在所述基于深度学习算法,利用所述训练文本数据集训练出所述机器学习模型之后,还包括:根据所述机器学习模型,获得验证文本数据集中每一条验证文本数据中的各自定义关键词作为各预测自定义关键词;将每一条验证文本数据中的各预测自定义关键词与对应的各实际自定义关键词相比较,获得所述机器学习模型的评估指标值;在所述评估指标值大于或等于评估指标阈值的情况下,再执行基于所述机器学习模型,识别待标注文本数据中的各自定义关键词的步骤。5.根据权利要...

【专利技术属性】
技术研发人员:张晓龙
申请(专利权)人:第四范式北京技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1