待标注文本数据的处理方法、装置、电子设备及介质制造方法及图纸

技术编号：28473225 阅读：20 留言：0更新日期：2021-05-15 21:41

本申请公开一种待标注文件数据的处理方法、装置、电子设备及介质，该方法包括：获取用于识别文本数据中自定义关键词的机器学习模型；基于所述机器学习模型，识别待标注文本数据中的各自定义关键词；分别加密识别出的各自定义关键词，获得分别对应于所述各自定义关键词的各密文；将所述待标注文本数据中的各自定义关键词替换为对应的密文，获得脱敏后的所述待标注文本数据。待标注文本数据。待标注文本数据。

全部详细技术资料下载

【技术实现步骤摘要】
待标注文本数据的处理方法、装置、电子设备及介质

[0001]本公开涉及人工智能
，更具体的，涉及一种待标注文本数据的处理方法、待标注文本数据的处理装置、电子设备、及一种计算机可读存储介质。

技术介绍

[0002]在文本数据标注过程中，由于标注工作量比较巨大往往会采用外包的形式将工作外包给其他数据标注机构来完成，但是数据在数据标注机构内标注过程中会存在隐私泄露的风险。
[0003]相关技术中，其对数据标注过程中的技术也主要集中在如何辅助人工加快标注效率，很少关注标注过程中的数据脱敏问题。

技术实现思路

[0004]本公开实施例的一个目的是提供一种待标注文本数据的处理的新的技术方案。
[0005]根据本公开的第一方面，提供一种待标注文本数据的处理方法，其包括：
[0006]获取用于识别文本数据中自定义关键词的机器学习模型；
[0007]基于所述机器学习模型，识别待标注文本数据中的各自定义关键词；
[0008]分别加密识别出的各自定义关键词，获得分别对应于所述各自定义关

【技术保护点】

【技术特征摘要】
1.一种待标注文本数据的处理方法，包括：获取用于识别文本数据中自定义关键词的机器学习模型；基于所述机器学习模型，识别待标注文本数据中的各自定义关键词；分别加密识别出的各自定义关键词，获得分别对应于所述各自定义关键词的各密文；将所述待标注文本数据中的各自定义关键词替换为对应的密文，获得脱敏后的所述待标注文本数据。2.根据权利要求1所述的方法，其中，所述自定义关键词涉及实体名称、实体关系、手机号码、账户名、账户密码中的至少一类。3.根据权利要求1所述的方法，其中，所述获取用于识别文本数据中自定义关键词的机器学习模型，包括：根据设定的获取规则，获取训练文本数据集；基于深度学习算法，利用所述训练文本数据集训练出所述机器学习模型；其中，所述设定的获取规则满足以下各项中的任意一项或多项：所述训练文本数据集中包括的字的总数量超过第一设定数量；所述训练文本数据集中包括的词的总数量超过第二设定数量；所述训练文本数据集中包括的每一类自定义关键词的总数量超过第三设定数量。4.根据权利要求3所述的方法，其中，在所述基于深度学习算法，利用所述训练文本数据集训练出所述机器学习模型之后，还包括：根据所述机器学习模型，获得验证文本数据集中每一条验证文本数据中的各自定义关键词作为各预测自定义关键词；将每一条验证文本数据中的各预测自定义关键词与对应的各实际自定义关键词相比较，获得所述机器学习模型的评估指标值；在所述评估指标值大于或等于评估指标阈值的情况下，再执行基于所述机器学习模型，识别待标注文本数据中的各自定义关键词的步骤。5.根据权利要...

【专利技术属性】
技术研发人员：张晓龙，
申请(专利权)人：第四范式北京技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人