【技术实现步骤摘要】
本专利技术涉及数据处理,特别涉及一种长文本中敏感数据的标注方法、系统、设备及介质。
技术介绍
1、随着互联网和大数据技术的发展,越来越多的敏感数据被收集、存储和分享,在使用和分享过程中为了保证数据的安全性需要进行数据标注。一方面是收集和共享的数据包含用户的隐私信息,例如姓名、身份证号和银行卡号等。另一方面是收集和共享的数据可能为敏感数据,如金融数据和军事数据等。在收集和共享过程中,数据拥有者无法限制数据的使用,并且在数据传输、存储和处理过程中很容易受到第三方攻击。目前传统的敏感数据标注只针对短文本,这样就导致长文本中的敏感数据违法精准地标注出来。而针对长文本中敏感数据的标注比较多的是采用自然语言处理的技术,而这类技术的标注方法较为复杂,需要大量数据的训练计算资源,这就容易导致结果出现误差的问题。
2、鉴于此,需要一种长文本中敏感数据的标注方法、系统、设备及介质。
技术实现思路
1、本申请实施例提供了一种长文本中敏感数据的标注方法、系统、设备及介质,用于解决文本中敏感数据的标注因
...【技术保护点】
1.一种长文本中敏感数据的标注方法,其特征在于,包括:
2.根据权利要求1所述的长文本中敏感数据的标注方法,其特征在于,所述基于训练完成后输出的目标长文本数据确定关键词和所述关键词的权重,包括:
3.根据权利要求2所述的长文本中敏感数据的标注方法,其特征在于,所述共现频率权重的表达式如下:
4.根据权利要求2所述的长文本中敏感数据的标注方法,其特征在于,所述上下文相关性权重的表达式如下:
5.根据权利要求2所述的长文本中敏感数据的标注方法,其特征在于,所述关键词的目标权重的表达式如下:
6.根据权利要求1所述
...【技术特征摘要】
1.一种长文本中敏感数据的标注方法,其特征在于,包括:
2.根据权利要求1所述的长文本中敏感数据的标注方法,其特征在于,所述基于训练完成后输出的目标长文本数据确定关键词和所述关键词的权重,包括:
3.根据权利要求2所述的长文本中敏感数据的标注方法,其特征在于,所述共现频率权重的表达式如下:
4.根据权利要求2所述的长文本中敏感数据的标注方法,其特征在于,所述上下文相关性权重的表达式如下:
5.根据权利要求2所述的长文本中敏感数据的标注方法,其特征在于,所述关键词的目标权重的表达式如下:
6.根据权利要求1所述的长文本中敏感数据的标注方法,其特征在于,所述构建基于tf-idf方法提取特征的自然语言处理模型,将所述...
【专利技术属性】
技术研发人员:符华,蒙亮,石磊,王松,农淳凯,陈丽娜,肖春,林贵才,
申请(专利权)人:广西电网有限责任公司南宁供电局,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。