一种数据的处理方法、装置及设备制造方法及图纸

技术编号：22166910 阅读：15 留言：0更新日期：2019-09-21 10:34

本说明书实施例公开了一种数据的处理方法、装置及设备，所述方法包括：获取针对指定业务的第一文本数据，基于所述第一文本数据训练预先设定的语言模型，得到初始语言模型，所述初始语言模型用于确定输入到所述初始语言模型的文本数据中包含的词语之间的关联关系，获取针对所述指定业务的预定敏感类型的第二文本数据，所述第二文本数据中包括已标注的所述预定敏感类型的敏感信息，使用所述第二样本数据对所述初始语言模型进行调整，得到用于识别所述预定敏感类型的敏感信息的目标语言模型。

A Data Processing Method, Device and Equipment

全部详细技术资料下载

【技术实现步骤摘要】
一种数据的处理方法、装置及设备
本说明书涉及计算机
，尤其涉及一种数据的处理方法、装置及设备。
技术介绍
随着终端技术和网络技术的不断发展，互联网成为人们日常生活与工作中的重要组成部分，尤其是在工作中，文本类(或文档类)的非结构化数据是日常工作中常见的数据类型，其中可能包含如人们所在的公司或组织的战略决策、业务计划等敏感信息，而上述敏感信息对于该公司或组织之外的组织或用户是需要保密的。由于，在日常工作中上述类型的敏感信息较多、且流动性很强，如果管控不到位则会存在较大的信息泄露风险。如何对文本数据中包含的敏感信息进行识别成为信息安全领域中需要解决的重要问题，目前针对非结构化敏感信息的识别方法，通常可以采用正则的规则进行匹配的方式来识别敏感信息，但是，由于敏感信息的种类较多、概念较宽泛，且很多敏感信息并没有明显的规则特征，因此，采用正则的规则进行匹配的方式来识别敏感信息的效果较差，敏感信息的识别准确性差，而且需要为不同敏感信息分别设定相应的正则的规则，使得敏感信息的识别过程较繁杂，为此，需要提供一种敏感信息的识别准确性更高、识别过程更简化的敏感信息识别机制。
技术实现思路
本说明书实施例的目的是提供一种数据的处理方法、装置及设备，以提供一种敏感信息的识别准确性更高、识别过程更简化的敏感信息识别机制。为了实现上述技术方案，本说明书实施例是这样实现的：本说明书实施例提供的一种数据的处理方法，所述方法包括：获取针对指定业务的第一文本数据；基于所述第一文本数据训练预先设定的语言模型，得到初始语言模型，所述初始语言模型用于确定输入到所述初始语言模型的文本数据中包含的词...

【技术保护点】
1.一种数据的处理方法，所述方法包括：获取针对指定业务的第一文本数据；基于所述第一文本数据训练预先设定的语言模型，得到初始语言模型，所述初始语言模型用于确定输入到所述初始语言模型的文本数据中包含的词语之间的关联关系；获取针对所述指定业务的预定敏感类型的第二文本数据，所述第二文本数据中包括已标注的所述预定敏感类型的敏感信息；使用所述第二样本数据对所述初始语言模型进行调整，得到用于识别所述预定敏感类型的敏感信息的目标语言模型。

【技术特征摘要】
1.一种数据的处理方法，所述方法包括：获取针对指定业务的第一文本数据；基于所述第一文本数据训练预先设定的语言模型，得到初始语言模型，所述初始语言模型用于确定输入到所述初始语言模型的文本数据中包含的词语之间的关联关系；获取针对所述指定业务的预定敏感类型的第二文本数据，所述第二文本数据中包括已标注的所述预定敏感类型的敏感信息；使用所述第二样本数据对所述初始语言模型进行调整，得到用于识别所述预定敏感类型的敏感信息的目标语言模型。2.根据权利要求1所述的方法，所述预先设定的语言模型为基于来自于Transformers的双向编码器BERT的语言模型。3.根据权利要求1或2所述的方法，所述用于识别所述预定敏感类型的敏感信息的目标语言模型为基于命名实体识别NER的语言模型。4.根据权利要求2所述的方法，所述基于所述第一文本数据训练预先设定的语言模型，得到初始语言模型，包括：基于所述第一文本数据，对双向多层Transformer神经网络模型进行预训练，得到依赖上下文关系的WordEmbedding模型，将所述WordEmbedding模型确定为所述初始语言模型。5.根据权利要求1所述的方法，所述预定敏感类型包括财务信息类和医疗信息类中的一种或多种。6.根据权利要求1所述的方法，所述方法还包括：获取针对所述指定业务的待输出的目标文本数据；将所述目标文本数据输入到所述用于识别所述预定敏感类型的敏感信息的目标语言模型中，确定所述目标文本数据中是否包含所述预定敏感类型的敏感信息；如果所述目标文本数据中包含所述预定敏感类型的敏感信息，则输出所述目标文本数据中包含的敏感信息，并取消对所述目标文本数据进行输出。7.一种数据的处理装置，所述装置包括：第一数据获取模块，用于获取针对指定业务的第一文本数据；模型训练模块，用于基于所述第一文本数据训练预先...

【专利技术属性】
技术研发人员：林博，
申请(专利权)人：阿里巴巴集团控股有限公司，
类型：发明
国别省市：开曼群岛,KY

全部详细技术资料下载我是这个专利的主人