一种数据的处理方法、装置及设备制造方法及图纸

技术编号:22166910 阅读:15 留言:0更新日期:2019-09-21 10:34
本说明书实施例公开了一种数据的处理方法、装置及设备,所述方法包括:获取针对指定业务的第一文本数据,基于所述第一文本数据训练预先设定的语言模型,得到初始语言模型,所述初始语言模型用于确定输入到所述初始语言模型的文本数据中包含的词语之间的关联关系,获取针对所述指定业务的预定敏感类型的第二文本数据,所述第二文本数据中包括已标注的所述预定敏感类型的敏感信息,使用所述第二样本数据对所述初始语言模型进行调整,得到用于识别所述预定敏感类型的敏感信息的目标语言模型。

A Data Processing Method, Device and Equipment

【技术实现步骤摘要】
一种数据的处理方法、装置及设备
本说明书涉及计算机
,尤其涉及一种数据的处理方法、装置及设备。
技术介绍
随着终端技术和网络技术的不断发展,互联网成为人们日常生活与工作中的重要组成部分,尤其是在工作中,文本类(或文档类)的非结构化数据是日常工作中常见的数据类型,其中可能包含如人们所在的公司或组织的战略决策、业务计划等敏感信息,而上述敏感信息对于该公司或组织之外的组织或用户是需要保密的。由于,在日常工作中上述类型的敏感信息较多、且流动性很强,如果管控不到位则会存在较大的信息泄露风险。如何对文本数据中包含的敏感信息进行识别成为信息安全领域中需要解决的重要问题,目前针对非结构化敏感信息的识别方法,通常可以采用正则的规则进行匹配的方式来识别敏感信息,但是,由于敏感信息的种类较多、概念较宽泛,且很多敏感信息并没有明显的规则特征,因此,采用正则的规则进行匹配的方式来识别敏感信息的效果较差,敏感信息的识别准确性差,而且需要为不同敏感信息分别设定相应的正则的规则,使得敏感信息的识别过程较繁杂,为此,需要提供一种敏感信息的识别准确性更高、识别过程更简化的敏感信息识别机制。
技术实现思路
本说明书实施例的目的是提供一种数据的处理方法、装置及设备,以提供一种敏感信息的识别准确性更高、识别过程更简化的敏感信息识别机制。为了实现上述技术方案,本说明书实施例是这样实现的:本说明书实施例提供的一种数据的处理方法,所述方法包括:获取针对指定业务的第一文本数据;基于所述第一文本数据训练预先设定的语言模型,得到初始语言模型,所述初始语言模型用于确定输入到所述初始语言模型的文本数据中包含的词语之间的关联关系;获取针对所述指定业务的预定敏感类型的第二文本数据,所述第二文本数据中包括已标注的所述预定敏感类型的敏感信息;使用所述第二样本数据对所述初始语言模型进行调整,得到用于识别所述预定敏感类型的敏感信息的目标语言模型。可选地,所述预先设定的语言模型为基于来自于Transformers的双向编码器BERT的语言模型。可选地,所述用于识别所述预定敏感类型的敏感信息的目标语言模型为基于命名实体识别NER的语言模型。可选地,所述基于所述第一文本数据训练预先设定的语言模型,得到初始语言模型,包括:基于所述第一文本数据,对双向多层Transformer神经网络模型进行预训练,得到依赖上下文关系的WordEmbedding模型,将所述WordEmbedding模型确定为所述初始语言模型。可选地,所述预定敏感类型包括财务信息类和医疗信息类中的一种或多种。可选地,所述方法还包括:获取针对所述指定业务的待输出的目标文本数据;将所述目标文本数据输入到所述用于识别所述预定敏感类型的敏感信息的目标语言模型中,确定所述目标文本数据中是否包含所述预定敏感类型的敏感信息;如果所述目标文本数据中包含所述预定敏感类型的敏感信息,则输出所述目标文本数据中包含的敏感信息,并取消对所述目标文本数据进行输出。本说明书实施例提供的一种数据的处理装置,所述装置包括:第一数据获取模块,用于获取针对指定业务的第一文本数据;模型训练模块,用于基于所述第一文本数据训练预先设定的语言模型,得到初始语言模型,所述初始语言模型用于确定输入到所述初始语言模型的文本数据中包含的词语之间的关联关系;第二数据获取模块,用于获取针对所述指定业务的预定敏感类型的第二文本数据,所述第二文本数据中包括已标注的所述预定敏感类型的敏感信息;模型调整模块,用于使用所述第二样本数据对所述初始语言模型进行调整,得到用于识别所述预定敏感类型的敏感信息的目标语言模型。可选地,所述预先设定的语言模型为基于来自于Transformers的双向编码器BERT的语言模型。可选地,所述用于识别所述预定敏感类型的敏感信息的目标语言模型为基于命名实体识别NER的语言模型。可选地,所述装置还包括:第三数据获取模块,用于获取针对所述指定业务的待输出的目标文本数据;识别模块,用于将所述目标文本数据输入到所述用于识别所述预定敏感类型的敏感信息的目标语言模型中,确定所述目标文本数据中是否包含所述预定敏感类型的敏感信息;处理模块,用于如果所述目标文本数据中包含所述预定敏感类型的敏感信息,则输出所述目标文本数据中包含的敏感信息,并取消对所述目标文本数据进行输出。本说明书实施例提供的一种数据的处理设备,所述数据的处理设备包括:处理器;以及被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器:获取针对指定业务的第一文本数据;基于所述第一文本数据训练预先设定的语言模型,得到初始语言模型,所述初始语言模型用于确定输入到所述初始语言模型的文本数据中包含的词语之间的关联关系;获取针对所述指定业务的预定敏感类型的第二文本数据,所述第二文本数据中包括已标注的所述预定敏感类型的敏感信息;使用所述第二样本数据对所述初始语言模型进行调整,得到用于识别所述预定敏感类型的敏感信息的目标语言模型。由以上本说明书实施例提供的技术方案可见,本说明书实施例通过获取针对指定业务的第一文本数据,基于第一文本数据训练预先设定的语言模型,得到初始语言模型,初始语言模型用于确定输入到初始语言模型的文本数据中包含的词语之间的关联关系,获取针对指定业务的预定敏感类型的第二文本数据,第二文本数据中包括已标注的预定敏感类型的敏感信息,使用第二样本数据对初始语言模型进行调整,得到用于识别预定敏感类型的敏感信息的目标语言模型,这样,通过语言模型的方式来进行敏感信息的识别,相比于通过正则的规则进行匹配的方式来识别敏感信息具有更好的准确性,而且,采用能够很好地体现出词语间的内在联系的语言模型进行敏感信息的识别,可以使得只需要使用少量的第二文本数据即可完成对初始语言模型的调优处理,进而可以快速响应指定业务的相关需求,从而达到较好的识别效果,而且不需要频繁的增加规则,简化了敏感信息的识别过程,并具有很好的扩展性。附图说明为了更清楚地说明本说明书实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1为本说明书一种数据的处理方法实施例;图2为本说明书一种文本数据的处理系统的结构示意图;图3为本说明书另一种数据的处理方法实施例;图4为本说明书一种Transformer的网络结构的示意图;图5为本说明书一种BERT的网络结构的示意图;图6为本说明书一种数据的处理装置实施例;图7为本说明书一种数据的处理设备实施例。具体实施方式本说明书实施例提供一种数据的处理方法、装置及设备。为了使本
的人员更好地理解本说明书中的技术方案,下面将结合本说明书实施例中的附图,对本说明书实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本说明书一部分实施例,而不是全部的实施例。基于本说明书中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都应当属于本说明书保护的范围。实施例一如图1所示,本说明书实施例提供一种数据的处理方法,该方法的执行主体可以为终端设备或服务器等,其中,该终本文档来自技高网
...

【技术保护点】
1.一种数据的处理方法,所述方法包括:获取针对指定业务的第一文本数据;基于所述第一文本数据训练预先设定的语言模型,得到初始语言模型,所述初始语言模型用于确定输入到所述初始语言模型的文本数据中包含的词语之间的关联关系;获取针对所述指定业务的预定敏感类型的第二文本数据,所述第二文本数据中包括已标注的所述预定敏感类型的敏感信息;使用所述第二样本数据对所述初始语言模型进行调整,得到用于识别所述预定敏感类型的敏感信息的目标语言模型。

【技术特征摘要】
1.一种数据的处理方法,所述方法包括:获取针对指定业务的第一文本数据;基于所述第一文本数据训练预先设定的语言模型,得到初始语言模型,所述初始语言模型用于确定输入到所述初始语言模型的文本数据中包含的词语之间的关联关系;获取针对所述指定业务的预定敏感类型的第二文本数据,所述第二文本数据中包括已标注的所述预定敏感类型的敏感信息;使用所述第二样本数据对所述初始语言模型进行调整,得到用于识别所述预定敏感类型的敏感信息的目标语言模型。2.根据权利要求1所述的方法,所述预先设定的语言模型为基于来自于Transformers的双向编码器BERT的语言模型。3.根据权利要求1或2所述的方法,所述用于识别所述预定敏感类型的敏感信息的目标语言模型为基于命名实体识别NER的语言模型。4.根据权利要求2所述的方法,所述基于所述第一文本数据训练预先设定的语言模型,得到初始语言模型,包括:基于所述第一文本数据,对双向多层Transformer神经网络模型进行预训练,得到依赖上下文关系的WordEmbedding模型,将所述WordEmbedding模型确定为所述初始语言模型。5.根据权利要求1所述的方法,所述预定敏感类型包括财务信息类和医疗信息类中的一种或多种。6.根据权利要求1所述的方法,所述方法还包括:获取针对所述指定业务的待输出的目标文本数据;将所述目标文本数据输入到所述用于识别所述预定敏感类型的敏感信息的目标语言模型中,确定所述目标文本数据中是否包含所述预定敏感类型的敏感信息;如果所述目标文本数据中包含所述预定敏感类型的敏感信息,则输出所述目标文本数据中包含的敏感信息,并取消对所述目标文本数据进行输出。7.一种数据的处理装置,所述装置包括:第一数据获取模块,用于获取针对指定业务的第一文本数据;模型训练模块,用于基于所述第一文本数据训练预先...

【专利技术属性】
技术研发人员:林博
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:开曼群岛,KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1