一种用户隐私加密的方法技术

技术编号:26478932 阅读:17 留言:0更新日期:2020-11-25 19:23
本发明专利技术公开了一种用户隐私加密的方法,涉及计算机人工智能及自然语言处理技术领域,该方法使用已有的用户隐私数据作为自然语言处理的训练数据;设置预训练模型,并根据任务设计损失函数,损失函数采用交叉熵和crf相结合;进行模型训练,使用训练好的模型对文本进行隐私数据识别,实现在进行数据加密时,在未知的数据中对用户隐私数据的识别。本发明专利技术能够解决用户隐私加密的实现问题,识别速度快,识别精度高,不依赖人工积累的词典,高效精准的对用户隐私数据加密。

【技术实现步骤摘要】
一种用户隐私加密的方法
本专利技术涉及计算机人工智能及自然语言处理
,具体地说是一种用户隐私加密的方法。
技术介绍
用户隐私加密作为大数据时代重要的组成部分被广泛的应用数据采集,数据治理,数据分析,数据挖掘等领域上。随着数据共享和开放用户隐私问题越来越重要。现有的用户隐私加密方法只能积累用户隐私数据词库进行匹配识别,随着数据量的增大,迫切需要一种能够不依赖词典的用户隐私数据的工具。
技术实现思路
本专利技术的技术任务是针对以上不足之处,提供一种用户隐私加密的方法,解决用户隐私加密的实现问题,识别速度快,识别精度高,不依赖人工积累的词典,高效精准的对用户隐私数据加密。本专利技术解决其技术问题所采用的技术方案是:一种用户隐私加密的方法,使用已有的用户隐私数据作为自然语言处理的训练数据;设置预训练模型,并根据任务设计损失函数,损失函数采用交叉熵和crf相结合;进行模型训练,使用训练好的模型对文本进行隐私数据识别,实现在进行数据加密时,在未知的数据中对用户隐私数据的识别。本方法通过人工智能技术学习现有的用户隐私数据,来精确的预测未知数据中的用户隐私数据。因为数据中地址数据长度不定,过长的数据会导致识别准确率降低,所以引用了传统机器学习中crf来提高模型的准确率,损失函数选用多分类常用的交叉熵,以交叉熵指导对歧义的辨识和消除,简洁有效.易于计算机自适应实现。Crf算法结合了最大熵模型和隐马尔可夫模型的特点,是一种无向图模型,近年来在分词、词性标注和命名实体识别等序列标注任务中取得了很好的效果。进一步的,利用训练好的模型将未知数据中的用户隐私数据识别出来,并将所述用户隐私数据进行替换,从而将识别出的用户隐私数据以加密方式展现。优选的,通过人工标注和规则标注相结合的方式对训练数据进行标注。优选的,所述预训练模型选用百度开源的预训练模型ernie,在ernie训练模型的基础上进行微调,并训练模型,通过调整模型参数,调用GPU资源进行模型训练生成,使模型的准确率达到设计要求。进一步的,使用PYTHON编程语言调用GPU资源进行模型训练生成。PYTHON编程语言具有简洁、易读、可扩展的特点,应用比较广泛。优选的,使用(*)将原文中所述用户隐私数据进行替换,即在数据展现时,其中的用户隐私数据将以*形式展现。优选的,通过resfulapi接口开放隐私加密模型,用户通过resfulapi接口将需要进行加密的文本数据传入到开放的api接口中,模型通过预测将加密完成的文本数据通过接口返回。本专利技术还要求保护一种用户隐私加密的装置,包括:至少一个存储器和至少一个处理器;所述至少一个存储器,用于存储机器可读程序;所述至少一个处理器,用于调用所述机器可读程序,执行上述的方法。本专利技术还要求保护一种计算机可读介质,所述计算机可读介质上存储有计算机指令,所述计算机指令在被处理器执行时,使所述处理器执行上述的方法。本专利技术的一种用户隐私加密的方法与现有技术相比,具有以下有益效果:本方法通过人工智能技术学习现有的用户隐私数据,通过模型训练,利用训练好的深度学习模型将未知数据中的用户隐私数据识别出来,实现精准的预测未知数据中的用户隐私数据,并将隐私数据以加密的形式展现。该方法进行用户隐私数据的识别,不依赖人工积累的词典,识别速度快,识别精度高,能够高效精准的对用户隐私数据进行加密。该方法可应用于数据可视化大屏、数据分析、数据共享等涉及用户隐私的领域,具有很好的推广应用价值。具体实施方式下面结合具体实施例对本专利技术作进一步说明。随着大数据的发展,传统的依靠词库进行匹配识别渐渐不能满足大多使用场景的需要,人工智能技术的兴起给传统的识别方式带来全新的改变,并有识别速度快,识别精度高,不依赖人工积累词典等优点,本可服务在数据可视化大屏,数据分析,数据共享等涉及用户隐私的领域。本专利技术实施例提供一种用户隐私加密的方法,包括使用已有的用户隐私数据作为自然语言处理的训练数据;设置预训练模型,并根据任务设计损失函数,损失函数采用交叉熵和crf相结合;进行模型训练,使用训练好的模型对文本进行隐私数据识别,实现在进行数据加密时,在未知的数据中对用户隐私数据的识别。本方法通过人工智能技术学习现有的用户隐私数据,来精确的预测未知数据中的用户隐私数据。本方法的具体实施过程为:1、通过人工标注和规则标注相结合的方式对训练数据进行标注。2、在百度开源的预训练模型ernie的基础上进行微调,并根据任务设计损失函数,损失函数采用交叉熵和crf相结。使用迁移学习技术,预训练模型选用百度开源的预训练模型ernie,ernie是用于语言理解的持续预训练框架,可以通过多任务学习逐步建立和学习预训练任务,在此框架中,可以随时逐步引入不同的自定义任务。因为数据中地址数据长度不定,过长的数据会导致识别准确降低,所以引用了,传统机器学习中crf来提高模型的准确率。Crf算法结合了最大熵模型和隐马尔可夫模型的特点,是一种无向图模型,近年来在分词、词性标注和命名实体识别等序列标注任务中取得了很好的效果。损失函数是用来估量你模型的预测值f(x)与真实值Y的不一致程度,它是一个非负实值函数,通常使用L(Y,f(x))来表示,损失函数越小,模型的鲁棒性就越好。损失函数是经验风险函数的核心部分,也是结构风险函数重要组成部分,故通过设计损失函数对预训练模型进行微调,提高模型训练的精度。损失函数选用多分类常用的交叉熵,以交叉熵指导对歧义的辨识和消除,简洁有效.易于计算机自适应实现。通过调整模型参数,使用PYTHON编程语言调用GPU资源进行模型训练生成,最终模型模型的准确率达到设计要求。PYTHON编程语言具有简洁、易读、可扩展的特点,应用广泛,实用性强。3、利用训练好的深度学习模型将用户隐私数据识别出来并使用(*)进行替换。利用训练好的模型将未知数据中的用户隐私数据识别出来,并将所述用户隐私数据进行替换,从而将识别出的用户隐私数据以加密方式展现。使用(*)将原文中所述用户隐私数据进行替换,即在数据展现时,其中的用户隐私数据将以*形式展现。通过resfulapi接口开放隐私加密模型,用户通过resfulapi接口将需要进行加密的文本数据传入到开放的api接口中,模型通过预测将加密完成的文本数据通过接口返回。本方法通过人工智能技术学习现有的用户隐私数据,通过模型训练,利用训练好的深度学习模型将未知数据中的用户隐私数据识别出来,实现精准的预测未知数据中的用户隐私数据,并将隐私数据以加密的形式展现。该方法进行用户隐私数据的识别,不依赖人工积累的词典,识别速度快,识别精度高,能够高效精准的对用户隐私数据进行加密。该方法可应用于数据可视化大屏、数据分析、数据共享等涉及用户隐私的领域,具有很好的推广应用价值。本专利技术实施例还提供一种用户隐本文档来自技高网...

【技术保护点】
1.一种用户隐私加密的方法,其特征在于,使用已有的用户隐私数据作为自然语言处理的训练数据;/n设置预训练模型,并根据任务设计损失函数,损失函数采用交叉熵和crf相结合;/n进行模型训练,使用训练好的模型对文本进行隐私数据识别,实现在进行数据加密时,在未知的数据中对用户隐私数据的识别。/n

【技术特征摘要】
1.一种用户隐私加密的方法,其特征在于,使用已有的用户隐私数据作为自然语言处理的训练数据;
设置预训练模型,并根据任务设计损失函数,损失函数采用交叉熵和crf相结合;
进行模型训练,使用训练好的模型对文本进行隐私数据识别,实现在进行数据加密时,在未知的数据中对用户隐私数据的识别。


2.根据权利要求1所述的一种用户隐私加密的方法,其特征在于,利用训练好的模型将未知数据中的用户隐私数据识别出来,并将所述用户隐私数据进行替换。


3.根据权利要求1所述的一种用户隐私加密的方法,其特征在于,通过人工标注和规则标注相结合的方式对训练数据进行标注。


4.根据权利要求1或2或3所述的一种用户隐私加密的方法,其特征在于,所述预训练模型选用ernie,通过调整模型参数,调用GPU资源进行模型训练生成,使模型的准确率达到设计要求。


5.根据权利要求4所述的一种用户隐私加密的方法,...

【专利技术属性】
技术研发人员:王明飞
申请(专利权)人:山东健康医疗大数据有限公司
类型:发明
国别省市:山东;37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1