System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于大语言模型的隐私保护用户画像分析方法技术_技高网
当前位置: 首页 > 专利查询>南京大学专利>正文

一种基于大语言模型的隐私保护用户画像分析方法技术

技术编号:41327994 阅读:5 留言:0更新日期:2024-05-13 15:05
本发明专利技术公开一种基于大语言模型的隐私保护用户画像分析方法,借助大模型能力,在保护用户隐私的基础上揭示可通过短信分析出的用户画像。在用户本地获取所有短信作为输入,使用针对短信数据集微调的私有化语言分类模型,对短信数据中涉及隐私的隐私词进行提取,替换成对应的替代词以保护用户隐私,得到隐私安全的短信数据;将短信数据交给编写的Langchain应用,涉及对长输入的处理,不同用户画像信息的提示词模板等输入输出流,结合开源的大语言模型接口,分析得到用户画像,包括用户年龄、住址、消费习惯、兴趣爱好、教育程度、收入水平等用户画像信息。本发明专利技术既可以保护用户的隐私,又可以保证大语言模型的有效性和实用性。

【技术实现步骤摘要】

本专利技术涉及一种基于大语言模型的隐私保护用户画像分析方法,属于计算机技术中的隐私保护领域,能够在保护用户隐私的基础上分析用户短信息得到其用户画像。


技术介绍

1、近年来,大型语言模型,如gpt-3和gpt-4,是自然语言处理(nlp)领域的一种技术,其设计用于理解和生成自然语言。这些模型是基于一种名为transformer的深度学习架构,transformer架构的关键特性是其注意力机制,这种机制允许模型在处理语言时,对输入的不同部分赋予不同的权重。这种机制使得模型能够捕获语言中的长距离依赖关系,这在传统的序列处理模型中是较难做到的。

2、在大型语言模型的使用过程中,可能存在用户隐私泄露的风险。这是因为这些模型在处理用户输入的过程中,可能会生成出包含敏感信息的内容。例如,一个用户可能会向模型询问一些包含个人信息的问题,或者在与模型的对话中无意中透露出一些敏感信息。如果这些信息被其他人看到,那么用户的隐私就可能被泄露。此外,由于大型语言模型在训练时使用了大量的文本数据,因此它们可能会学习到一些与这些数据相关的模式和结构。这可能会导致模型在生成文本时产生出与用户数据相似的内容,从而可能泄露用户的隐私。因此,使用大型语言模型时,需要采取一些措施来保护用户的隐私。

3、为了保护用户隐私,我们可以采取一些措施来限制大型语言模型的行为;另一种方法是对用户的输入进行匿名处理。然而,这些方法都有其局限性。例如,对模型的输出进行限制可能会影响模型的功能性,而对用户输入进行匿名处理则可能会降低模型的准确性。因此,如何在保护用户隐私和保证模型性能之间找到一个平衡,是一个需要进一步研究的问题。

4、此外,现如今人们虽然越来越少使用手机短信来进行沟通聊天,但是还是会有各种银行的交易信息、各电商平台的促销信息、在线服务平台的通知信息等等通过短信来发送通知,所以这些短信中可能包含大量的涉及用户隐私的行为,且当前用户对于app的短信权限授权并不敏感,要是无意间授权了恶意app以短信权限,可能造成用户隐私的泄露。


技术实现思路

1、专利技术目的:针对现有技术中存在的问题与不足,本专利技术提供一种基于大语言模型的隐私保护用户画像分析方法,本方法基于现有大语言模型开发接口,增加了隐私保护机制,保护输入大语言模型的用户隐私数据不被窃取,通过langchain工具编写实现在保护用户隐私的前提下的用户画像分析应用。

2、技术方案:一种基于大语言模型的隐私保护用户画像分析方法,包括以下步骤:

3、步骤1,标注出中文短信数据集的隐私实体,结合现有的中文ner(命名实体识别)数据集,对bert(基于变换器的双向编码器表示技术,bidirectional encoderrepresentations from transformers,bert)的命名实体识别任务(named entityrecognition,ner)进行训练微调,得到可以识别隐私相关词的语言识别模型;

4、步骤2,将待分析画像的用户的短信数据输入所述语言识别模型,识别出特定的隐私词在原短信数据中的位置信息;

5、步骤3,将所述隐私词替换成对应的替代词以保护用户隐私,将替代词替换原始词后得到隐私安全的短信数据;

6、步骤4,将所述隐私安全的短信数据交给编写的langchain应用,涉及对长输入的处理,不同用户画像信息的提示词模板等输入输出流;

7、步骤5,结合开源的大语言模型接口,分析得到用户画像,包括用户年龄、住址、消费习惯、兴趣爱好、教育程度、收入水平等用户画像信息。

8、进一步的,在步骤1生成可以识别隐私相关词的语言识别模型具体包括:

9、步骤1.1,人工标注短信隐私相关数据集,包括可能涉及隐私的人名、地名、组织名等,格式为(b-per/e-per)对应人名出现的起始位置和结束位置、(b-loc/e-loc) 对应地名出现的起始位置和结束位置、(b-org/e-org)对应组织名出现的起始位置和结束位置等,表示这些隐私词在数据集中的位置;

10、步骤1.2,将所述数据集结合现有的中文ner数据集,包括cner、人民日报数据集等,得到针对中文短信隐私实体识别的特定数据集;

11、步骤1.3,利用所产生的特定数据集,对bert的命名实体识别任务(named entityrecognition)进行训练微调,得到可以识别隐私相关词的私有化语言识别模型;

12、进一步的,在步骤2中识别隐私词中具体包括:编写手机应用,通过readsms接口获取用户本地的短信数据,然后通过交给步骤1的语言识别模型,识别出用户短信数据集中的隐私相关词的开始和结束位置。

13、进一步的,在步骤3中隐私词替换短信数据得到隐私安全的短信数据具体包括:

14、步骤3.1,对用户短信的隐私相关词建立一个双向映射关系,使得对应不同隐私类别词可以映射为对应的替代词,具体可以结合出现顺序,得到例如第n个出现的人名这个词语映射为“per-n”、第m个出现的地名词语映射为“loc-m”的双向隐私映射表,方便后序的分析;

15、步骤3.2,通过上述的隐私映射表,结合步骤2的隐私词位置信息,将用户短信数据集替换成得到隐私保护且可分析并还原的短信数据。

16、进一步的,在步骤4中编写langchain应用处理长文本数据以及对提示词模板优化具体包括:

17、步骤4.1,对于不同的待分析用户画像信息,本专利技术设计了不同的提示词模板,且通过大语言模型不断的对这些提示词模板优化,保障大模型最终能正确分析出这些画像信息;

18、步骤4.2,对于语义理解类型的用户画像分析,编写langchain的summarization程序(总结分析程序,程序的功能为总结,用于对当前输入推理提取出想要的画像信息),首先对短信数据这样的长输入进行分片,然后将每片都输入大语言模型运行待分析画像的提示词模板,并进行总结,将总结的用户画像信息结合下一分片内容作为新的分片,输入大语言模型,以解决大语言模型输入的长度限制问题,完成对于短信数据这样的长文本中的用户画像分析;

19、步骤4.3,对于精准画像类型的用户画像分析,如银行流水,编写langchain的extraction提取程序(提取程序),对待分析短信数据集的特定画像信息,如消费习惯、银行流水等进行精准分析,结合步骤3.1中得到的双向映射表,可以保证分析后的信息正确还原;

20、进一步的,在步骤5中具体包括:利用大语言模型强大的语言理解能力,本专利技术使用了gpt4(generative pre-trained transformer 4)提供的api接口,结合步骤4的langchain程序,可分析出基于步骤3的隐私短信数据中的用户画像,且保障了用户的隐私安全。

21、与现有技术相比,本专利技术的有益效果为:

22、本专利技术基于大语言模型技术开展对隐私保护下本文档来自技高网...

【技术保护点】

1.一种基于大语言模型的隐私保护用户画像分析方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的基于大语言模型的隐私保护用户画像分析方法,其特征在于,在步骤1生成识别隐私相关词的语言识别模型具体包括:

3.根据权利要求1所述的基于大语言模型的隐私保护用户画像分析方法,其特征在于,在步骤2中识别隐私词中具体包括:编写手机应用,通过ReadSMS接口获取用户本地的短信数据,然后通过交给步骤1的语言识别模型,识别出用户短信数据集中的隐私相关词的开始和结束位置。

4.根据权利要求1所述的基于大语言模型的隐私保护用户画像分析方法,其特征在于,在步骤3中隐私词替换短信数据得到隐私安全的短信数据具体包括:

5.根据权利要求1所述的基于大语言模型的隐私保护用户画像分析方法,其特征在于,在步骤4中编写Langchain应用处理长文本数据以及对提示词模板优化具体包括:

6.根据权利要求1所述的基于大语言模型的隐私保护用户画像分析方法,其特征在于,在步骤5中:利用大语言模型强大的语言理解能力,结合步骤4的程序,分析出步骤3的短信数据集中的用户画像。

...

【技术特征摘要】

1.一种基于大语言模型的隐私保护用户画像分析方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的基于大语言模型的隐私保护用户画像分析方法,其特征在于,在步骤1生成识别隐私相关词的语言识别模型具体包括:

3.根据权利要求1所述的基于大语言模型的隐私保护用户画像分析方法,其特征在于,在步骤2中识别隐私词中具体包括:编写手机应用,通过readsms接口获取用户本地的短信数据,然后通过交给步骤1的语言识别模型,识别出用户短信数据集中的隐私相关词的开始和结束位置。

4...

【专利技术属性】
技术研发人员:吴伟鹏华景煜
申请(专利权)人:南京大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1