System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 基于NLP的社交网络隐私感知系统及方法技术方案_技高网

基于NLP的社交网络隐私感知系统及方法技术方案

技术编号:40003108 阅读:9 留言:0更新日期:2024-01-09 04:13
本发明专利技术公开了一种基于NLP的社交网络隐私感知系统及方法,涉及人工智能技术领域,该系统包括:输入模块用于获取用户输入的文本数据,并对文本数据进行规约;数据处理模块用于对规约的文本数据进行预处理以将字符转化为数字形式,得到文本编码向量;静态隐私感知模块用于获取文本编码向量并识别用户的常规隐私实体;动态隐私感知模块用于获取文本编码向量并识别用户的兴趣隐私实体;输出模块用于输出用户的常规隐私实体及兴趣隐私实体。用户在移动端使用本发明专利技术提供的基于NLP的社交网络隐私感知系统及方法时,只需输入文字即可得到可能暴露的隐私信息,具有实用性,并且移动端的数据仅在本地传输,安全系数高,保证了用户的个人信息安全。

【技术实现步骤摘要】

本专利技术属于人工智能,具体涉及一种基于nlp的社交网络隐私感知系统及方法。


技术介绍

1、互联网场景下,社交模式有了新的方式和节奏,在社交网络中,个体逐渐变得抽象,信息成为网络的组成部分。而在社交过程中,个体隐私信息会随着消息本体不断传播,大大增加了隐私暴露的风险。网络环境中恶意用户也在时刻关注着社交网络中可利用的隐私信息,随着攻击方式越加灵活、攻击手段逐渐多样,社交网络中个体隐私安全时时刻刻遭受着威胁。

2、申请号为cn201910507192的专利申请公开了一种合同中个人隐私信息抽取的方法和系统,该方法首先从各种数据源收集nlp(natural language processing,自然语言处理)文本语料,并对所收集的nlp文本语料进行数据加工处理以生成经规范化的nlp文本语料;将经规范化的nlp文本语料用于对词向量语言模型进行训练以获得词向量模型;然后,获取个人隐私种子数据,将个人隐私种子数据输入到词向量模型中以预测与个人隐私种子数据相关联的相似词;最后基于所预测的相似词对合同执行数据抽取以识别出与相似词相关联的个人隐私数据。

3、此外,申请号为cn202210229715的专利申请公开了一种基于nlp的数据脱敏方法,具体地,首先根据机器视觉对文本内容进行识别及格式转换,将表格型文件转换为可编辑文件txt;然后对txt文件进行分割处理,通过自然语言处理,利用bert-bilstm-crf模型进行命名体识别;接着利用正则表达式,使用规则筛选出身份证号和手机号码;最后对识别的命名体以及筛选出的身份证号、手机号进行脱敏,并输出脱敏后文件数据。

4、然而,相关技术中的隐私感知方法不能提取出隐性的个人隐私信息,如社交平台图片中暴露的地标信息或用户的兴趣爱好等,并且对于文本的格式要求较高,对于不满足格式要求的文本难以提取隐私信息;此外,采用正则表达式匹配隐私信息不是特别准确,效率也比较低。


技术实现思路

1、为了解决现有技术中存在的上述问题,本专利技术提供了一种基于nlp的社交网络隐私感知系统及方法。本专利技术要解决的技术问题通过以下技术方案实现:

2、第一方面,本专利技术提供一种基于nlp的社交网络隐私感知系统,包括:

3、输入模块,用于获取用户输入的文本数据,并对所述文本数据进行规约;

4、数据处理模块,用于对规约的文本数据进行预处理以将字符转化为数字形式,得到文本编码向量;

5、静态隐私感知模块,用于获取文本编码向量,并从中识别用户的常规隐私实体;

6、动态隐私感知模块,用于获取文本编码向量,并从中识别用户的兴趣隐私实体;

7、输出模块,用于输出用户的所述常规隐私实体及兴趣隐私实体。

8、在本专利技术的一个实施例中,所述静态隐私感知模块,具体用于基于预先训练好的roformerbert模型提取所述文本编码向量的特征矩阵,并在利用全局指针global_pointer算法将所述特征矩阵拆分为n个维度为l×l的子矩阵之后,根据各个子矩阵分别确定n个常规隐私实体在用户输入的文本数据中的位置,l表示所述文本编码向量的长度。

9、在本专利技术的一个实施例中,所述预先训练好的roformerbert模型包括embedding单元和transformer单元,所述transformer单元包括依次连接的多个transformer层;其中,

10、所述embedding单元用于对文本编码向量中的每个数字进行字符编码,所述transformer单元用于根据字符编码的结果提取得到所述特征矩阵。

11、在本专利技术的一个实施例中,所述动态隐私感知模块,具体用于获取文本编码向量,并基于预先训练好的roformerbert模型和unilm模型识别兴趣隐私实体。

12、第二方面,本专利技术提供一种基于nlp的社交网络隐私感知方法,应用于第一方面所述的基于nlp的社交网络隐私感知系统,包括:

13、获取用户输入的文本数据;

14、对所述文本数据进行预处理,使所述文本数据由字符转化为数字形式,得到文本编码向量;

15、将文本编码向量分别输入所述静态隐私感知模块和所述动态隐私感知模块,以使所述静态隐私感知模块从文本编码向量中识别用户的常规隐私实体,并使所述动态隐私感知模块从文本编码向量中识别用户的兴趣隐私实体;

16、输出所述常规隐私实体和所述兴趣隐私实体,得到用户的隐私感知结果。

17、在本专利技术的一个实施例中,对所述文本数据进行预处理的步骤之前,还包括:

18、对所述文本数据进行规约;

19、其中,对所述文本数据进行规约的步骤,包括:

20、删除所述文本数据中的特殊字符,并将所述文本数据由字符串转化为字符数组。

21、在本专利技术的一个实施例中,对所述文本数据进行预处理,使所述文本数据由字符转化为数字形式的步骤,包括:

22、利用jieba分词对规约的文本数据进行分词;

23、构建token类,并利用所述token类将分词后的文本数据由字符转化为数字形式;

24、在每条语句的开始及结尾处分别添加开始token字符和结束token字符。

25、在本专利技术的一个实施例中,将文本编码向量分别输入所述静态隐私感知模块和所述动态隐私感知模块,以使所述静态隐私感知模块从文本编码向量中识别用户的常规隐私实体,并使所述动态隐私感知模块从文本编码向量中识别用户的兴趣隐私实体的步骤,包括:

26、将文本编码向量输入所述静态隐私感知模块,以使所述静态隐私感知模块基于预先训练好的roformerbert模型提取所述文本编码向量的特征矩阵,并使所述静态隐私感知模块利用全局指针global_pointer算法将所述特征矩阵拆分为n个维度为l×l的子矩阵之后,根据各个子矩阵分别确定n个常规隐私实体在用户输入的文本数据中的位置,l表示所述文本编码向量的长度;

27、将文本编码向量输入所述动态隐私感知模块,以使所述动态隐私感知模块基于预先训练好的roformerbert模型提取所述文本编码向量的特征矩阵,并使所述动态隐私感知模块利用预先训练好的unilm模型从所述特征矩阵中识别用户的兴趣隐私实体。

28、在本专利技术的一个实施例中,所述静态隐私感知模块按照如下步骤确定n个常规隐私实体在用户输入的文本数据中的位置:

29、分别判断各个子矩阵中是否包含大于0的元素;

30、若是,则获取该大于0的元素在对应子矩阵中的坐标,得到n个常规隐私实体在用户输入的文本数据中的位置。

31、在本专利技术的一个实施例中,所述常规隐私实体包括姓名、生日、地址、职业、学历和公司中的至少一者。

32、与现有技术相比,本专利技术的有益效果在于:

33、本专利技术提供一种基于nlp的社交网络隐私感知系统及方法,用户在移动端使用时方便快捷,甚至本文档来自技高网...

【技术保护点】

1.一种基于NLP的社交网络隐私感知系统,其特征在于,包括:

2.根据权利要求1所述的基于NLP的社交网络隐私感知系统,其特征在于,所述静态隐私感知模块,具体用于基于预先训练好的roFormerBert模型提取所述文本编码向量的特征矩阵,并在利用全局指针global_pointer算法将所述特征矩阵拆分为N个维度为L×L的子矩阵之后,根据各个子矩阵分别确定N个常规隐私实体在用户输入的文本数据中的位置,L表示所述文本编码向量的长度。

3.根据权利要求2所述的基于NLP的社交网络隐私感知系统,其特征在于,所述预先训练好的roFormerBert模型包括Embedding单元和Transformer单元,所述Transformer单元包括依次连接的多个Transformer层;其中,

4.根据权利要求3所述的基于NLP的社交网络隐私感知系统,其特征在于,所述动态隐私感知模块,具体用于获取文本编码向量,并基于预先训练好的roFormerBert模型和UniLM模型识别兴趣隐私实体。

5.一种基于NLP的社交网络隐私感知方法,其特征在于,应用于权利要求1~4任一所述的基于NLP的社交网络隐私感知系统,包括:

6.根据权利要求5所述的基于NLP的社交网络隐私感知方法,其特征在于,对所述文本数据进行预处理的步骤之前,还包括:

7.根据权利要求6所述的基于NLP的社交网络隐私感知方法,其特征在于,对所述文本数据进行预处理,使所述文本数据由字符转化为数字形式的步骤,包括:

8.根据权利要求5所述的基于NLP的社交网络隐私感知方法,其特征在于,将文本编码向量分别输入所述静态隐私感知模块和所述动态隐私感知模块,以使所述静态隐私感知模块从文本编码向量中识别用户的常规隐私实体,并使所述动态隐私感知模块从文本编码向量中识别用户的兴趣隐私实体的步骤,包括:

9.根据权利要求8所述的基于NLP的社交网络隐私感知方法,其特征在于,所述静态隐私感知模块按照如下步骤确定N个常规隐私实体在用户输入的文本数据中的位置:

10.根据权利要求8所述的基于NLP的社交网络隐私感知方法,其特征在于,所述常规隐私实体包括姓名、生日、地址、职业、学历和公司中的至少一者。

...

【技术特征摘要】

1.一种基于nlp的社交网络隐私感知系统,其特征在于,包括:

2.根据权利要求1所述的基于nlp的社交网络隐私感知系统,其特征在于,所述静态隐私感知模块,具体用于基于预先训练好的roformerbert模型提取所述文本编码向量的特征矩阵,并在利用全局指针global_pointer算法将所述特征矩阵拆分为n个维度为l×l的子矩阵之后,根据各个子矩阵分别确定n个常规隐私实体在用户输入的文本数据中的位置,l表示所述文本编码向量的长度。

3.根据权利要求2所述的基于nlp的社交网络隐私感知系统,其特征在于,所述预先训练好的roformerbert模型包括embedding单元和transformer单元,所述transformer单元包括依次连接的多个transformer层;其中,

4.根据权利要求3所述的基于nlp的社交网络隐私感知系统,其特征在于,所述动态隐私感知模块,具体用于获取文本编码向量,并基于预先训练好的roformerbert模型和unilm模型识别兴趣隐私实体。

5.一种基于nlp的社交网络隐私感知方法,...

【专利技术属性】
技术研发人员:李晖孙雄韬李怡然刘干
申请(专利权)人:西安电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1