隐私政策中隐私信息提取方法、系统、终端及介质技术方案

技术编号:29758220 阅读:103 留言:0更新日期:2021-08-20 21:11
本发明专利技术提供了一种隐私政策中隐私信息提取方法及系统,基于自然语言处理,首先将原始的隐私政策处理成文本,继而对隐私文本进行分段分句,并且使用预训练得到的自然语言处理模型对句子进行词性标注与命名实体识别得到数据对象,最后利用同义词词典与模糊匹配得到归一化的数据对象,再将数据对象映射到对应的隐私信息分类中,得到隐私政策收集的隐私信息的类别,以便于用户、应用市场平台或监管机构了解应用的隐私政策的隐私信息收集情况,帮助他们进行下一步的决策。同时提供了一种相应的终端及介质。本发明专利技术利用自然语言处理技术对隐私政策中的隐私信息进行提取,不需人工进行标注,能够实现更加高效、快速、灵活的隐私分析,满足相关行业的需求。

【技术实现步骤摘要】
隐私政策中隐私信息提取方法、系统、终端及介质
本专利技术涉及自然语言处理
,具体地,涉及一种基于自然语言处理的隐私政策中隐私信息提取方法、系统、终端及介质。
技术介绍
随着时代的发展,移动互联网应用已经渗透到人们日常生活中的方方面面。然而,移动互联网应用在给人们提供方便的同时,也收集了大量用户的隐私信息。为了规范应用的隐私信息收集,国内外都纷纷出台了相关的法规及政策,要求应用必须提供明晰的隐私政策,在用户使用应用之前告知用户哪些隐私信息将被收集。因此,一份隐私政策往往具有与法律条文类似的专业性、准确性等特性。伴随着这些特性而来的,还有冗长复杂且晦涩难懂等特点。不管是用户、应用市场平台或是相关监管机构,人工从隐私政策中找出其收集的隐私信息,都需要耗费大量的人力。一个高效的自动化隐私信息提取工具,不仅能够帮助用户了解一个应用收集了哪些隐私信息,而且能够帮助应用市场平台或相关监管机构提高调查工作的效率。隐私政策的文本往往十分复杂。一方面,隐私政策的撰写要符合相关的法规,因此其具有很强的规范性与专业性,且通常以长句为主;而另一方面,由于相本文档来自技高网...

【技术保护点】
1.一种隐私政策中隐私信息提取方法,其特征在于,包括:/n获取应用的隐私政策原始数据,并对不同格式的隐私政策原始数据进行数据处理,得到通用文本格式的隐私政策数据,并对得到的所述通用文本格式的隐私政策数据进行分句,拆解成多个单独的句子;/n利用预先摘取的用于描述隐私信息的句子对既有的自然语言处理模型进行扩展训练,得到隐私政策领域的语言处理模型,并利用得到的所述隐私政策领域的语言处理模型对每个句子进行词性标注与命名实体识别,进而将包含有行为动词与数据对象的句子筛选出来,得到(行为动词,数据对象)二元组的集合;/n对得到的所述二元组的集合中的所有数据对象进行归一化,并建立隐私数据的通用分类,将归一化...

【技术特征摘要】
1.一种隐私政策中隐私信息提取方法,其特征在于,包括:
获取应用的隐私政策原始数据,并对不同格式的隐私政策原始数据进行数据处理,得到通用文本格式的隐私政策数据,并对得到的所述通用文本格式的隐私政策数据进行分句,拆解成多个单独的句子;
利用预先摘取的用于描述隐私信息的句子对既有的自然语言处理模型进行扩展训练,得到隐私政策领域的语言处理模型,并利用得到的所述隐私政策领域的语言处理模型对每个句子进行词性标注与命名实体识别,进而将包含有行为动词与数据对象的句子筛选出来,得到(行为动词,数据对象)二元组的集合;
对得到的所述二元组的集合中的所有数据对象进行归一化,并建立隐私数据的通用分类,将归一化得到的数据对象映射到相应的分类当中去,得到被分析隐私政策声明收集的隐私信息的类别,最终实现对隐私政策中隐私信息的提取。


2.根据权利要求1所述的隐私政策中隐私信息提取方法,其特征在于,所述获取应用的隐私政策原始数据,采用爬虫的方式,从应用市场上爬取隐私政策链接,得到各个应用的隐私政策原始网页数据。


3.根据权利要求2所述的隐私政策中隐私信息提取方法,其特征在于,所述隐私政策网页原始数据的格式为HTML格式或PDF格式。


4.根据权利要求1所述的隐私政策中隐私信息提取方法,其特征在于,所述对得到的所述通用文本格式的隐私政策数据进行分句,拆解成多个单独的句子,包括:采用基于自然语言处理技术的通用分句方法,将通用文本格式的隐私政策数据按照句末标点分割拆解成多个单独的句子。


5.根据权利要求1所述的隐私政策中隐私信息提取方法,其特征在于,所述将包含有行为动词与数据对象的句子筛选出来,得到(行为动词,数据对象)二元组的集合,包括:
首先对每个筛选出来的句子都进行句法分析与命名实体识别;如果句法分析的词性标注结果中没有收集类或分享类行为动词出现,那么就略去该句子;否则继续检查命名实体识别的结果中是否包含数据对象,若不包含数据对象,则略去该句子;最后留下的句子都具有一个相应的(行为动词,数据对象)二元组,进而得到(行为动词,数据对象)...

【专利技术属性】
技术研发人员:朱浩瑾魏程涌潇陈哲轩周路
申请(专利权)人:上海交通大学
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1