一种中文隐私政策自动标注及摘要提取方法和装置制造方法及图纸

技术编号:38098911 阅读:7 留言:0更新日期:2023-07-06 09:15
本发明专利技术公开了一种中文隐私政策自动标注及摘要提取方法和装置,包括将隐私政策文本划分为条款句子,依据隐私政策标注准则对每个条款句子进行类别标签、重要条款标签以及潜在风险条款标签的标注后,进行数据增强和分词处理以构建训练样本;利用训练样本及对应的标签分别对类别识别模型、关键句识别模型以及风险识别模型进行有监督学习训练;将待标注的隐私政策文本处理成测试样本后,利用训练好的三个模型中的至少一个模型对测试样本进行标签预测,并依据标签预测结果对隐私政策文本中每个条款句子进行标签标注;依据标签标注结果从隐私政策文本中提取满足需求的条款句子组成摘要文本。该方法和装置标注质量高、通用性强、使用简便。简便。简便。

【技术实现步骤摘要】
一种中文隐私政策自动标注及摘要提取方法和装置


[0001]本专利技术属于计算机自然语言处理领域和隐私政策领域,具体涉及一种中文隐私政策自动标注及摘要提取方法和装置。

技术介绍

[0002]隐私政策标注是获取用于自然语言处理任务的大规模隐私政策语料库的一种基本途径,然而人工标注的成本高且效率低,相比之下,众包标注虽然降低了隐私政策标注的成本,但是却难以保障隐私政策标注的质量。鉴于此,基于文本分类的隐私政策自动标注任务逐渐受到人们的关注,然而相比与国外研究进展,针对中文的隐私政策自动标注解决方案较少且性能不足。
[0003]隐私政策摘要则是从冗长隐私政策中获取简短或有价值关键信息的自然语言处理技术,对于降低隐私政策阅读时间、识别隐私条款风险具有极其重要现实意义。隐私政策摘要领域的主要涉及两个不同子领域,其一,利用分类技术抽取隐私政策中的重要条款;其二,利用文本生成技术将隐私政策中冗长难理解的隐私政策翻译为简短易理解的隐私条款。
[0004]最初《The Creation and Analysis of a Website Privacy Policy Corpus》提供了一种针对英文的自动标注模型,分别采用逻辑回归、SVM、HMM对隐私政策进行标注,然而,数据实例之间的复杂关系会导致构建的数据库存在模糊、矛盾、范围不清等问题,影响人工标注的一致性及标注模型的准确性;《The Creation and Analysis of a Website Privacy Policy Corpus》研究了众包标注的准确性、可拓展性,其根据隐私诉讼中常见的内容设计标注方案,研究表明标注方案的细节是否容易理解、界限是否清晰等问题对于众包标注的结果影响极大,并强调不要对众包结果有过高的期待。
[0005]专利《一种基于中文隐私政策条款的自动分类方法》介绍了一种基于SVM的隐私政策分类方法,该方法首先提取隐私条款的特征,而后采用SVM分类器获取隐私条款的别类,并将其归类显示,该方法仅在部分类中取得了令人满意的结果。《A Tale of Two Regulatory Regimes:Creation and Analysis of a Bilingual Privacy Policy Corpus》分别将Bert和m

Bert模型应用于英文和德文隐私政策的自动标注任务,其结果显著优于之前的标注模型。《A Tale of Two Regulatory Regimes:Creation and Analysis of aBilingual Privacy Policy Corpus》提出了一种基于规则的隐私政策摘要技术,用于抽取隐私政策不同类的内容,并将其提取至对应类别,该方法基于英文语料库设计,且规则库难以构建和覆盖全部样本导致该模型易出现过拟合现象。专利《一种基于自然语言处理的隐私政策摘要方法》提供了一种应用于的生成式文本摘要方法,然而该模型依然采用英文语料库进行训练和验证。《Toward Domain

Guided Controllable Summarization of Privacy Policies》提出了一种仅用于摘要英文隐私政策风险条款的方法,其将摘要视为二分类问题,训练CNN模型预测隐私政策风险概率,提出的以风险为中心和以覆盖面为中心的两种摘要方式受阈值影响较大。

技术实现思路

[0006]鉴于上述,针对训练高质量机器学习模型所需的大规模隐私政策语料库标注难度大、成本高等问题,以及隐私政策冗长、普通用户难以从中获取存在安全风险的隐私条款等问题。本专利技术提供了一种中文隐私政策自动标注及摘要提取方法和装置,以实现快速、低成本的高质量隐私政策的标注及隐私政策摘要的提取。
[0007]为实现上述专利技术目的,实施例提供的一种中文隐私政策自动标注及摘要提取方法,包括以下步骤:
[0008]文本处理:将隐私政策文本划分为条款句子,依据隐私政策标注准则对每个条款句子进行类别标签、重要条款标签以及潜在风险条款标签的标注后,进行数据增强和分词处理以构建训练样本;
[0009]模型训练:利用训练样本及对应的类别标签、重要条款标签以及潜在风险条款标签分别对类别识别模型、关键句识别模型以及风险识别模型进行有监督学习训练;
[0010]标签标注:将待标注的隐私政策文本处理成测试样本后,利用训练好的类别识别模型、关键句识别模型以及风险识别模型中的至少一个模型对测试样本进行标签预测,并依据标签预测结果对隐私政策文本中每个条款句子进行标签标注;
[0011]摘要提取:依据标签标注结果从隐私政策文本中提取满足需求的条款句子组成摘要文本。
[0012]在一个可选的实施例中,文本处理时,采用正则表达式将隐私政策文本划分为条款句子粒度,划分时的断句符包括单字符断句符、英文省略号断句符、中文省略号断句符、双引号前有断句符时以双引号为终点断句符。
[0013]在一个可选的实施例中,文本处理时,采用TextBlob通过反译技术进行数据增强,采用Tokenizer和Bert的Vocab词表进行分词处理。
[0014]在一个可选的实施例中,所述类别识别模型、关键句识别模型以及风险识别模型的网络结构均包括输入层、嵌入层、编码层、卷积层、池化层、全连接层和输出层,除输出层外,三个模型的其他层均相同,其中,输入层用于获取样本的Token序列T
n
;嵌入层用于计算T
n
的嵌入矩阵E
n
;编码层用于分别采用Bert编码器和LSTM编码器对E
n
进行编码获得向量B和向量L;卷积层用于对向量B和L的拼接结果BL进行卷积操作得到矩阵C;池化层用于对C进行最大池化处理矩阵C得到向量P;全连接层用于对向量P对全连接映射,输出层用于根据全连接映射结果进行激活映射以输出预测值,其中,类别识别模型的输出层为N个维度,对应N个类别标签,关键句识别模型和风险识别模型的输出层为一个维度,分别对应重要条款标签、潜在风险条款标签的预测值。
[0015]在一个可选的实施例中,所述全连接层中采用ReLU激活函数进行激活映射,所述输出层采用Sigmoid激活函数进行激活映射以输出预测结果。
[0016]在一个可选的实施例中,对类别识别模型、关键句识别模型以及风险识别模型进行有监督学习训练时,采用模型的预测结果与训练样本的交叉熵作为损失函数。
[0017]在一个可选的实施例中,摘要提取时,依据标签标注结果从隐私政策文本中提取满足需求的条款句子组成摘要文本,包括:
[0018]首先从隐私政策文本中提取重要条款标签标注的条款句子组成候选条款句子集;然后从候选条款句子集中选择感兴趣类别标签标注的条款句子组成摘要文本。
[0019]在一个可选的实施例中,摘要提取时,当需要提取风险条款时,从隐私政策文本中提取潜在风险条款标签标注的条款句子作为摘要文本的一部分。
[0020]为实现上述专利技术目的,实施例还提供了一种本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种中文隐私政策自动标注及摘要提取方法,其特征在于,包括以下步骤:文本处理:将隐私政策文本划分为条款句子,依据隐私政策标注准则对每个条款句子进行类别标签、重要条款标签以及潜在风险条款标签的标注后,进行数据增强和分词处理以构建训练样本;模型训练:利用训练样本及对应的类别标签、重要条款标签以及潜在风险条款标签分别对类别识别模型、关键句识别模型以及风险识别模型进行有监督学习训练;标签标注:将待标注的隐私政策文本处理成测试样本后,利用训练好的类别识别模型、关键句识别模型以及风险识别模型中的至少一个模型对测试样本进行标签预测,并依据标签预测结果对隐私政策文本中每个条款句子进行标签标注;摘要提取:依据标签标注结果从隐私政策文本中提取满足需求的条款句子组成摘要文本。2.根据权利要求1所述的中文隐私政策自动标注及摘要提取方法,其特征在于,文本处理中,采用正则表达式将隐私政策文本划分为条款句子粒度,划分时的断句符包括单字符断句符、英文省略号断句符、中文省略号断句符、双引号前有断句符时以双引号为终点断句符。3.根据权利要求1所述的中文隐私政策自动标注及摘要提取方法,其特征在于,文本处理中,采用TextBlob通过反译技术进行数据增强,采用Tokenizer和Bert的Vocab词表进行分词处理。4.根据权利要求1所述的中文隐私政策自动标注及摘要提取方法,其特征在于,所述类别识别模型、关键句识别模型以及风险识别模型的网络结构均包括输入层、嵌入层、编码层、卷积层、池化层、全连接层和输出层,除输出层外,三个模型的其他层均相同,其中,输入层用于获取样本的Token序列T
n
;嵌入层用于计算T
n
的嵌入矩阵E
n
;编码层用于分别采用Bert编码器和LSTM编码器对E
n
进行编码获得向量B和向量L;卷积层用于对向量B和L的拼接结果BL进行卷积操作得到矩阵C;池化层用于对C进行最大池化处理矩阵C得到向量P;全连接层用于对向量P对全连接映射,输出层用于根据全连接映射结果进行激活映射以输出预测...

【专利技术属性】
技术研发人员:文龙朱鹏云刘金飞
申请(专利权)人:浙江大学杭州国际科创中心
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1