一种中文隐私政策自动标注及摘要提取方法和装置制造方法及图纸

技术编号：38098911 阅读：7 留言：0更新日期：2023-07-06 09:15

本发明专利技术公开了一种中文隐私政策自动标注及摘要提取方法和装置，包括将隐私政策文本划分为条款句子，依据隐私政策标注准则对每个条款句子进行类别标签、重要条款标签以及潜在风险条款标签的标注后，进行数据增强和分词处理以构建训练样本；利用训练样本及对应的标签分别对类别识别模型、关键句识别模型以及风险识别模型进行有监督学习训练；将待标注的隐私政策文本处理成测试样本后，利用训练好的三个模型中的至少一个模型对测试样本进行标签预测，并依据标签预测结果对隐私政策文本中每个条款句子进行标签标注；依据标签标注结果从隐私政策文本中提取满足需求的条款句子组成摘要文本。该方法和装置标注质量高、通用性强、使用简便。简便。简便。

全部详细技术资料下载

【技术实现步骤摘要】
一种中文隐私政策自动标注及摘要提取方法和装置

[0001]本专利技术属于计算机自然语言处理领域和隐私政策领域，具体涉及一种中文隐私政策自动标注及摘要提取方法和装置。

技术介绍

[0002]隐私政策标注是获取用于自然语言处理任务的大规模隐私政策语料库的一种基本途径，然而人工标注的成本高且效率低，相比之下，众包标注虽然降低了隐私政策标注的成本，但是却难以保障隐私政策标注的质量。鉴于此，基于文本分类的隐私政策自动标注任务逐渐受到人们的关注，然而相比与国外研究进展，针对中文的隐私政策自动标注解决方案较少且性能不足。
[0003]隐私政策摘要则是从冗长隐私政策中获取简短或有价值关键信息的自然语言处理技术，对于降低隐私政策阅读时间、识别隐私条款风险具有极其重要现实意义。隐私政策摘要领域的主要涉及两个不同子领域，其一，利用分类技术抽取隐私政策中的重要条款；其二，利用文本生成技术将隐私政策中冗长难理解的隐私政策翻译为简短易理解的隐私条款。
[0004]最初《The Creation and Analysis of a Website Privacy Policy Corpus》提供了一种针对英文的自动标注模型，分别采用逻辑回归、SVM、HMM对隐私政策进行标注，然而，数据实例之间的复杂关系会导致构建的数据库存在模糊、矛盾、范围不清等问题，影响人工标注的一致性及标注模型的准确性；《The Creation and Analysis of a Website Privacy Policy Corpus》研究了众包标注的准...

【技术保护点】

【技术特征摘要】
1.一种中文隐私政策自动标注及摘要提取方法，其特征在于，包括以下步骤：文本处理：将隐私政策文本划分为条款句子，依据隐私政策标注准则对每个条款句子进行类别标签、重要条款标签以及潜在风险条款标签的标注后，进行数据增强和分词处理以构建训练样本；模型训练：利用训练样本及对应的类别标签、重要条款标签以及潜在风险条款标签分别对类别识别模型、关键句识别模型以及风险识别模型进行有监督学习训练；标签标注：将待标注的隐私政策文本处理成测试样本后，利用训练好的类别识别模型、关键句识别模型以及风险识别模型中的至少一个模型对测试样本进行标签预测，并依据标签预测结果对隐私政策文本中每个条款句子进行标签标注；摘要提取：依据标签标注结果从隐私政策文本中提取满足需求的条款句子组成摘要文本。2.根据权利要求1所述的中文隐私政策自动标注及摘要提取方法，其特征在于，文本处理中，采用正则表达式将隐私政策文本划分为条款句子粒度，划分时的断句符包括单字符断句符、英文省略号断句符、中文省略号断句符、双引号前有断句符时以双引号为终点断句符。3.根据权利要求1所述的中文隐私政策自动标注及摘要提取方法，其特征在于，文本处理中，采用TextBlob通过反译技术进行数据增强，采用Tokenizer和Bert的Vocab词表进行分词处理。4.根据权利要求1所述的中文隐私政策自动标注及摘要提取方法，其特征在于，所述类别识别模型、关键句识别模型以及风险识别模型的网络结构均包括输入层、嵌入层、编码层、卷积层、池化层、全连接层和输出层，除输出层外，三个模型的其他层均相同，其中，输入层用于获取样本的Token序列T
n
；嵌入层用于计算T
n
的嵌入矩阵E
n
；编码层用于分别采用Bert编码器和LSTM编码器对E
n
进行编码获得向量B和向量L；卷积层用于对向量B和L的拼接结果BL进行卷积操作得到矩阵C；池化层用于对C进行最大池化处理矩阵C得到向量P；全连接层用于对向量P对全连接映射，输出层用于根据全连接映射结果进行激活映射以输出预测...

【专利技术属性】
技术研发人员：文龙，朱鹏云，刘金飞，
申请(专利权)人：浙江大学杭州国际科创中心，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人