一种文本识别脱敏方法及其系统技术方案

技术编号：32971904 阅读：28 留言：0更新日期：2022-04-09 11:40

本发明专利技术公开了一种文本识别脱敏方法及其系统，该方法包括：获取待识别文本，将待识别文本拆分为多个句子，再将句子分词为多个字词；将待识别文本的每个字词转换为对应的向量；将向量输入至Bert模型，Bert模型将向量转换为词表示向量，并对词表示向量进行分类标注；将标注后的词表示向量输入条件随机场，条件随机场基于标注之间的关联依赖关系进行计算，得到全局最优标注序列；对标注为敏感实体的字词进行脱敏操作。本发明专利技术能够做到并发执行，同时提取字词在句子中的关系特征，进而更全面反映句子语义，又能根据句子上下文获取词义，从而避免歧义出现，此外，能够针对不同类别的敏感实体进行不同的脱敏操作。进行不同的脱敏操作。进行不同的脱敏操作。

全部详细技术资料下载

【技术实现步骤摘要】
一种文本识别脱敏方法及其系统

[0001]本专利技术涉及数据处理
，尤其涉及一种文本识别脱敏方法及其系统。

技术介绍

[0002]个人或企业的敏感数据如知识专利、交易合同、电子病历等往往是文本文档形式。若将文档加密后直接上传至云服务器，则会导致某些重要云服务功能无法使用。例如，文档加密后，云服务的文档在线编辑和预览功能将失效。针对文档进行脱敏不仅可以移除隐私信息还可保全文档结构完整。因此，如何自动化地定位和脱敏文档中的隐私信息是一大技术挑战。其中，在敏感文本的识别与脱敏中，敏感文本的识别尤为重要，敏感文本保护方案的核心部分就是从海量的文本中挑选出敏感字词，完成对敏感字词的精准识别。
[0003]现有的命名实体识别主要用于识别文本中的姓名、地址、电话号码等敏感数据实体。基于规则的方法通过正则表达式、规则字典等来识别敏感实体，无需大量训练数据，然而规则编写需要有专家知识背景，且无法适应复杂多变的敏感数据，识别准确率较差。
[0004]现有的基于机器学习的方法采用隐马尔科夫模型、最大熵模型、层叠条件随机场模型、支持向量机模型等识别标注非结构化数据中的敏感信息，但需要大量的标注数据，文本语义特征抽取能力较弱，识别部分敏感实体准确率较差。
[0005]随着深度学习研究发展迅猛，通过单向长短时记忆神经网络 (LSTM，Long Short Termmemory Neural Network)与条件随机场组合模型对敏感数据类别进行预测，但对文本上下文语义特征提取能力较弱，并且并行性较差。
专利

【技术保护点】

【技术特征摘要】
1.一种文本识别脱敏方法，其特征在于，包括：步骤1、获取待识别文本，将所述待识别文本拆分为多个句子，再将所述句子分词为多个字词；步骤2、将所述待识别文本的每个所述字词转换为对应的向量；步骤3、将所述向量输入至Bert模型，所述Bert模型将所述向量转换为词表示向量，并对所述词表示向量进行分类标注；步骤4、将标注后的所述词表示向量输入条件随机场，所述条件随机场基于标注之间的关联依赖关系进行计算，得到全局最优标注序列；步骤5、对标注为敏感实体的所述字词进行脱敏操作。2.根据权利要求1所述的文本识别脱敏方法，其特征在于，在所述步骤3中，所述Bert模型是采用以下方式进行训练获得的：步骤3
‑
1、获取包含敏感实体的待识别文本，建立文本数据集；步骤3
‑
2、将所述待识别文本进行分词，并对敏感实体进行分类标注，构建训练样本；步骤3
‑
3、使用所述训练样本对所述Bert模型进行预训练，得到训练好的所述Bert模型。3.根据权利要求1所述的文本识别脱敏方法，其特征在于，在所述步骤1中，所述句子为英文句子时，使用WordPiece分词方法将切分为细粒度的所述字词，所述句子为中文句子时，直接将所述中文句子的进行单字拆分。4.根据权利要求1所述的文本识别脱敏方法，其特征在于，在所述步骤2中，所述向量为词向量、段向量与位置向量的叠加和。5.根据权利要求2所述的文本识别脱敏方法，其特征在于，在所述步骤3中，将每个所述字词标注为“B
‑
X”、“I
‑
X”、“O”“E
‑
X”或“S”，其中，所述“B”为所述敏感实体开始位置，所述“I”为所述敏感实体中间位置，所述“O”为所述敏感实体以外的字词，所述“E”为所述敏感实体结束位置，所述“S”为...

【专利技术属性】
技术研发人员：张宏莉，韩培义，叶麟，余翔湛，李东，于海宁，方滨兴，林华娟，
申请(专利权)人：电子科技大学广东电子信息工程研究院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人