一种文本识别脱敏方法及其系统技术方案

技术编号:32971904 阅读:28 留言:0更新日期:2022-04-09 11:40
本发明专利技术公开了一种文本识别脱敏方法及其系统,该方法包括:获取待识别文本,将待识别文本拆分为多个句子,再将句子分词为多个字词;将待识别文本的每个字词转换为对应的向量;将向量输入至Bert模型,Bert模型将向量转换为词表示向量,并对词表示向量进行分类标注;将标注后的词表示向量输入条件随机场,条件随机场基于标注之间的关联依赖关系进行计算,得到全局最优标注序列;对标注为敏感实体的字词进行脱敏操作。本发明专利技术能够做到并发执行,同时提取字词在句子中的关系特征,进而更全面反映句子语义,又能根据句子上下文获取词义,从而避免歧义出现,此外,能够针对不同类别的敏感实体进行不同的脱敏操作。进行不同的脱敏操作。进行不同的脱敏操作。

【技术实现步骤摘要】
一种文本识别脱敏方法及其系统


[0001]本专利技术涉及数据处理
,尤其涉及一种文本识别脱敏方法及其系统。

技术介绍

[0002]个人或企业的敏感数据如知识专利、交易合同、电子病历等往往是文本文档形式。若将文档加密后直接上传至云服务器,则会导致某些重要云服务功能无法使用。例如,文档加密后,云服务的文档在线编辑和预览功能将失效。针对文档进行脱敏不仅可以移除隐私信息还可保全文档结构完整。因此,如何自动化地定位和脱敏文档中的隐私信息是一大技术挑战。其中,在敏感文本的识别与脱敏中,敏感文本的识别尤为重要,敏感文本保护方案的核心部分就是从海量的文本中挑选出敏感字词,完成对敏感字词的精准识别。
[0003]现有的命名实体识别主要用于识别文本中的姓名、地址、电话号码等敏感数据实体。基于规则的方法通过正则表达式、规则字典等来识别敏感实体,无需大量训练数据,然而规则编写需要有专家知识背景,且无法适应复杂多变的敏感数据,识别准确率较差。
[0004]现有的基于机器学习的方法采用隐马尔科夫模型、最大熵模型、层叠条件随机场模型、支持向量机模型等识别标注非结构化数据中的敏感信息,但需要大量的标注数据,文本语义特征抽取能力较弱,识别部分敏感实体准确率较差。
[0005]随着深度学习研究发展迅猛,通过单向长短时记忆神经网络 (LSTM,Long Short Termmemory Neural Network)与条件随机场组合模型对敏感数据类别进行预测,但对文本上下文语义特征提取能力较弱,并且并行性较差。
专利
技术实现思路

[0006]鉴于
技术介绍
中存在的问题,本专利技术的目的在于提供一种文本识别脱敏方法及其系统,解决上下文语义特征抽取能力差且识别准确率低的问题,由于Bert自身多头自注意力机制的语义特征抽取和并行计算能力,可跨领域快速训练学习文本信息,并得到较高的精确率。
[0007]为了实现上述目的,本专利技术采用以下技术方案:
[0008]第一方面,本专利技术公开了一种文本识别脱敏方法,包括:
[0009]步骤1、获取待识别文本,将所述待识别文本拆分为多个句子,再将所述句子分词为多个字词;
[0010]步骤2、将所述待识别文本的每个所述字词转换为对应的向量;
[0011]步骤3、将所述向量输入至已训练的Bert模型,所述Bert模型将所述向量转换为词表示向量,并对所述词表示向量进行分类标注;
[0012]步骤4、将标注后的所述词表示向量输入条件随机场,所述条件随机场基于标注之间的关联依赖关系进行计算,得到全局最优标注序列;
[0013]步骤5、对标注为敏感实体的所述字词进行脱敏操作。
[0014]进一步地,在所述步骤3中,所述Bert模型是采用以下方式进行训练获得的:
[0015]步骤3

1、获取包含敏感实体的待识别文本,建立文本数据集;
[0016]步骤3

2、将所述待识别文本进行分词,并对敏感实体进行分类标注,构建训练样本;
[0017]步骤3

3、使用所述训练样本对所述Bert模型进行预训练,得到训练好的所述Bert模型。
[0018]进一步地,在所述步骤1中,所述句子为英文句子时,使用 WordPiece分词方法将切分为细粒度的所述字词,所述句子为中文句子时,直接将所述中文句子的进行单字拆分。
[0019]进一步地,在所述步骤2中,所述向量为词向量、段向量与位置向量的叠加和。
[0020]进一步地,在所述步骤3中,将每个所述字词标注为“B

X”、“I

X”、“O”“E

X”或“S”,其中,所述“B”为所述敏感实体开始位置,所述“I”为所述敏感实体中间位置,所述“O”为所述敏感实体以外的字词,所述“E”为所述敏感实体结束位置,所述“S”为单个实体,所述“X”为标注所述敏感实体所属类型。
[0021]进一步地,在所述步骤4中,将所述词表示向量的序列作为观测序列,将所述标注的序列作为标记序列,计算所述观测序列对应的所述标记序列的第一概率,并对所述第一概率进行归一化,得到所述第二概率,所述第二概率的值最大的所述标注序列即为最优的所述标注序列。
[0022]进一步地,所述观测序列对应的所述标记序列的第一概率的计算公式如下:
[0023][0024]M为观测序列,K为标注序列,i为观测序列中第i个字词,是转换矩阵,为第i个字词的第个标注的预测概率值,为第i个字词的标注序列,所述为第i

1个字词的标注序列,n∈N,且n≥1。
[0025]进一步地,将所述score(M∣K)的值利用Softmax进行归一化得到最后的概率值,计算所述第二概率P(K∣M)公式如下:
[0026][0027]K'为任意一个所述标注序列。
[0028]进一步地,在所述步骤5中,所述脱敏操作包括替换、擦除、数据泛化、格式保全加密。
[0029]第二方面,本专利技术公开了一种文本识别脱敏系统,包括:
[0030]文本输入模块,被配置为输入待识别文本;
[0031]预处理模块,被配置为将输入所述待识别文本经分词处理得到字词;
[0032]Bert模型模块,被配置为将所述待识别文本的每个所述字词转换为对应的向量,再将所述向量转换为词表示向量,并对所述词表示向量进行标注;
[0033]标注序列预测模块,被配置为计算所述词表示向量的标注之间的关联依赖关系,得到全局最优标注序列;
[0034]脱敏模块,被配置为对标注的敏感实体进行脱敏操作;
[0035]文本输出模块,被配置为输出脱敏文本。
[0036]本申请采用上述技术方案,至少具有如下技术效果:
[0037]本专利技术公开了一种文本识别脱敏方法及系统,相对于现有的单向长短时记忆神经网络与条件随机场组合模型对敏感数据类别进行预测,但对文本上下文语义特征提取能力较弱,并且并行性较差。本专利技术的Bert模型与条件随机场组合模型能够做到并发执行,同时提取字词在句子中的关系特征,并且能在多个不同层次提取不同的关系特征,进而更全面反映句子语义,又能根据句子上下文获取词义,从而避免歧义出现,此外,通过对字词进行分类标注,能够方便后续针对不同类别的敏感实体进行不同的脱敏操作,最后通过条件随机场对标注进行预测得到最优的敏感实体的标注,进而提高脱敏操作的精准度。
附图说明
[0038]为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0039]图1为本专利技术实施例中的一种文本识别脱敏方法的流程框图。
[0040]图2为本专利技术实施例中的一种文本识别脱敏系统的结构框图。...

【技术保护点】

【技术特征摘要】
1.一种文本识别脱敏方法,其特征在于,包括:步骤1、获取待识别文本,将所述待识别文本拆分为多个句子,再将所述句子分词为多个字词;步骤2、将所述待识别文本的每个所述字词转换为对应的向量;步骤3、将所述向量输入至Bert模型,所述Bert模型将所述向量转换为词表示向量,并对所述词表示向量进行分类标注;步骤4、将标注后的所述词表示向量输入条件随机场,所述条件随机场基于标注之间的关联依赖关系进行计算,得到全局最优标注序列;步骤5、对标注为敏感实体的所述字词进行脱敏操作。2.根据权利要求1所述的文本识别脱敏方法,其特征在于,在所述步骤3中,所述Bert模型是采用以下方式进行训练获得的:步骤3

1、获取包含敏感实体的待识别文本,建立文本数据集;步骤3

2、将所述待识别文本进行分词,并对敏感实体进行分类标注,构建训练样本;步骤3

3、使用所述训练样本对所述Bert模型进行预训练,得到训练好的所述Bert模型。3.根据权利要求1所述的文本识别脱敏方法,其特征在于,在所述步骤1中,所述句子为英文句子时,使用WordPiece分词方法将切分为细粒度的所述字词,所述句子为中文句子时,直接将所述中文句子的进行单字拆分。4.根据权利要求1所述的文本识别脱敏方法,其特征在于,在所述步骤2中,所述向量为词向量、段向量与位置向量的叠加和。5.根据权利要求2所述的文本识别脱敏方法,其特征在于,在所述步骤3中,将每个所述字词标注为“B

X”、“I

X”、“O”“E

X”或“S”,其中,所述“B”为所述敏感实体开始位置,所述“I”为所述敏感实体中间位置,所述“O”为所述敏感实体以外的字词,所述“E”为所述敏感实体结束位置,所述“S”为...

【专利技术属性】
技术研发人员:张宏莉韩培义叶麟余翔湛李东于海宁方滨兴林华娟
申请(专利权)人:电子科技大学广东电子信息工程研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1