基于大语言模型的合同文本脱敏方法、系统、设备、介质及产品技术方案

技术编号:43321851 阅读:31 留言:0更新日期:2024-11-15 20:21
本申请公开了一种基于大语言模型的合同文本脱敏方法、系统、设备、介质及产品,涉及数据处理领域,该方法包括将待脱敏合同文件转换为文本形式,得到待脱敏合同文本,利用第一设定正则表达式识别待脱敏合同文本中的固定格式隐私数据,利用命名实体识别模型识别待脱敏合同文本中的命名实体;所述命名实体识别模型是利用训练样本对大语言模型进行训练得到的;所述训练样本包括合同文本样本数据和对应的命名实体样本;利用随机数据对待脱敏合同文本中识别到的固定格式隐私数据和识别到的命名实体进行替换,得到脱敏后的合同文本。本申请能够提高合同文本的脱敏效率和准确率。

【技术实现步骤摘要】

本申请涉及数据处理,特别是涉及一种基于大语言模型的合同文本脱敏方法、系统、设备、介质及产品


技术介绍

1、现如今一些公司在合同文本数据的使用过程中,面临着需要处理大量敏感隐私信息的挑战,例如个人隐私数据(例如姓名、身份证号、电话号码、家庭地址等)以及公司商业机密数据(包括合同金额、客户信息、账户号码和涉及标的等)。为确保信息安全,通常需要对合同文本进行脱敏处理。然而,由于合同文本中存在各种格式和类型的隐私数据,传统脱敏方法往往面临识别困难的问题,目前常见的脱敏方法包括人工识别和模式匹配,但它们均存在一定局限性:人工识别成本高、效率低且难以与信息系统结合;模式匹配只能识别特定格式的隐私数据(如身份证号、账号),识别类型单一,准确性不高。


技术实现思路

1、本申请的目的是提供一种基于大语言模型的合同文本脱敏方法、系统、设备、介质及产品,以解决合同文本脱敏效率低和准确率低的问题。

2、为实现上述目的,本申请提供了如下方案:

3、第一方面,本申请提供了一种基于大语言模型的合同文本脱敏方法,所本文档来自技高网...

【技术保护点】

1.一种基于大语言模型的合同文本脱敏方法,其特征在于,所述基于大语言模型的合同文本脱敏方法包括:

2.根据权利要求1所述的基于大语言模型的合同文本脱敏方法,其特征在于,利用第一设定正则表达式识别待脱敏合同文本中的固定格式隐私数据,具体包括:

3.根据权利要求2所述的基于大语言模型的合同文本脱敏方法,其特征在于,在得到脱敏后的合同文本之后,还包括:还原去除的空白字符和换行符,得到与待脱敏合同文本格式一致的脱敏后的合同文本。

4.根据权利要求1所述的基于大语言模型的合同文本脱敏方法,其特征在于,所述第一正则表达式是基于固定格式隐私数据的格式特征构建得到的;...

【技术特征摘要】

1.一种基于大语言模型的合同文本脱敏方法,其特征在于,所述基于大语言模型的合同文本脱敏方法包括:

2.根据权利要求1所述的基于大语言模型的合同文本脱敏方法,其特征在于,利用第一设定正则表达式识别待脱敏合同文本中的固定格式隐私数据,具体包括:

3.根据权利要求2所述的基于大语言模型的合同文本脱敏方法,其特征在于,在得到脱敏后的合同文本之后,还包括:还原去除的空白字符和换行符,得到与待脱敏合同文本格式一致的脱敏后的合同文本。

4.根据权利要求1所述的基于大语言模型的合同文本脱敏方法,其特征在于,所述第一正则表达式是基于固定格式隐私数据的格式特征构建得到的;所述格式特征包括字符串长度、字符类型和字符位置关系。

5.根据权利要求1所述的基于大语言模型的合同文本脱敏方法,其特征在于,所述命名实体识别模型的训练过程具体包括:

6.根...

【专利技术属性】
技术研发人员:王凯彭涛蒋琦洪王磊
申请(专利权)人:上海欧冶金诚信息服务股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1