【技术实现步骤摘要】
本申请涉及数据处理,特别是涉及一种基于大语言模型的合同文本脱敏方法、系统、设备、介质及产品。
技术介绍
1、现如今一些公司在合同文本数据的使用过程中,面临着需要处理大量敏感隐私信息的挑战,例如个人隐私数据(例如姓名、身份证号、电话号码、家庭地址等)以及公司商业机密数据(包括合同金额、客户信息、账户号码和涉及标的等)。为确保信息安全,通常需要对合同文本进行脱敏处理。然而,由于合同文本中存在各种格式和类型的隐私数据,传统脱敏方法往往面临识别困难的问题,目前常见的脱敏方法包括人工识别和模式匹配,但它们均存在一定局限性:人工识别成本高、效率低且难以与信息系统结合;模式匹配只能识别特定格式的隐私数据(如身份证号、账号),识别类型单一,准确性不高。
技术实现思路
1、本申请的目的是提供一种基于大语言模型的合同文本脱敏方法、系统、设备、介质及产品,以解决合同文本脱敏效率低和准确率低的问题。
2、为实现上述目的,本申请提供了如下方案:
3、第一方面,本申请提供了一种基于大语言模型的
...【技术保护点】
1.一种基于大语言模型的合同文本脱敏方法,其特征在于,所述基于大语言模型的合同文本脱敏方法包括:
2.根据权利要求1所述的基于大语言模型的合同文本脱敏方法,其特征在于,利用第一设定正则表达式识别待脱敏合同文本中的固定格式隐私数据,具体包括:
3.根据权利要求2所述的基于大语言模型的合同文本脱敏方法,其特征在于,在得到脱敏后的合同文本之后,还包括:还原去除的空白字符和换行符,得到与待脱敏合同文本格式一致的脱敏后的合同文本。
4.根据权利要求1所述的基于大语言模型的合同文本脱敏方法,其特征在于,所述第一正则表达式是基于固定格式隐私数据的
...【技术特征摘要】
1.一种基于大语言模型的合同文本脱敏方法,其特征在于,所述基于大语言模型的合同文本脱敏方法包括:
2.根据权利要求1所述的基于大语言模型的合同文本脱敏方法,其特征在于,利用第一设定正则表达式识别待脱敏合同文本中的固定格式隐私数据,具体包括:
3.根据权利要求2所述的基于大语言模型的合同文本脱敏方法,其特征在于,在得到脱敏后的合同文本之后,还包括:还原去除的空白字符和换行符,得到与待脱敏合同文本格式一致的脱敏后的合同文本。
4.根据权利要求1所述的基于大语言模型的合同文本脱敏方法,其特征在于,所述第一正则表达式是基于固定格式隐私数据的格式特征构建得到的;所述格式特征包括字符串长度、字符类型和字符位置关系。
5.根据权利要求1所述的基于大语言模型的合同文本脱敏方法,其特征在于,所述命名实体识别模型的训练过程具体包括:
6.根...
【专利技术属性】
技术研发人员:王凯,彭涛,蒋琦洪,王磊,
申请(专利权)人:上海欧冶金诚信息服务股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。