小样本学习的对非结构化招标文本智能审核方法及系统技术方案

技术编号:37707904 阅读:20 留言:0更新日期:2023-06-01 23:58
本发明专利技术提供了一种小样本学习的对非结构化招标文本智能审核方法及系统,包括:步骤S1:对获取文本数据进行数据分析及标注;步骤S2:对标注后的数据抽取模型进行微调;步骤S3:通过测试数据进行对比试验证明模型的有效性;步骤S4:利用构建好的模型完成对文本的审核。本发明专利技术通过使用小样本学习的方法,对训练模型微调,不仅提升了模型的信息的抽取能力,也避免了人力标注数据成本过高的问题。了人力标注数据成本过高的问题。了人力标注数据成本过高的问题。

【技术实现步骤摘要】
小样本学习的对非结构化招标文本智能审核方法及系统


[0001]本专利技术涉及计算机
,具体地,涉及一种基于小样本学习的对非结构化招标文本智能审核方法及系统。

技术介绍

[0002]目前合同文本审核主要针对于固定模板的合同,通过利用动态规划、相似度计算等方式来验证合同的合规性,判断所签署合同是否通过审核,提高审核效率。
[0003]专利文献CN114842493A(申请号CN202210449692.)公开了一种合同审核方法、合同审核系统和可读存储介质,该专利技术通过计算合同模板与签署合同的相似度,利用预设的阈值来判断合同是否合规,但无法解决本文所提及的招标文本描述多样、差异大的问题。
[0004]专利文献CN115688736A(申请号:CN202211344167.0)公开了一种文档审核方法、装置、设备及存储介质,其中,文档审核方法包括:获取待审核文档,作为目标文档;从文档库中查找目标文档的审核参考文档;若查找到目标文档的审核参考文档,则参考目标文档的审核参考文档对目标文档进行审核;若未查找到目标文档的审核参考文档,则从目标文档中抽取要素,并对抽取的要素进行审核。但该专利技术没有针对合同,无法动态判断合同是否通过审核。

技术实现思路

[0005]针对现有技术中的缺陷,本专利技术的目的是提供一种小样本学习的对非结构化招标文本智能审核方法及系统。
[0006]根据本专利技术提供的一种小样本学习的对非结构化招标文本智能审核方法,包括:
[0007]步骤S1:分析及标注文本数据;
[0008]步骤S2:对标注后的文本数据抽取模型进行调整;
[0009]步骤S3:通过测试数据进行对比试验证明模型有效性;
[0010]步骤S4:利用构建好的模型完成对文本的审核。
[0011]优选地,在所述步骤S1中:
[0012]步骤S1.1:对已有文本数据进行数据分析,将读取到的文本数据,进行数据清洗,包括将空白符号和非法字符去除;
[0013]步骤S1.2:将存在干扰但无标签的文本保留作为负样本,文本的标注形式为SSI和text标记的源文本拼接构成;
[0014]SSI由spot标记发现对象,指示需要进行抽取任务的实体或触发词,由asso标记关系种类。
[0015]优选地,在所述步骤S2中:
[0016]步骤S2.1:将SSI和源文本作为输入,利用Encoder编码器获取SSI和输入源文本的隐藏层表示:
[0017]H=Encoder(s1,s2,

,s
|s|
,x1,x2,

,x
|x|
)
[0018]其中,s为结构模式指导器SSI,s1,s2,s3,...s
|s|
为该任务下所有的结构模式,|s|为总的结构模式数目;x表示待识别文本,x1,x2,x3,...x
|x|
其中文本所包含的子句,|x|为总的文本子句数目;
[0019]步骤S2.2:UIE模型将信息抽取子任务建模为文本生成任务,并利用解码器完成,给定文本表示的特征向量H,编码器Decoder以自回归的形式生成SEL
y

[0020]Y=[y1,y2,

,y
|y|
][0021][0022]其中,SEL为模型的输出形式,SEL以结构化文本的方式表述了需要模型抽取的所有spot对象和asso对象,其中Y为转化为用于提取信息记录的SEL序列,y
i
为SEL序列中在解码的步骤i下生成的第i个令牌;为解码步骤i下对应的解码器状态。
[0023]优选地,利用teaching

forcing交叉熵作为损失函数,利用监督数据forcing交叉熵作为损失函数,利用监督数据调整已经预训练好的UIE模型:
[0024][0025]其中,为损失函数,p指代概率,θ
e

d
分别为编码器和解码器的参数,y为SEL序列中的令牌。
[0026]优选地,在所述步骤S3中:
[0027]通过测试集数据将未调整的模型与调整过的模型基于预设指标进行比较,当调整后的模型在预设指标提升至预设标准,模型调整具备有效性;
[0028]在所述步骤S4中:
[0029]将合同内容输入至模型中,自动获取文中描述的注册资金及支付方式,用于核验。
[0030]根据本专利技术提供的一种小样本学习的对非结构化招标文本智能审核系统,包括:
[0031]模块M1:分析及标注文本数据;
[0032]模块M2:对标注后的文本数据抽取模型进行调整;
[0033]模块M3:通过测试数据进行对比试验证明模型有效性;
[0034]模块M4:利用构建好的模型完成对文本的审核。
[0035]优选地,在所述模块M1中:
[0036]模块M1.1:对已有文本数据进行数据分析,将读取到的文本数据,进行数据清洗,包括将空白符号和非法字符去除;
[0037]模块M1.2:将存在干扰但无标签的文本保留作为负样本,文本的标注形式为SSI和text标记的源文本拼接构成;
[0038]SSI由spot标记发现对象,指示需要进行抽取任务的实体或触发词,由asso标记关系种类。
[0039]优选地,在所述模块M2中:
[0040]模块M2.1:将SSI和源文本作为输入,利用Encoder编码器获取SSI和输入源文本的隐藏层表示:
[0041]H=Encoder(s1,s2,

,s
|s|
,x1,x2,

,x
|x|
)
[0042]其中,s为结构模式指导器SSI,s1,s2,s3,...s
|s|
为该任务下所有的结构模式,|s|为总的结构模式数目;x表示待识别文本,x1,x2,x3,...x
|x|
其中文本所包含的子句,|x|为总的文本子句数目;
[0043]模块M2.2:UIE模型将信息抽取子任务建模为文本生成任务,并利用解码器完成,给定文本表示的特征向量H,编码器Decoder以自回归的形式生成SEL
y

[0044]Y=[y1,y2,

,y
|y|
][0045][0046]其中,SEL为模型的输出形式,SEL以结构化文本的方式表述了需要模型抽取的所有spot对象和asso对象,其中Y为转化为用于提取信息记录的SEL序列,y
i
为SEL序列中在解码的步骤i下生成的第i个令牌;为解码步骤i下对应的解码器状态。
[0047]优选地,利用teaching

forcing交叉熵作为损失函数,利用监督数据forcing交叉熵作为损失函数,利用监督数据调整已经预训练好本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种小样本学习的对非结构化招标文本智能审核方法,其特征在于,包括:步骤S1:分析及标注文本数据;步骤S2:对标注后的文本数据抽取模型进行调整;步骤S3:通过测试数据进行对比试验证明模型有效性;步骤S4:利用构建好的模型完成对文本的审核。2.根据权利要求1所述的小样本学习的对非结构化招标文本智能审核方法,其特征在于,在所述步骤S1中:步骤S1.1:对已有文本数据进行数据分析,将读取到的文本数据,进行数据清洗,包括将空白符号和非法字符去除;步骤S1.2:将存在干扰但无标签的文本保留作为负样本,文本的标注形式为SSI和text标记的源文本拼接构成;SSI由spot标记发现对象,指示需要进行抽取任务的实体或触发词,由asso标记关系种类。3.根据权利要求1所述的小样本学习的对非结构化招标文本智能审核方法,其特征在于,在所述步骤S2中:步骤S2.1:将SSI和源文本作为输入,利用Encoder编码器获取SSI和输入源文本的隐藏层表示:H=Encoder(s1,s2,

,s
|s|
,x1,x2,

,x
|x|
)其中,s为结构模式指导器SSI,s1,s2,s3,...s
|s|
为该任务下所有的结构模式,|s|为总的结构模式数目;x表示待识别文本,x1,x2,x3,...x
|x|
其中文本所包含的子句,|x|为总的文本子句数目;步骤S2.2:UIE模型将信息抽取子任务建模为文本生成任务,并利用解码器完成,给定文本表示的特征向量H,编码器Decoder以自回归的形式生成SEL
y
:Y=[y1,y2,

,y
|y|
]其中,SEL为模型的输出形式,SEL以结构化文本的方式表述了需要模型抽取的所有spot对象和asso对象,其中Y为转化为用于提取信息记录的SEL序列,y
i
为SEL序列中在解码的步骤i下生成的第i个令牌;h
id
为解码步骤i下对应的解码器状态。4.根据权利要求3所述的小样本学习的对非结构化招标文本智能审核方法,其特征在于:利用teaching

forcing交叉熵作为损失函数,利用监督数据调整已经预训练好的UIE模型:其中,为损失函数,p指代概率,θ
e

d
分别为编码器和解码器的参数,y为SEL序列中的令牌。5.根据权利要求1所述的小样本学习的对非结构化招标文本智能审核方法,其特征在
于:在所述步骤S3中:通过测试集数据将未调整的模型与调整过的模型基于预设指标进行比较,当调整后的模型在预设指标提升至预设标准,模型调整具备有效性;在所述步骤S4中:将合同内容输入至模型中,自动获取文中描述的注册资金及支付方式,...

【专利技术属性】
技术研发人员:姚泽坤沈达峰朱俊李燕北夏竟翔闫晨光孙志强戴智鑫
申请(专利权)人:欧冶工业品股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1