一种文档审核方法、装置、设备及存储介质制造方法及图纸

技术编号:38672454 阅读:11 留言:0更新日期:2023-09-02 22:49
本发明专利技术提供了一种文档审核方法、装置、设备及存储介质,其中,文档审核方法包括:获取目标文档内容文本,目标文档内容文本为待审核文档中的待审核内容文本;从审核参考信息库中,检索与目标文档内容文本匹配的审核参考信息,得到目标审核参考信息,目标审核参考信息为用于判断目标文档内容文本是否符合要求的标准;调用预置的大语言模型,基于目标文档内容文本以及目标审核参考信息,生成目标文档内容文本的审核建议。本发明专利技术可自动生成目标文档内容文本的审核建议,相比于纯人工的审核方式,大大降低了人工参与程度,显著提升了审核效率,另外,由于本发明专利技术基于大语言模型对目标文档内容文本进行审核,因此,可获得高质量的审核结果。可获得高质量的审核结果。可获得高质量的审核结果。

【技术实现步骤摘要】
一种文档审核方法、装置、设备及存储介质


[0001]本专利技术涉及自然语言处理
,尤其涉及一种文档审核方法、装置、设备及存储介质。

技术介绍

[0002]文档审核(比如合同审核)是企业工作中的常见场景。目前大部分的文档审核方案都是基于纯人工的审核方案,可以理解的是,基于纯人工的审核方案不仅效率比较低,而且由于工作枯燥繁重,可能会遗漏一些信息,导致风险。可见,目前的文档审核方案对人工的依赖程度比较高,导致审核效率低以及审核效果不佳。

技术实现思路

[0003]有鉴于此,本专利技术提供了一种文档审核方法、装置、设备及存储介质,用以解决现有的文档审核方案对人工的依赖程度比较高,导致审核效率低以及审核效果不佳的问题,其技术方案如下:一种文档审核方法,包括:获取目标文档内容文本,所述目标文档内容文本为待审核文档中的待审核内容文本;从审核参考信息库中检索与所述目标文档内容文本匹配的审核参考信息,得到目标审核参考信息,所述目标审核参考信息为用于判断所述目标文档内容文本是否符合要求的标准;调用预置的大语言模型,基于所述目标文档内容文本以及所述目标审核参考信息,生成所述目标文档内容文本的审核建议,其中,所述大语言模型为通过训练得到的具备对文档内容文本进行审核能力的大模型。
[0004]可选的,所述审核参考信息库包括审核规则库,或者,包括法律法规知识库和审核规则库;所述审核参考信息库包含的审核规则库为原始审核规则库,或者,为对所述原始审核规则库中的部分或全部审核规则进行规范化处理后的审核规则库;对所述原始审核规则库中的审核规则进行规范化处理的过程包括:调用所述大语言模型,对所述原始审核规则库中的审核规则进行规范化处理。
[0005]可选的,所述大语言模型的训练过程包括:采用训练文档内容文本和训练审核参考信息,对构建的大语言模型进行无监督训练,得到第一大语言模型;采用目标任务对应的有标注prompt指令,对第一大语言模型进行监督训练,得到第二大语言模型,作为最终的大语言模型,其中,所述目标任务至少包括文档审核任务。
[0006]可选的,所述文档审核任务对应的prompt指令中包括:训练文档内容文本、训练文档内容文本对应的审核参考信息,以及用于指示第一大语言模型执行文档审核任务的任务
指示信息;所述文档审核任务对应的prompt指令用于指示第一大语言模型参考训练文档内容文本对应的审核参考信息对训练文档内容文本进行审核;所述文档审核任务对应的prompt指令的标注信息为训练文档内容文本的真实审核建议。
[0007]可选的,所述目标任务还包括如下任务中的一个或多个:要素抽取任务、文本润色任务、文本纠错任务;所述要素抽取任务对应的prompt指令中包括:训练文档内容文本以及用于指示第一大语言模型执行要素抽取任务的任务指示信息;所述要素抽取任务对应的prompt指令用于指示第一大语言模型对训练文档内容文本进行要素抽取;所述要素抽取任务对应的prompt指令的标注信息为训练文档内容文本中的真实要素信息;所述文本润色任务对应的prompt指令中包括:训练文档内容文本以及用于指示第一大语言模型执行文本润色任务的任务指示信息;所述文本润色任务对应的prompt指令用于指示第一大语言模型对训练文档内容文本进行润色;所述文本润色任务对应的prompt指令的标注信息为训练文档内容文本的真实润色后文本;所述文本纠错任务对应的prompt指令中包括:训练文档内容文本以及用于指示第一大语言模型执行文本纠错任务的任务指示信息;所述文本纠错任务对应的prompt指令用于指示第一大语言模型对训练文档内容文本进行纠错;所述文本纠错任务对应的prompt指令的标注信息为训练文档内容文本的正确文本。
[0008]可选的,所述采用目标任务对应的有标注prompt指令,对第一大语言模型进行监督训练,包括:将所述目标任务对应的prompt指令输入第一大语言模型,得到第一大语言模型输出的任务执行结果;根据第一大语言模型输出的任务执行结果以及输入的prompt指令的标注信息,确定第一大语言模型的预测损失;根据第一大语言模型的预测损失,对第一大语言模型进行参数更新。
[0009]可选的,所述从审核参考信息库中检索与所述目标文档内容文本匹配的审核参考信息,包括:确定所述目标文档内容文本与所述审核参考信息库中每条审核参考信息的文本相似度和关键词匹配度;根据确定出的文本相似度和关键词匹配度,确定所述目标文档内容文本与所述审核参考信息库中每条审核参考信息的第一相关度;根据所述目标文档内容文本与所述审核参考信息库中每条审核参考信息的第一相关度,确定与所述目标文档内容文本匹配的审核参考信息。
[0010]可选的,所述根据所述目标文档内容文本与所述审核参考信息库中每条审核参考信息的第一相关度,确定与所述目标文档内容文本匹配的审核参考信息,包括:根据所述目标文档内容文本与所述审核参考信息库中每条审核参考信息的第一相关度,确定若干条候选审核参考信息;利用预先训练得到的相关度确定模型,确定所述目标文档内容文本与每条候选审
核参考信息的第二相关度,其中,所述相关度确定模型以使训练文档内容文本与正例文本的相关度大于与负例文本的相关度为目标训练得到,所述正例文本和所述负例文本依次为与训练文档内容文本相关的文本、与训练文档内容文本无关的文本;根据所述目标文档内容文本与每条候选审核参考信息的第二相关度,确定与所述目标文档内容文本匹配的审核参考信息。
[0011]可选的,所述调用预置的大语言模型,基于所述目标文档内容文本以及所述目标审核参考信息,生成所述目标文档内容文本的审核建议,包括:获取文档审核任务对应的prompt格式模板,所述文档审核任务对应的prompt格式模板包括文档信息槽、审核参考信息槽以及用于指示大语言模型执行文档审核任务的任务指示信息,所述文档审核任务对应的prompt格式模板用于指示大语言模型结合所述审核参考信息槽内的信息对所述文档信息槽内的信息进行审核;将所述目标文档内容文本填充至所述文档信息槽,以及,将所述目标审核参考信息填充至所述审核参考信息槽,得到所述文档审核任务对应的prompt指令;将所述文档审核任务对应的prompt指令输入大语言模型,得到所述大语言模型输出的审核建议。
[0012]可选的,所述文档审核任务对应的prompt格式模板还包括:用于指示所述大语言模型逐步审核的引导信息;所述文档审核任务对应的prompt格式模板用于指示大语言模型结合所述审核参考信息槽内的信息对所述文档信息槽内的信息逐步审核。
[0013]可选的,所述调用所述大语言模型,对所述原始审核规则库中的审核规则进行规范化处理,包括:获取审核规则规范化任务对应的prompt格式模板,所述审核规则规范化任务对应的prompt格式模板包括审核规则信息槽以及用于指示所述大语言模型执行审核规则规范化任务的任务指示信息,所述审核规则规范化任务对应的prompt格式模板用于指示所述大语言模型对所述审核规则信息槽内的信息进行规范化处理;将所述原始审核规则库中的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文档审核方法,其特征在于,包括:获取目标文档内容文本,所述目标文档内容文本为待审核文档中的待审核内容文本;从审核参考信息库中检索与所述目标文档内容文本匹配的审核参考信息,得到目标审核参考信息,所述目标审核参考信息为用于判断所述目标文档内容文本是否符合要求的标准;调用预置的大语言模型,基于所述目标文档内容文本以及所述目标审核参考信息,生成所述目标文档内容文本的审核建议,其中,所述大语言模型为通过训练得到的具备对文档内容文本进行审核能力的大模型。2.根据权利要求1所述的文档审核方法,其特征在于,所述审核参考信息库包括审核规则库,或者,包括法律法规知识库和审核规则库;所述审核参考信息库包含的审核规则库为原始审核规则库,或者,为对所述原始审核规则库中的部分或全部审核规则进行规范化处理后的审核规则库;对所述原始审核规则库中的审核规则进行规范化处理的过程包括:调用所述大语言模型,对所述原始审核规则库中的审核规则进行规范化处理。3.根据权利要求1所述的文档审核方法,其特征在于,所述大语言模型的训练过程包括:采用训练文档内容文本和训练审核参考信息,对构建的大语言模型进行无监督训练,得到第一大语言模型;采用目标任务对应的有标注prompt指令,对第一大语言模型进行监督训练,得到第二大语言模型,作为最终的大语言模型,其中,所述目标任务至少包括文档审核任务。4.根据权利要求3所述的文档审核方法,其特征在于,所述文档审核任务对应的prompt指令中包括:训练文档内容文本、训练文档内容文本对应的审核参考信息,以及用于指示第一大语言模型执行文档审核任务的任务指示信息;所述文档审核任务对应的prompt指令用于指示第一大语言模型参考训练文档内容文本对应的审核参考信息对训练文档内容文本进行审核;所述文档审核任务对应的prompt指令的标注信息为训练文档内容文本的真实审核建议。5.根据权利要求4所述的文档审核方法,其特征在于,所述目标任务还包括如下任务中的一个或多个:要素抽取任务、文本润色任务、文本纠错任务;所述要素抽取任务对应的prompt指令中包括:训练文档内容文本以及用于指示第一大语言模型执行要素抽取任务的任务指示信息;所述要素抽取任务对应的prompt指令用于指示第一大语言模型对训练文档内容文本进行要素抽取;所述要素抽取任务对应的prompt指令的标注信息为训练文档内容文本中的真实要素信息;所述文本润色任务对应的prompt指令中包括:训练文档内容文本以及用于指示第一大语言模型执行文本润色任务的任务指示信息;所述文本润色任务对应的prompt指令用于指示第一大语言模型对训练文档内容文本进行润色;所述文本润色任务对应的prompt指令的标注信息为训练文档内容文本的真实润色后文本;所述文本纠错任务对应的prompt指令中包括:训练文档内容文本以及用于指示第一大语言模型执行文本纠错任务的任务指示信息;所述文本纠错任务对应的prompt指令用于指
示第一大语言模型对训练文档内容文本进行纠错;所述文本纠错任务对应的prompt指令的标注信息为训练文档内容文本的正确文本。6.根据权利要求3~5中任一项所述的文档审核方法,其特征在于,所述采用目标任务对应的有标注prompt指令,对第一大语言模型进行监督训练,包括:将所述目标任务对应的prompt指令输入第一大语言模型,得到第一大语言模型输出的任务执行结果;根据第一大语言模型输出的任务执行结果以及输入的prompt指令的标注信息,确定第一大语言模型的预测损失;根据第一大语言模型的预测损失,对第一大语言模型进行参数更新。7.根据权利要求1所述的文档审核方法,其特征在于,所述从审核参考信息库中检索与所述目标文档内容文本匹配的审核参考信息,包括:确定所述目标文档内容文本与所述审核参考信息库中每条审核参考信息的文本相似度和关键词匹配度;根据确定出的文本相似度和关键词匹配度,确定所述目标文档内容文本与所述审核参考信息库中每条审核参考信息的第一相关度;根据...

【专利技术属性】
技术研发人员:刘权顾成敏梅林海王士进刘聪魏思胡国平
申请(专利权)人:科大讯飞股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1