基于自然语言处理的发文识别分析方法、系统及存储介质技术方案

技术编号：40395872 阅读：24 留言：0更新日期：2024-02-20 22:24

本发明专利技术涉及人工智能技术领域，具体涉及一种基于自然语言处理的发文识别分析方法、系统及存储介质，所述方法包括以下步骤：S1、将法条拆开成为若干条目，并将每个条目输入法规条文筛选模型，筛选出与审计相关内容的法条；S2、将筛选出的条文填入到审计步骤提示模板中，并输入语言模型得到审计步骤文本；S3、根据审计步骤文本在金融机构内部的数据库中进行匹配，将数据库中涉及审计步骤的数据组织成数据库表格信息；S4、将审计步骤文本和数据库表格信息填入到数据库查询语句提示模板中，并输入语言模型生成金融审计查询语句。本发明专利技术利用了语言模型的逻辑归纳能力和代码能力，将法规条文自动生成数据库查询语句，节省大量人力。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及人工智能，具体涉及一种基于自然语言处理的发文识别分析方法、系统及存储介质。

技术介绍

1、金融领域内存在着卷帙浩繁的法律法规，而金融机构经常都会面对主管部门的合规检查，如果发现有任何违规行为常常都会面临严厉的处罚。所以，金融机构通常设置有专门的部门进行内部合规审计，由于法规体系的复杂性，金融机构内部人员需要通过大量的学习才能整体掌握，同时还时刻跟随法律法规体系的更新。审计人员在进行检查时，检查对象通常是金融机构内部的数据库，他们需要通过自己对法规的理解，将法规的特定要求转化为对数据库的查询语句，从而检查数据库中的数据是否包含相应的违规行为。

2、当前金融机构的审计查询语句主要还是通过人工的方式编写，最多有一些法规查询系统进行辅助，这样的工作流程需要消耗大量的人力，同时由于法律法规经查会产生变动，这个工作流程的实时性并不能得到保障。

技术实现思路

1、本专利技术的目的之一在于提供一种基于自然语言处理的发文识别分析方法，利用了语言模型的逻辑归纳能力和代码能力，将法规条...

【技术保护点】

1.基于自然语言处理的发文识别分析方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于自然语言处理的发文识别分析方法，其特征在于：所述法条筛选模型在构建前，获取带标注的数据样本，数据样本中标注的内容为某法条是否包含值得转化为审计规则的内容；所述法条筛选模型在构建时，基于BERT模型作为基础模型，并使用行业内的语料库进行预训练，再使用上述标注的数据样本在基础模型上进行文本分类任务训练，得到法规条文筛选模型。

3.根据权利要求2所述的基于自然语言处理的发文识别分析方法，其特征在于：所述语言模型为采用LLaMA架构的语言模型，使用大规模语料对语言模型进行预训练...

【技术特征摘要】

1.基于自然语言处理的发文识别分析方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于自然语言处理的发文识别分析方法，其特征在于：所述法条筛选模型在构建前，获取带标注的数据样本，数据样本中标注的内容为某法条是否包含值得转化为审计规则的内容；所述法条筛选模型在构建时，基于bert模型作为基础模型，并使用行业内的语料库进行预训练，再使用上述标注的数据样本在基础模型上进行文本分类任务训练，得到法规条文筛选模型。

3.根据权利要求2所述的基于自然语言处理的发文识别分析方法，其特征在于：所述语言模型为采用llama架构的语言模型，使用大规模语料对语言模型进行预训练，其中包含计算机代码内容，使其具备代码写作能力，以生成sql查询语句；在此语言模型基础上，使用领域内语料，以及对应生成审计步骤和生成查询语句的任务标注数据进行进一步的训练，得到可使用的语言模型。

4.根据权利要求3所述的基...

【专利技术属性】
技术研发人员：侯聪，
申请(专利权)人：盛宝金融科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人