一种基于大语言模型的名单模糊筛查方法及装置制造方法及图纸

技术编号：40926773 阅读：2 留言：0更新日期：2024-04-18 14:49

本申请公开了一种基于大语言模型的名单模糊筛查方法、装置、设备及存储介质，涉及人工智能技术领域，该方法包括：获取至少一个待筛查名单各自对应的至少一种第一名单属性数据和至少一个预设预警名单各自对应的至少一种第二名单属性数据；将至少一种第一名单属性数据和至少一种第二名单属性数据输入至大语言模型进行名单匹配处理，得到第一名单匹配结果，第一名单匹配结果表征每一待筛查名单与每一预设预警名单间的匹配程度；基于第一名单匹配结果，从至少一个待筛查名单中，确定目标预警名单。利用本申请提供的技术方案可以提高预警名单确定的准确率和效率。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及人工智能，尤其涉及一种基于大语言模型的名单模糊筛查方法、装置、设备及存储介质。

技术介绍

1、名单筛查是在特殊场景下，进行对各种交易监测的工作中的重要环节。名单筛查的模糊匹配要求相关机构能够识别常见英文字词的变体、缩写或通用替代词语、甚至是笔误的情况，以达到对业务和客户活动涉及风险的有效监测。

2、现今，不同机构通过数据采集、整合，对照预警名单和各自关注的各类名单，借助系统工具或人工，对其客户、交易对手、供应商、平台商家、消费者、收付款方等进行筛查，发现相关方涉及负面媒体报道等事件，进而评估可能涉及的风险，并决定是否采取适当的措施对风险进行控制。

3、然而，目前名单筛查的模糊匹配的技术方案，筛查规则过多，不同规则匹配的名单相应增多，导致命中率过高，而产生过多“假中”预警名单，从而花费大量的人力在预警的排查和分析工作上；或者，对多语言的名单筛查的模糊匹配，由于同义不同词，同音不同字等对应文字表达可能出现的复杂多变的情况，会增加名单筛查的工作量，从而影响到名单筛查的效率。因此，名单模糊筛查的有效性和效率有待提高。

技术实现思路

1、本申请提供了一种基于大语言模型的名单模糊筛查方法、装置、设备及存储介质，可以提高对待筛查名单模糊筛查的有效性和效率，即可以提高预警名单确定的准确性和效率。

2、一方面，本申请提供了一种基于大语言模型的名单模糊筛查方法，所述方法包括：

3、获取至少一个待筛查名单各自对应的至少一种第一名单属性数据和至少一

4、将所述至少一种第一名单属性数据和所述至少一种第二名单属性数据输入至大语言模型进行名单匹配处理，得到第一名单匹配结果，所述第一名单匹配结果表征每一待筛查名单与每一预设预警名单间的匹配程度；所述大语言模型是基于训练数据对预设大语言模型进行名单匹配训练得到的，所述训练数据为多个筛查名单样本对应的多个预设名单匹配结果、所述每个筛查名单样本对应的至少一种第三名单属性数据和所述多个预设预警名单对应的至少一种第二名单属性数据；

5、基于所述第一名单匹配结果，从所述至少一个待筛查名单中，确定目标预警名单。

6、在一些可能的实施方式中，所述基于所述第一名单匹配结果，从所述至少一个待筛查名单中，确定目标预警名单包括：

7、根据所述第一名单匹配结果，从所述至少一个待筛查名单中，确定至少一个初始预警名单；

8、获取所述至少一个初始预警名单对应的名单核验结果；

9、将所述名单核验结果指示核验通过的初始预警名单作为所述目标预警名单。

10、在一些可能的实施方式中，所述获取至少一个待筛查名单各自对应的至少一种第一名单属性数据包括：

11、获取所述每个待筛查名单对应的原始名单属性数据；

12、对所述每个待筛查名单对应的原始名单属性数据进行分类，得到每个待筛查名单对应的至少一种第一名单属性数据。

13、在一些可能的实施方式中，所述大语言模型采用下述方式训练：

14、获取所述多个筛查名单样本对应的多个预设名单匹配结果、所述每个筛查名单样本对应的至少一种第三名单属性数据和所述多个预设预警名单对应的至少一种第二名单属性数据；

15、将所述每个筛查名单样本对应的至少一种第三名单属性数据和所述每个预设预警名单对应的至少一种第二名单属性数据输入至预设大语言模型进行名单匹配处理，得到所述每个筛查名单样本对应的第二名单匹配结果；

16、基于所述每个筛查名单样本对应的预设名单匹配结果和所述每个筛查名单样本对应的第二名单匹配结果，对所述预设大语言模型进行训练，得到所述大语言模型。

17、在一些可能的实施方式中，所述获取所述多个筛查名单样本对应的多个预设名单匹配结果、所述每个筛查名单样本对应的至少一种第三名单属性数据和所述多个预设预警名单对应的至少一种第二名单属性数据之后，所述方法还包括：

18、对所述每个第三名单属性数据进行数据清洗处理，得到清洗处理后的第三名单属性数据；

19、对所述清洗处理后的第三名单属性数据进行数据格式转换处理，得到格式统一后的第三名单属性数据；

20、对所述格式统一后的第三名单属性数据进行数据扩展处理，得到扩展后的第三名单属性数据集；

21、所述将所述每个筛查名单样本对应的至少一种第三名单属性数据和所述每个预设预警名单对应的至少一种第二名单属性数据输入至预设大语言模型进行名单匹配处理，得到所述每个筛查名单样本对应的第二名单匹配结果包括：

22、将所述扩展后的第三名单属性数据集中的第三名单属性数据和所述每个第二名单属性数据输入至预设大语言模型进行名单匹配处理，得到所述每个筛查名单样本对应的第二名单匹配结果。

23、在一些可能的实施方式中，所述大语言模型采用下述方式测试：

24、从所述扩展后的第三名单属性数据集中，确定当前测试集和当前训练集；

25、基于所述当前训练集和所述多个预设预警名单对应的至少一种第二名单属性数据，对所述预设大语言模型进行名单匹配训练，得到所述大语言模型；

26、将所述当前测试集输入至所述大语言模型进行名单匹配处理，得到第四名单匹配结果；

27、重复从所述扩展后的第三名单属性数据集中，确定当前测试集和当前训练集至将所述当前测试集输入至所述大语言模型进行名单匹配处理，得到第四名单匹配结果的步骤，直至得到第一预设数量个第四名单匹配结果；

28、基于所述多个筛查名单样本对应的多个预设名单匹配结果、所述第一预设数量个第四名单匹配结果和预设阈值，确定所述大语言模型的测试结果；

29、在所述测试结果指示测试通过的情况下，将所述预设阈值作为目标阈值；

30、所述基于所述第一名单匹配结果，从所述至少一个待筛查名单中，确定目标预警名单包括：

31、根据所述第一名单匹配结果和所述目标阈值，从所述至少一个待筛查名单中，确定所述目标预警名单。

32、在一些可能的实施方式中，所述基于所述多个筛查名单样本对应的多个预设名单匹配结果、所述第一预设数量个第四名单匹配结果和预设阈值，确定所述大语言模型的测试结果包括：

33、将所述每个预设名单匹配结果大于所述预设阈值对应的筛查名单样本作为实际预警名单；

34、将所述每个预设名单匹配结果小于所述预设阈值对应的筛查名单样本作为实际非预警名单；

35、将所述每个第四名单匹配结果大于所述预设阈值对应的筛查名单样本作为预测预警名单；

36、将所述每个第四名单匹配结果小于所述预设阈值对应的筛查名单样本作为预测非预警名单；

37、确定在所述实际预警名单中，所述预测预警名单的第一数量和所述预测非预警名单的第二数量；

38、确定在所述实际非预警名单中，所述预测预警名单的第三数量和本文档来自技高网...

【技术保护点】

1.一种基于大语言模型的名单模糊筛查方法，其特征在于，所述方法包括：

2.根据权利要求1所述的基于大语言模型的名单模糊筛查方法，其特征在于，所述基于所述第一名单匹配结果，从所述至少一个待筛查名单中，确定目标预警名单包括：

3.根据权利要求1所述的基于大语言模型的名单模糊筛查方法，其特征在于，所述获取至少一个待筛查名单各自对应的至少一种第一名单属性数据包括：

4.根据权利要求1所述的基于大语言模型的名单模糊筛查方法，其特征在于，所述大语言模型采用下述方式训练：

5.根据权利要求4所述的基于大语言模型的名单模糊筛查方法，其特征在于，所述获取所述多个筛查名单样本对应的多个预设名单匹配结果、所述每个筛查名单样本对应的至少一种第三名单属性数据和所述多个预设预警名单对应的至少一种第二名单属性数据之后，所述方法还包括：

6.根据权利要求5所述的基于大语言模型的名单模糊筛查方法，其特征在于，所述大语言模型采用下述方式测试：

7.根据权利要求6所述的基于大语言模型的名单模糊筛查方法，其特征在于，所述基于所述多个筛查名单样本对应

8.一种基于大语言模型的名单模糊筛查装置，其特征在于，所述装置包括：

9.一种电子设备，其特征在于，所述设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1至7任一项所述的基于大语言模型的名单模糊筛查方法。

10.一种计算机可读存储介质，其特征在于，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如权利要求1至7任一项所述的基于大语言模型的名单模糊筛查方法。

...

【技术特征摘要】

1.一种基于大语言模型的名单模糊筛查方法，其特征在于，所述方法包括：

3.根据权利要求1所述的基于大语言模型的名单模糊筛查方法，其特征在于，所述获取至少一个待筛查名单各自对应的至少一种第一名单属性数据包括：

4.根据权利要求1所述的基于大语言模型的名单模糊筛查方法，其特征在于，所述大语言模型采用下述方式训练：

6.根据权利要求5所述的基于大语言模型的名单模糊筛查方法，其特征在于，所述大语言模型...

【专利技术属性】
技术研发人员：沈少阳，阮歆，王化楠，
申请(专利权)人：连连杭州信息技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人