一种基于大模型的催收敏感词质检方法和装置制造方法及图纸

技术编号:39648859 阅读:9 留言:0更新日期:2023-12-09 11:17
本发明专利技术提出了一种基于大模型的催收敏感词质检方法和装置,该方法包括:获取线上生成的催收录音;调用翻译模型

【技术实现步骤摘要】
一种基于大模型的催收敏感词质检方法和装置


[0001]本专利技术涉及金融
,具体而言,涉及一种基于大模型的催收敏感词质检方法和装置


技术介绍

[0002]随着金融行业的监管力度加大,对催收行为的合规性要求越来越高

企业需要对催收过程中的敏感词进行识别和过滤,以确保催收行为符合相关法律法规和行业标准,降低潜在的法律风险

贷后催收是金融机构在做风险管理的重要环节,也是人工介入最多的环节

尤其是传统催收质检领域,主要依靠人工进行,成本高且效率低,不能满足金融催收行业的发展需求


技术实现思路

[0003]鉴于上述问题,本专利技术提供了一种基于大模型的催收敏感词质检方法和装置,解决了传统催收质检领域,主要依靠人工进行,成本高且效率低的问题

[0004]为解决上述技术问题,本专利技术采用的技术方案是:一种基于大模型的催收敏感词质检方法,包括如下步骤:获取线上生成的催收录音;调用翻译模型
API
接口将所述催收录音转换出录音文本;对所述录音文本进行预处理,并对所述录音文本中的长文本进行分割,获得输入文本;将所述输入文本导入原始模型中进行质检,输出第一质检结果;构建本地催收合规向量知识库,基于大语言模型调用所述向量知识库,并将所述输入文本导入大语言模型进行质检,输出第二质检结果;根据历史催收录音数据,并基于大语言模型进行
P

tuning
训练,获得定制大语言模型;将所述输入文本导入定制大语言模型中进行质检,获得第三质检结果;若第一质检结果

第二质检结果和第三质检结果中存在至少一项不合规,则最终的质检结果为不合规

[0005]作为优选方案,所述构建本地催收合规向量知识库,包括
:
基于专家经验或历史客户投诉案例
,
收集催收录音;将所述催收录音转成录音文本后,筛选出催收员的讲话部分;使用编码软件将所述录音文本转化成
512
维的向量,并将转化后的向量存储在数据库中;将待评估的录音文本转化成
512
维向量后,与数据库中的所有向量进行内积计算,内积越大,相似度越高;若相似度超过设定阈值,则说明对应录音存在历史发生过的不合规问题

[0006]作为优选方案,在将所述输入文本导入大语言模型进行质检之前,还包括:读取内容,获取与用户请求相关的上下文;使用请求内容和上下文内容填充模板,获得提示词;将所述提示词输入到大语言模型中

[0007]作为优选方案,对所述录音文本进行预处理,包括:去除小于
30
秒的录音文本,并增加基于专家经验和历史投诉信息的目标标签信息

[0008]作为优选方案,所述根据历史催收录音数据,并基于大语言模型进行
P

tuning
训练,获得定制大语言模型,包括:收集催收领域的录音和文本数据,并对数据预处理;利用
ASR
技术识别录音数据,区分出催收人员和逾期用户,并把录音数据转换成文本数据;使用
专家打标签区分所述文本数据,根据是否合规打上正负标签,生成训练样本;将所述训练样本划分为训练集和测试集,所述训练集用于
p

tuning
训练,测试集用于评估模型效果;配置
p

tuning
模型参数,当模型效果达到设定阈值时,定制大语言模型训练完成;将所述定制大语言模型部署在生产环境,可供催收系统通过
API
的方式进行调用

[0009]作为优选方案,所述利用
ASR
技术识别录音数据,区分出催收员和逾期用户,并把录音数据转换成文本数据,包括:利用
whisperX
模型,指定语言为中文,讲话人为2人;输入录音文件至
whisperX
模型,输出讲话人和讲话内容文本;根据催收员的固定开场白筛选出催收员的讲话文本数据

[0010]作为优选方案,将所述定制大语言模型部署在生产环境,包括:将所述定制大语言模型导入到生产环境,模型状态调整为
eval
模式;使用
fastapi
接口对外提供
API
服务;在
API
上提供需评估的加上提示词的录音文本,即可返回录音文本的评估结果

[0011]本专利技术还提供了一种基于大模型的催收敏感词质检装置,包括:获取模块,用于获取线上生成的催收录音;录音转换模块,用于调用翻译模型
API
接口将所述催收录音转换出录音文本;预处理模块,用于对所述录音文本进行预处理,并对所述录音文本中的长文本进行分割,获得输入文本;第一质检模块,用于将所述输入文本导入原始模型中进行质检,输出第一质检结果;第二质检模块,用于构建本地催收合规向量知识库,基于大语言模型调用所述向量知识库,并将所述输入文本导入大语言模型进行质检,输出第二质检结果;模型训练模块,用于根据历史催收录音数据,并基于大语言模型进行
P

tuning
训练,获得定制大语言模型;第三质检模块,用于将所述输入文本导入定制大语言模型中进行质检,获得第三质检结果;质检结果模块,若第一质检结果

第二质检结果和第三质检结果中存在至少一项不合规,则最终的质检结果为不合规

[0012]与现有技术相比,本专利技术的有益效果包括:通过对金融机构催收业务中积累的非结构化催收录音数据进行挖掘,经过数据清洗等预处理操作后,识别出讲话对象,进而生成催收敏感词的模型,更加精准的识别到讲话内容的敏感内容,并最终完成质检标准核对,输出催收语音中可能涉及到的敏感词风险情况

利用催收敏感词质检技术,可以通过自动化方式对催收语音和文本进行分析,降低人工成本

利用大语言模型技术,通过对催收语音和文本数据的分析,可以发现敏感词,有助于提高催收效率

质检人员可以更有针对性地进行抽检,减少人工质检的工作量,提高工作效率

本专利技术提供的催收敏感词质检方法可以保障合规

提高效率

降低成本

减少纠纷,促进大语言模型技术在金融领域的发展

附图说明
[0013]参照附图来说明本专利技术的公开内容

应当了解,附图仅仅用于说明目的,而并非意在对本专利技术的保护范围构成限制

在附图中,相同的附图标记用于指代相同的部件

其中:
[0014]图1为本专利技术实施例催收敏感词质检方法的流程示意图;
[0015]图2为本专利技术实施例催收敏感词质检方法的另一流程示意图;
[0016]图3本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种基于大模型的催收敏感词质检方法,其特征在于,包括如下步骤:获取线上生成的催收录音;调用翻译模型
API
接口将所述催收录音转换出录音文本;对所述录音文本进行预处理,并对所述录音文本中的长文本进行分割,获得输入文本;将所述输入文本导入原始模型中进行质检,输出第一质检结果;构建本地催收合规向量知识库,基于大语言模型调用所述向量知识库,并将所述输入文本导入大语言模型进行质检,输出第二质检结果;根据历史催收录音数据,并基于大语言模型进行
P

tuning
训练,获得定制大语言模型;将所述输入文本导入定制大语言模型中进行质检,获得第三质检结果;若第一质检结果

第二质检结果和第三质检结果中存在至少一项不合规,则最终的质检结果为不合规
。2.
根据权利要求1所述的基于大模型的催收敏感词质检方法,其特征在于,所述构建本地催收合规向量知识库,包括
:
基于专家经验或历史客户投诉案例
,
收集催收录音;将所述催收录音转成录音文本后,筛选出催收员的讲话部分;使用编码软件将所述录音文本转化成
512
维的向量,并将转化后的向量存储在数据库中;将待评估的录音文本转化成
512
维向量后,与数据库中的所有向量进行内积计算,内积越大,相似度越高;若相似度超过设定阈值,则说明对应录音存在历史发生过的不合规问题
。3.
根据权利要求1所述的基于大模型的催收敏感词质检方法,其特征在于,在将所述输入文本导入大语言模型进行质检之前,还包括:读取内容,获取与用户请求相关的上下文;使用请求内容和上下文内容填充模板,获得提示词;将所述提示词输入到大语言模型中
。4.
根据权利要求1所述的基于大模型的催收敏感词质检方法,其特征在于,对所述录音文本进行预处理,包括:去除小于
30
秒的录音文本,并增加基于专家经验和历史投诉信息的目标标签信息
。5.
根据权利要求1所述的基于大模型的催收敏感词质检方法,其特征在于,所述根据历史催收录音数据,并基于大语言模型进行
P

tuning
训练,获得定制大语言模型,包括:收集催收领域的录音和文本数据,并对数据预处理;利用
ASR
技术识别录音数据,区分出催收人员和逾期用户,并把录音数据转换成文本数据;使用专...

【专利技术属性】
技术研发人员:陈希徐维段祖宁
申请(专利权)人:江苏苏宁银行股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1