基于数据分析的金融文本智能核查系统技术方案

技术编号:39810563 阅读:6 留言:0更新日期:2023-12-22 02:45
本发明专利技术属于文本核查领域,涉及数据分析技术,用于解决现有技术中的金融文本智能核查系统在完成敏感词比对之后,无法根据文本的原始特征对敏感词库进行优化的问题,具体是基于数据分析的金融文本智能核查系统,包括智能核查平台,智能核查平台通信连接有文本筛查模块

【技术实现步骤摘要】
基于数据分析的金融文本智能核查系统


[0001]本专利技术属于文本核查领域,涉及数据分析技术,具体是基于数据分析的金融文本智能核查系统


技术介绍

[0002]金融领域的文本审核具有重要的意义,它可以帮助金融机构有效地识别和防范潜在的风险,保护投资者的合法权益,为了提高审核效率和准确性,许多金融机构开始采用人工智能技术,特别是机器学习模型,来进行金融文本审核

[0003]现有技术中的金融文本智能核查系统一般是在文本数据提取之后进行去除噪声

分词以及词性标注,然后通过建模进行敏感词比对,根据比对结果生成文本核查结果;数据预处理虽然可以提高文本核查效率,但是失去了文本的原始特征,在完成敏感词比对之后无法根据文本的原始特征对敏感词库进行优化,从而导致风险核查结果精确性不高

[0004]针对上述技术问题,本申请提出一种解决方案


技术实现思路

[0005]本专利技术的目的在于提供基于数据分析的金融文本智能核查系统,用于解决现有技术中的金融文本智能核查系统在完成敏感词比对之后无法根据文本的原始特征对敏感词库进行优化的问题;本专利技术需要解决的技术问题为:如何提供一种在完成敏感词比对之后可以根据文本的原始特征对敏感词库进行优化的基于数据分析的金融文本智能核查系统

[0006]本专利技术的目的可以通过以下技术方案实现:基于数据分析的金融文本智能核查系统,包括智能核查平台,所述智能核查平台通信连接有文本筛查模块
>、
词库优化模块

风险核验模块以及存储模块;所述文本筛查模块用于对金融文本进行敏感词筛查分析:将进行智能核查的金融文本分解为若干个子文本,将子文本中的语句进行打散得到若干个词组,通过存储模块获取到敏感词库,将随机选取敏感词库中的一个敏感词并标记为筛查词,将子文本中所有的词组与筛查词进行比对并通过比对结果对敏感词是否与子文本关联进行判定;所述词库优化模块用于对敏感词库进行优化分析:随机选取敏感词库中的一个敏感词作为优化对象,将与优化对象相关联的子文本标记为优化对象的关联文本,由所有关联文本中的词组构成关联集合,在关联集合内随机选取一个词组作为关键词,获取关键词的关联数据
GL、
向量数据
XL、
出现数据
CX
以及文本数据
WB
并进行数值计算得到关键词的优化系数
YH
,通过优化系数
YH
对关键词是否具有优化特征进行判定;所述风险核验模块用于对金融文本进行风险评估

[0007]作为本专利技术的一种优选实施方式,将子文本中所有的词组与筛查词进行比对的具体过程包括:若子文本中存在有与筛查词完全相同的词组,则将对应敏感词与子文本进行关联;若子文本中不存在有与筛查词完全相同的词组,则将对应敏感词标记为子文本的无
关词;然后随机选取下一个敏感词标记为筛查词,直至敏感词库中所有的敏感词均被标记为子文本的关联词或无关词,子文本的敏感词筛查过程结束,在所有子文本全部完成敏感词筛查之后,将金融文本的筛查结果发送至智能核查平台,智能核查平台接收到金融文本的筛查结果后将金融文本的筛查结果发送至词库优化模块

[0008]作为本专利技术的一种优选实施方式,关联数据
GL
的获取过程包括:将包含有关键词的子文本标记为关键文本,将关键文本的关联数据
GL
;向量数据
XL
为所有子文本的数量;出现数据
CX
为关键词在关联集合中的出现次数

[0009]作为本专利技术的一种优选实施方式,对关键词是否具有优化特征进行判定的具体过程包括:通过存储模块获取到优化阈值
YHmax
,将关键词的优化系数
YH
与优化阈值
YHmax
进行比较:若优化系数
YH
小于优化阈值
YHmax
,则判定关键词不具有优化特征;若优化系数
YH
大于等于优化阈值,则判定关键词具有优化特征,将对应关键词与敏感词库中所有敏感词进行比对:若敏感词库中包含有与关键词完全相同的敏感词,则不对关键词进行处理;若敏感词库中不包含与关键词完全相同的敏感词,则将对应关键词标记为敏感词并加入到敏感词库当中;在关联集合中所有词组均作为关键词进行优化分析之后,随机选取敏感词库中的下一个敏感词作为优化对象,重新建立关联集合并进行优化分析,直至敏感词库中所有敏感词全部作为优化对象完成优化分析

[0010]作为本专利技术的一种优选实施方式,风险核验模块用于对金融文本进行风险评估:金融文本中所有敏感词出现次数的总和标记为敏感数据
MG
,通过对敏感数据
MG、
关联数据
GL
以及向量数据
XL
进行数值计算得到金融文本的风险系数
FX
;通过存储模块获取到风险阈值
FXmin、FXmax
,将金融文本的风险系数
FX
与风险阈值
FXmin、FXmax
进行比较并通过比较结果对金融文本的核查等级进行标记

[0011]作为本专利技术的一种优选实施方式,将金融文本的风险系数
FX
与风险阈值
FXmin、FXmax
进行比较的具体过程包括:若
FX≤FXmin
,则判定金融文本的核查风险性满足要求,将金融文本的核查等级标记为一等级,生成核查一级信号并将核查一级信号发送至智能核查平台,智能核查平台接收到核查一级信号后将核查一级信号发送至管理人员的手机终端;若
FXmin

FX

FXmax
,则判定金融文本的核查风险性不满足要求,将金融文本的核查等级标记为二等级,生成核查二级信号并将核查二级信号发送至智能核查平台,智能核查平台接收到核查二级信号后将核查二级信号发送至管理人员的手机终端;若
FX≥FXmax
,则判定金融文本的核查风险性不满足要求,将金融文本的核查等级标记为三等级,生成核查三级信号并将核查三级信号发送至智能核查平台,智能核查平台接收到核查三级信号后将核查三级信号发送至管理人员的手机终端

[0012]作为本专利技术的一种优选实施方式,该基于数据分析的金融文本智能核查系统的工作方法,包括以下步骤:步骤一:对金融文本进行敏感词筛查分析:将进行智能核查的金融文本分解为若干个子文本,将子文本中的语句进行打散得到若干个词组,通过存储模块获取到敏感词库,将随机选取敏感词库中的一个敏感词并标记为筛查词,将子文本中所有的词组与筛查词进行比对并通过比对结果对筛查词与子文本是否关联进行判定;步骤二:对敏感词库进行优化分析:随机选取敏感词库中的一个敏感词作为优化对象,将与优化对象相关联的子文本标记为优化对象的关联文本,由所本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.
基于数据分析的金融文本智能核查系统,其特征在于,包括智能核查平台,所述智能核查平台通信连接有文本筛查模块

词库优化模块

风险核验模块以及存储模块;所述文本筛查模块用于对金融文本进行敏感词筛查分析:将进行智能核查的金融文本分解为若干个子文本,将子文本中的语句进行打散得到若干个词组,通过存储模块获取到敏感词库,将随机选取敏感词库中的一个敏感词并标记为筛查词,将子文本中所有的词组与筛查词进行比对并通过比对结果对敏感词是否与子文本关联进行判定;所述词库优化模块用于对敏感词库进行优化分析:随机选取敏感词库中的一个敏感词作为优化对象,将与优化对象相关联的子文本标记为优化对象的关联文本,由所有关联文本中的词组构成关联集合,在关联集合内随机选取一个词组作为关键词,获取关键词的关联数据
GL、
向量数据
XL、
出现数据
CX
以及文本数据
WB
并进行数值计算得到关键词的优化系数
YH
,通过优化系数
YH
对关键词是否具有优化特征进行判定;所述风险核验模块用于对金融文本进行风险评估
。2.
根据权利要求1所述的基于数据分析的金融文本智能核查系统,其特征在于,将子文本中所有的词组与筛查词进行比对的具体过程包括:若子文本中存在有与筛查词完全相同的词组,则将对应敏感词与子文本进行关联;若子文本中不存在有与筛查词完全相同的词组,则将对应敏感词标记为子文本的无关词;然后随机选取下一个敏感词标记为筛查词,直至敏感词库中所有的敏感词均被标记为子文本的关联词或无关词,子文本的敏感词筛查过程结束,在所有子文本全部完成敏感词筛查之后,将金融文本的筛查结果发送至智能核查平台,智能核查平台接收到金融文本的筛查结果后将金融文本的筛查结果发送至词库优化模块
。3.
根据权利要求2所述的基于数据分析的金融文本智能核查系统,其特征在于,关联数据
GL
的获取过程包括:将包含有关键词的子文本标记为关键文本,将关键文本的关联数据
GL
;向量数据
XL
为所有子文本的数量;出现数据
CX
为关键词在关联集合中的出现次数
。4.
根据权利要求3所述的基于数据分析的金融文本智能核查系统,其特征在于,对关键词是否具有优化特征进行判定的具体过程包括:通过存储模块获取到优化阈值
YHmax
,将关键词的优化系数
YH
与优化阈值
YHmax
进行比较:若优化系数
YH
小于优化阈值
YHmax
,则判定关键词不具有优化特征;若优化系数
YH
大于等于优化阈值,则判定关键词具有优化特征,将对应关键词与敏感词库中所有敏感词进行比对:若敏感词库中包含有与关键词完全相同的敏感词,则不对关键词进行处理;若敏感词库中不包含与关键词完全相同的敏感词,则将对应关键词标记为敏感词并加入到敏感词库当中;在关联集合中所有词组均作为关键词进行优化分析之后,随机选取敏感词库中的下一个敏感词作为优化对象,重新建立关联集合并进行优化分析,直至敏感词库中所有敏感词全部作为优化对象完成优化分析
。5.
根据权利要求4所...

【专利技术属性】
技术研发人员:邢光辉董飞洋欧洁怀
申请(专利权)人:深圳市泰铼科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1