银行流水打标方法及装置制造方法及图纸

技术编号:38766063 阅读:17 留言:0更新日期:2023-09-10 10:39
本发明专利技术公开了一种银行流水打标方法及装置,该方法包括:从历史银行流水中挖掘实体词,通过分类模型为新挖掘的实体词打上标签,并加入实体词库;在获得新的银行流水后,基于新的银行流水的实体词与实体库中实体词匹配,获得匹配结果;根据匹配结果,选择对应的打标模型对新的银行流水进行打标。本发明专利技术可以提高银行流水打标的精度。流水打标的精度。流水打标的精度。

【技术实现步骤摘要】
银行流水打标方法及装置


[0001]本专利技术涉及人工智能
,尤其涉及一种银行流水打标方法及装置。

技术介绍

[0002]本部分旨在为权利要求书中陈述的本专利技术实施例提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。
[0003]银行交易流水订单指发生交易时产生的订单,如进行柜台取现、ATM取现存款、基金理财购买、手机支付等交易时产生的订单。每一笔交易都会涉及到两方:交易方(一般是行方客户)和交易对手方。银行交易流水订单保存有交易双方的交易信息,包括账号信息、交易对手双方的名称、交易附言等信息。如客户去超市使用手机支付买了一瓶饮料,则客户是交易方,超市是交易对手方,饮料是商品信息,手机支付是交易方式。理想情况是知道交易方、交易对手方和商品的信息,如交易方和交易对手方都是行方的客户。将这些流水订单进行分类,以标识资金用途和类别,供后续基于客户维度的面向营销或者风险等专题的分析使用。
[0004]目前对银行流水进行标注的方案包括文本分类机器学习方法,例如基于sklearn实现的垃圾邮件分类算法,包括朴素贝叶斯、SVM、逻辑回归、RF、XGBoost、LightGBM等。但是一般进行标注时采用上述单一的算法,分类精度有待提高。

技术实现思路

[0005]本专利技术实施例提供一种银行流水打标方法,用以提高银行流水打标的精度,该方法包括:从历史银行流水中挖掘实体词;通过分类模型为新挖掘的实体词打上标签,并加入实体词库;在获得新的银行流水后,基于新的银行流水的实体词与实体库中实体词匹配,获得匹配结果;根据匹配结果,选择对应的打标模型对新的银行流水进行打标。
[0006]本专利技术实施例还提供一种银行流水打标装置,用以提高银行流水打标的精度,该装置包括:实体词挖掘模块,用于从历史银行流水中挖掘实体词,通过分类模型为新挖掘的实体词打上标签,并加入实体词库;实体词匹配模块,用于在获得新的银行流水后,基于新的银行流水的实体词与实体库中实体词匹配,获得匹配结果;打标模块,用于根据匹配结果,选择对应的打标模型对新的银行流水进行打标。
[0007]本专利技术实施例还提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述银行流水打标方法。
[0008]本专利技术实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述银行流水打标方法。
[0009]本专利技术实施例还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,所述计算机程序被处理器执行时实现上述银行流水打标方法。
[0010]本专利技术实施例中,从历史银行流水中挖掘实体词,通过分类模型为新挖掘的实体词打上标签,并加入实体词库;在获得新的银行流水后,基于新的银行流水的实体词与实体库中实体词匹配,获得匹配结果;根据匹配结果,选择对应的打标模型对新的银行流水进行打标。与现有技术中相比,本专利技术实施例先通过分类模型挖掘实体词;这样在得到新的银行流水后,基于新的银行流水的实体词与实体库中实体词匹配,选择与匹配结果对应的打标模型对新的银行流水进行打标,实现了更精确的打标。
附图说明
[0011]为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:图1为本专利技术实施例中银行流水打标方法的流程图;图2为本专利技术实施例中采用挖掘模型从历史银行流水中挖掘实体词的流程图;图3为本专利技术实施例中根据所述文本数据和挖掘模型获得实体词的流程图;图4为本专利技术实施例中PhraseMining模型挖掘实体词的流程图;图5为本专利技术实施例中Word2vec模型挖掘实体词的流程图;图6为本专利技术实施例中银行流水打标方法的又一流程图;图7为本专利技术实施例中对新的银行流水进行打标的流程图;图8为本专利技术实施例中训练LightGBM模型的流程图;图9为本专利技术实施例中银行流水打标装置的示意图;图10为本专利技术实施例中计算机设备的示意图。
具体实施方式
[0012]为使本专利技术实施例的目的、技术方案和优点更加清楚明白,下面结合附图对本专利技术实施例做进一步详细说明。在此,本专利技术的示意性实施例及其说明用于解释本专利技术,但并不作为对本专利技术的限定。
[0013]专利技术人发现,目前本文分类算法的步骤一般为:(1)读取文本数据,包括训练集、测试集、验证集,如果数据质量不高考虑先清洗一下数据,对数据简单进行了大小写转换、去标签、去停用词等数据清洗工作。
[0014](2)创建词典,使用词袋矩阵以及TF

IDF 矩阵对语料中的词进行统计,方便后续提取特征。
[0015](3)特征提取,通过对特征进行编码(向量化)针对上述步骤(3),常用句向量表示方法如下:(1)基于频次的词袋模型:对文本分词后,使用每个词的频次进行向量化表示。
[0016](2)TF

IDF:与一个词在文档中的出现次数成正比,与该词在整个语言中的出现次数成反比。
[0017](3)句向量(预训练向量求平均):对模型训练好的每个词的词向量(word2vec等)直接求平均。
[0018](4)句向量(加权平均):使用TF

IDF作为权重,乘以词向量。
[0019](5)句向量(SIF加权平均):对句子中的每个词向量,乘以一个权重 a/(a+p_w),其中 a 是一个常数(原文 取 0.0001),p_w 为该词的词频;对于出现频率越高的词,其权重越小;计算句向量矩阵的第一个主成分 u,让每个句向量减去它在 u (单位向量)上 的矢投影。
[0020](6)句向量(skip

thought):使用神经网络中的encoder

decoder进行训练。类似skip

gram算法,skip

thought利用中心句子来预测上下文的句子。
[0021](7)句向量(quick

thoughts):对skip

thought的改进算法,将decoder部分换成了分类器。
[0022](8)句向量(Bert):使用训练好的Bert训练好的权重,输出每句话的向量。
[0023]但是上述步骤得到的分类精度有待提高,为了进一步提高银行流水打标的精度,本专利技术实施例使用实体词库扩充挖掘实体词,将银行流水细分到数百个标签;设计了Lightgbm和Word2vec等挖掘模型,模型准确度达到97%,并且对于亿级的流水半小时内能完成打标分类,实现标注自动化,标识资金用途和类别,供后续基于客户维度的面向营销或者风险等专题的分析和使用。
[0024]下面进行详细介绍。
...

【技术保护点】

【技术特征摘要】
1.一种银行流水打标方法,其特征在于,包括:从历史银行流水中挖掘实体词;通过分类模型为新挖掘的实体词打上标签,并加入实体词库;在获得新的银行流水后,基于新的银行流水的实体词与实体库中实体词匹配,获得匹配结果;根据匹配结果,选择对应的打标模型对新的银行流水进行打标。2.如权利要求1所述的方法,其特征在于,从历史银行流水中挖掘实体词,包括:收集预设时段内的历史银行流水;对每个历史银行流水,提取预设文本类型的字段,所述预设文本类型包括摘要、附言、备注、交易对手名称中的其中之一或任意组合;分别对预设文本类型的字段进行去重并进行预处理,获得文本数据;根据所述文本数据和挖掘模型,获得实体词。3.如权利要求2所述的方法,其特征在于,根据所述文本数据和挖掘模型,获得实体词,包括:根据所述文本数据和挖掘模型,获得候选实体词;对所述候选实体词进行后处理;对后处理后的实体词进行核验;将通过核验的实体词作为挖掘的实体词。4.如权利要求3所述的方法,其特征在于,根据所述文本数据和挖掘模型,获得候选实体词,包括:使用Python构建PhraseMining模型;将所述文本数据输入至PhraseMining模型,获得候选实体词。5.如权利要求3所述的方法,其特征在于,根据所述文本数据和挖掘模型,获得候选实体词,包括:使用分词技术库对文本数据进行中文分词,获得分词数据;使用word2vec算法构建Word2vec模型;使用所述分词数据和Word2vec模型,训练词向量;利用训练好的词向量,计算词与词之间的相似度;根据所述相似度,找出实体词库中词的近义词,作为候选实体词。6.如权利要求1所述的方法,其特征在于,在通过分类模型为新挖掘的实体词打上标签之后,还包括:接收人工对新挖掘的实体词的标签的审核结果;在审核结果为打标正确时,将打标正确的实体词加入实体词库中。7.如权利要求...

【专利技术属性】
技术研发人员:刘军杰康科樊雨
申请(专利权)人:山景智能北京科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1