【技术实现步骤摘要】
一种异常数据搜索模型的确定方法及装置
本专利技术涉及金融科技(Fintech)领域,尤其涉及一种异常数据搜索模型的确定方法及装置。
技术介绍
随着计算机技术的发展,越来越多的技术(例如:区块链、云计算或大数据)应用在金融领域,传统金融业正在逐步向金融科技转变,大数据技术也不例外,但由于金融、支付行业的安全性、实时性要求,也对大数据技术提出的更高的要求。现有技术中对可疑的或高危险的异常交易数据进行抓取,是通过专业的岗位人员,基于对行业异常交易(如反洗钱)行为分析,指定用户的金融交易习惯,设计好规则,开发人员通过规则和模型组合,通过关键的规则和模型算法,筛选出可疑程度高的人群,从而确保数据搜索模型的有效性。然而现有技术过于依赖专业人员的专业技能水平,对于新颖的异常交易,需要先经过专业人士的分析和规则的制定,再通过开发人员的开发和上线,并且在数据搜索模型生成过程中,需要严谨且长周期的进行,这种方式已经越来越满足不了现代的互联网异常数据检测了,即使要自动生成模型,也只能按照传统的训练样本生成,训练样本也是采用原先的样本,会导致检测结果不准确,仍然无法满足现代的互联网异常数据检索。
技术实现思路
本专利技术实施例提供一种异常数据搜索模型的确定方法及装置,用于提升模型调整或生成周期速度,根据建立标签库,提高模型生成的准确性。第一方面,本专利技术实施例提供一种异常数据搜索模型的确定方法,包括:获取标签;所述标签是对客户的登记信息、账户性质和交易信息预处理得到的;根
【技术保护点】
1.一种异常数据搜索模型的确定方法,其特征在于,包括:/n获取标签;所述标签是对客户的登记信息、账户性质和交易信息预处理得到的;/n根据用户输入的标签和标签库中标签得到多个智能推荐标签;以使所述用户选择所述智能推荐标签;所述标签库是将所述标签进行存储得到的;/n将所述用户输入的标签结合所述用户选择的所述智能推荐标签,得到标签组合;/n根据所述标签组合确定数据搜索模型。/n
【技术特征摘要】
1.一种异常数据搜索模型的确定方法,其特征在于,包括:
获取标签;所述标签是对客户的登记信息、账户性质和交易信息预处理得到的;
根据用户输入的标签和标签库中标签得到多个智能推荐标签;以使所述用户选择所述智能推荐标签;所述标签库是将所述标签进行存储得到的;
将所述用户输入的标签结合所述用户选择的所述智能推荐标签,得到标签组合;
根据所述标签组合确定数据搜索模型。
2.如权利要求1所述的方法,其特征在于,所述标签库中的标签包括标签搜索日志中的搜索标签、模型标签和案例标签;
所述根据所述用户输入的标签和所述标签库中标签得到多个智能推荐标签,包括:
将所述搜索标签、所述模型标签和所述案例标签的格式进行统一化处理,得到样本集;
将所述样本集根据所述搜索标签、所述模型标签和所述案例标签得到多个样本文件;
将所述多个样本文件根据TF-IDF算法进行计算,得到所述样本集中各标签的权重;
将所述各标签结合所述各标签的权重,得到数据集;
通过K均值聚类算法将所述数据集进行聚类,并进行排序;得到簇集;
根据所述用户输入的标签与所述簇集得到多个所述智能推荐标签。
3.如权利要求2所述的方法,其特征在于,所述将所述多个样本文件根据TF-IDF算法进行计算,得到所述样本集中各标签的权重,包括:
确定出各样本文件中每个标签的词频与逆向文件频率;
将所述词频与所述逆向文件频率的乘积确定为所述样本集中各标签的权重。
4.如权利要求2所述的方法,其特征在于,所述通过K均值聚类算法将所述数据集进行聚类,并进行排序;得到簇集,包括:
将所述数据集分K个簇,并在所述数据集中随机确定出K个第一中心元素,得到第一中心集;其中K为正整数;
确定出所述数据集中每个非第一中心元素与所述K个第一中心元素之间的距离,将距离最小的非中心元素与对应的所述第一中心元素确定为同一簇,根据同一簇中各元素之间的距离及各元素的权重确定同一簇中各元素的序号,得到第一簇集;
根据所述第一簇集得到所述第二中心集和第二簇集,再根据所述第二簇集得到所述第三中心集和第三簇集;
判断所述第二中心集与所述第三中心集是否相等,若是,则确定所述第二簇集或第三簇集为所述簇集;否则根据当前得到的所述第三簇集,得到下一中心集和下一簇集,直至确定当前得到的中心集与下一中心集相等为止。
5.如权利要求4所述的方法,其特征在于,所述根据所述第一簇集得到所述第二中心集和第二簇集,再根据所述第二簇集得到所述第三中心集和第三簇集,包括:
计算所述第一簇集中每个簇的第一均...
【专利技术属性】
技术研发人员:黄翔丰,汪亚男,肖和兵,李元,兰冲,
申请(专利权)人:深圳前海微众银行股份有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。