一种异常数据搜索模型的确定方法及装置制造方法及图纸

技术编号:25948997 阅读:24 留言:0更新日期:2020-10-17 03:41
本发明专利技术公开了一种异常数据搜索模型的确定方法及装置,包括:获取标签,其中,标签是对客户的登记信息、账户性质和交易信息预处理得到的,再根据用户输入的标签和标签库中标签得到多个智能推荐标签,以使用户选择智能推荐标签,其中,标签库是将标签进行存储得到的,然后将用户输入的标签结合用户选择的智能推荐标签,得到标签组合,并根据标签组合确定数据搜索模型。实现由用户进行选择标签就可以确定异常数据搜索模型,提升了异常数据搜索模型调整或生成周期速度,提高模型生成的准确性。

【技术实现步骤摘要】
一种异常数据搜索模型的确定方法及装置
本专利技术涉及金融科技(Fintech)领域,尤其涉及一种异常数据搜索模型的确定方法及装置。
技术介绍
随着计算机技术的发展,越来越多的技术(例如:区块链、云计算或大数据)应用在金融领域,传统金融业正在逐步向金融科技转变,大数据技术也不例外,但由于金融、支付行业的安全性、实时性要求,也对大数据技术提出的更高的要求。现有技术中对可疑的或高危险的异常交易数据进行抓取,是通过专业的岗位人员,基于对行业异常交易(如反洗钱)行为分析,指定用户的金融交易习惯,设计好规则,开发人员通过规则和模型组合,通过关键的规则和模型算法,筛选出可疑程度高的人群,从而确保数据搜索模型的有效性。然而现有技术过于依赖专业人员的专业技能水平,对于新颖的异常交易,需要先经过专业人士的分析和规则的制定,再通过开发人员的开发和上线,并且在数据搜索模型生成过程中,需要严谨且长周期的进行,这种方式已经越来越满足不了现代的互联网异常数据检测了,即使要自动生成模型,也只能按照传统的训练样本生成,训练样本也是采用原先的样本,会导致检测结果不准确,仍然无法满足现代的互联网异常数据检索。
技术实现思路
本专利技术实施例提供一种异常数据搜索模型的确定方法及装置,用于提升模型调整或生成周期速度,根据建立标签库,提高模型生成的准确性。第一方面,本专利技术实施例提供一种异常数据搜索模型的确定方法,包括:获取标签;所述标签是对客户的登记信息、账户性质和交易信息预处理得到的;根据用户输入的标签和标签库中标签得到多个智能推荐标签;以使所述用户选择所述智能推荐标签;所述标签库是将所述标签进行存储得到的;将所述用户输入的标签结合所述用户选择的所述智能推荐标签,得到标签组合;根据所述标签组合确定数据搜索模型。上述技术方案中,将客户的交易数据进行预处理,得到对应的标签,并将标签存储至数据库,然后根据用户输入的标签和标签库中标签,得到用于推荐给用户选择的多个智能推荐标签,然后根据用户选择的标签组合确定数据搜索模型,不再需要由用户确定出异常数据,开发人员再根据异常数据进行异常数据检索模型构建,解放开发人员的劳动力,由用户进行选择标签就可以确定数据搜索模型,提升了数据搜索模型调整或生成周期速度。可选的,所述标签库中的标签包括标签搜索日志中的搜索标签、模型标签和案例标签;所述根据所述用户输入的标签和所述标签库中标签得到多个智能推荐标签,包括:将所述搜索标签、所述模型标签和所述案例标签的格式进行统一化处理,得到样本集;将所述样本集根据所述搜索标签、所述模型标签和所述案例标签得到多个样本文件;将所述多个样本文件根据TF-IDF算法进行计算,得到所述样本集中各标签的权重;将所述各标签结合所述各标签的权重,得到数据集;通过K均值聚类算法将所述数据集进行聚类,并进行排序;得到簇集;根据所述用户输入的标签与所述簇集得到多个所述智能推荐标签。上述技术方案中,计算出标签数据库中各标签的权重,根据各标签对应的权重得到包括各标签对应的元素的簇集,通过用户输入的标签对应的元素,在簇集确定出与用户输入的标签对应的元素相关的多个元素,进而得到多个元素对应的多个智能推荐标签,以供用户进行选择,不仅提高标签推荐的准确性,也提高了用户的体验。可选的,所述将所述多个样本文件根据TF-IDF算法进行计算,得到所述样本集中各标签的权重,包括:确定出各样本文件中每个标签的词频与逆向文件频率;将所述词频与所述逆向文件频率的乘积确定为所述样本集中各标签的权重。上述技术方案中,通过TF-IDF算法计算出各样本文件中每个标签的词频与逆向文件频率,进而确定出各标签的权重,用以向用户推荐智能推荐标签,使得标签按权重高低顺序进行推荐,提高了标签推荐的准确性,也提高了用户的体验。可选的,所述通过K均值聚类算法将所述数据集进行聚类,并进行排序;得到簇集,包括:将所述数据集分K个簇,并在所述数据集中随机确定出K个第一中心元素,得到第一中心集;其中K为正整数;确定出所述数据集中每个非第一中心元素与所述K个第一中心元素之间的距离,将距离最小的非中心元素与对应的所述第一中心元素确定为同一簇,根据同一簇中各元素之间的距离及各元素的权重确定同一簇中各元素的序号,得到第一簇集;根据所述第一簇集得到所述第二中心集和第二簇集,再根据所述第二簇集得到所述第三中心集和第三簇集;判断所述第二中心集与所述第三中心集是否相等,若是,则确定所述第二簇集或第三簇集为所述簇集;否则根据当前得到的所述第三簇集,得到下一中心集和下一簇集,直至确定当前得到的中心集与下一中心集相等为止。上述技术方案中,通过K均值聚类算法,并通过元素之间的距离对各元素进行排序,得到簇集,并得到簇集中元素的簇号与序号,在通过簇集中的中心元素对簇集进行验证,进行重复的优化,直至得到符合标准的簇集,然后在簇集中将元素对应标签,通过簇集中元素的位置确定各标签在簇集中的位置,以通过计算簇集中的元素向用户推荐元素对应的智能推荐标签,使得标签按符合标准的簇集中的元素进行推荐,提高了标签推荐的准确性,也提高了用户的体验。可选的,所述根据所述第一簇集得到所述第二中心集和第二簇集,再根据所述第二簇集得到所述第三中心集和第三簇集,包括:计算所述第一簇集中每个簇的第一均值,确定出所述第一簇集中每个簇中的所有元素与所述第一均值之间的距离,将所述第一簇集中每个簇中元素与所述第一均值之间的距离最小的元素确定为第二中心元素,得到第二中心集,根据所述第二中心集,重新确定出所述数据集中每个非第二中心元素与K个所述第二中心元素之间的距离,将距离最小的每个非第二中心元素与对应的所述第二中心元素确定为同一簇,根据同一簇中各元素之间的距离及各元素的权重确定同一簇中各元素的序号,得到第二簇集;计算所述第二簇集中每个簇的第二均值,确定出所述第二簇集中每个簇中的所有元素与所述第二均值之间的距离,将所述第二簇集中每个簇中元素与所述第二均值之间的距离最小的元素确定为第三中心元素,得到第三中心集,根据所述第三中心集,再确定出所述数据集中每个非第三中心元素与K个所述第三中心元素之间的距离,将距离最小的每个非第三中心元素与对应的所述第三中心元素确定为同一簇,根据同一簇中各元素之间的距离及各元素的权重确定同一簇中各元素的序号,得到第三簇集;上述技术方案中,根据均值计算,得到第二中心集和第三中心集,以通过第二中心集和第三中心集,对簇集进行验证,以得到符合标准的簇集,提升了簇集中各元素的位置的准确性。可选的,所述根据所述用户输入的标签与所述簇集得到多个所述智能推荐标签,包括:将簇集中簇号小于第一阈值和/或序号小于第二阈值的各元素对应的标签随机确定为多个所述智能推荐标签;将簇集中各元素与所述用户输入的标签对应的元素之间的距离小于距离阈值的多个元素对应的标签随机确定为多个所述智能推荐标签。...

【技术保护点】
1.一种异常数据搜索模型的确定方法,其特征在于,包括:/n获取标签;所述标签是对客户的登记信息、账户性质和交易信息预处理得到的;/n根据用户输入的标签和标签库中标签得到多个智能推荐标签;以使所述用户选择所述智能推荐标签;所述标签库是将所述标签进行存储得到的;/n将所述用户输入的标签结合所述用户选择的所述智能推荐标签,得到标签组合;/n根据所述标签组合确定数据搜索模型。/n

【技术特征摘要】
1.一种异常数据搜索模型的确定方法,其特征在于,包括:
获取标签;所述标签是对客户的登记信息、账户性质和交易信息预处理得到的;
根据用户输入的标签和标签库中标签得到多个智能推荐标签;以使所述用户选择所述智能推荐标签;所述标签库是将所述标签进行存储得到的;
将所述用户输入的标签结合所述用户选择的所述智能推荐标签,得到标签组合;
根据所述标签组合确定数据搜索模型。


2.如权利要求1所述的方法,其特征在于,所述标签库中的标签包括标签搜索日志中的搜索标签、模型标签和案例标签;
所述根据所述用户输入的标签和所述标签库中标签得到多个智能推荐标签,包括:
将所述搜索标签、所述模型标签和所述案例标签的格式进行统一化处理,得到样本集;
将所述样本集根据所述搜索标签、所述模型标签和所述案例标签得到多个样本文件;
将所述多个样本文件根据TF-IDF算法进行计算,得到所述样本集中各标签的权重;
将所述各标签结合所述各标签的权重,得到数据集;
通过K均值聚类算法将所述数据集进行聚类,并进行排序;得到簇集;
根据所述用户输入的标签与所述簇集得到多个所述智能推荐标签。


3.如权利要求2所述的方法,其特征在于,所述将所述多个样本文件根据TF-IDF算法进行计算,得到所述样本集中各标签的权重,包括:
确定出各样本文件中每个标签的词频与逆向文件频率;
将所述词频与所述逆向文件频率的乘积确定为所述样本集中各标签的权重。


4.如权利要求2所述的方法,其特征在于,所述通过K均值聚类算法将所述数据集进行聚类,并进行排序;得到簇集,包括:
将所述数据集分K个簇,并在所述数据集中随机确定出K个第一中心元素,得到第一中心集;其中K为正整数;
确定出所述数据集中每个非第一中心元素与所述K个第一中心元素之间的距离,将距离最小的非中心元素与对应的所述第一中心元素确定为同一簇,根据同一簇中各元素之间的距离及各元素的权重确定同一簇中各元素的序号,得到第一簇集;
根据所述第一簇集得到所述第二中心集和第二簇集,再根据所述第二簇集得到所述第三中心集和第三簇集;
判断所述第二中心集与所述第三中心集是否相等,若是,则确定所述第二簇集或第三簇集为所述簇集;否则根据当前得到的所述第三簇集,得到下一中心集和下一簇集,直至确定当前得到的中心集与下一中心集相等为止。


5.如权利要求4所述的方法,其特征在于,所述根据所述第一簇集得到所述第二中心集和第二簇集,再根据所述第二簇集得到所述第三中心集和第三簇集,包括:
计算所述第一簇集中每个簇的第一均...

【专利技术属性】
技术研发人员:黄翔丰汪亚男肖和兵李元兰冲
申请(专利权)人:深圳前海微众银行股份有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1