基于机器学习的样本券检测方法及装置制造方法及图纸

技术编号:38381390 阅读:14 留言:0更新日期:2023-08-05 17:39
本发明专利技术提供一种基于机器学习的样本券检测方法及装置,所述方法包括:获取海量的待检测样本券数据;基于预设筛选条件对所述待检测样本券数据进行筛选,以获取目标样本券数据;基于预设标准化规则将所述目标样本券数据转换为标准样本券数据;将所述标准样本券数据输入预存的机器学习模型,以输出目标检测结果;本发明专利技术所述方法能够实现样本券数据的自动化清洗过程,提升了债券数据的筛选效率和准确性。性。性。

【技术实现步骤摘要】
基于机器学习的样本券检测方法及装置


[0001]本专利技术属于数据分析
,尤其涉及一种基于机器学习的样本券检测方法及装置。

技术介绍

[0002]为了大力开展智能投研业务,为投研技术人员提供技术支持,需要对债券收益率进行曲线拟合和预测。
[0003]债券可分为利率债和信用债,由于信用债的发行主体不一,个券的成交量以及收益率天差地别,且每日都有上万条信用债估值和交易数据产生,而这些数据是无法直接作为样本券数据进行收益率曲线拟合预测,这就需要对海量的样本券数据进行筛选。但是在现有技术中,对于样本券数据的筛选主要依赖投研人员的市场经验,需要人为设定阈值来梳理出干净的样本券数据,工作量较大,导致异常数据清洗的效率较低,且筛选准确性较差。
[0004]因此,如何实现信用债券数据的自动化清洗,以提升债券数据的筛选效率和准确性是业界亟需解决的重要课题。

技术实现思路

[0005]本专利技术提供的一种基于机器学习的样本券检测方法及装置,用以解决现有技术在进行异常债券数据清洗时因高度依赖投研人员的市场经验而需要多次设置阈值,导致债券数据清洗过程较为繁杂的缺陷,提升了异常债券数据的清洗效率。
[0006]本专利技术提供一种基于机器学习的样本券检测方法,所述方法包括:
[0007]获取海量的待检测样本券数据;基于预设筛选条件对所述待检测样本券数据进行筛选,以获取目标样本券数据;基于预设标准化规则将所述目标样本券数据转换为标准样本券数据;将所述标准样本券数据输入预存的机器学习模型,以输出目标检测结果。
[0008]根据本专利技术提供的一种基于机器学习的样本券检测方法,所述方法还包括:
[0009]判定所述样本券数据的余额值大于零,则将所述样本券数据作为目标样本券数据进行保留;和/或,判定所述样本券数据不属于浮动利率债,则将所述样本券数据作为目标样本券数据进行保留;和/或,判定所述样本券数据的待偿期小于或等于五年,则将所述样本券数据作为目标样本券数据进行保留。
[0010]判定所述目标样本券数据为非标准样本券数据;将所述非标准样本券数据进行虚拟量化处理,以获取虚拟变量,并基于所述虚拟变量和未量化处理的目标样本券数据获取所述标准样本券数据。
[0011]将所述标准样本券数据输入所述机器学习模型进行分类以获取分类结果;剔除所述分类结果中的异常样本券数据,并保留所述分类结果中剩余样本券数据。
[0012]判定所述样本券数据属于可回售债券,并且所述样本券数据的剩余行权期限大于3个月,则将所述样本券数据作为目标样本券数据进行保留。
[0013]所述待检测样本券数据包括:与交易相关的数据、与个券自身属性相关的数据以及与债券主体相关的数据中的至少两种。
[0014]所述机器学习模型包括:孤立森林模型、LOF算法、One

classSVM算法以及深度学习自编码算法等所有适用于异常值检测的机器学习以及深度学习算法。
[0015]本专利技术还提供一种基于机器学习的样本券检测装置,所述装置包括:
[0016]数据获取模块,用于获取海量的待检测样本券数据;数据筛选模块,用于基于预设筛选条件对所述待检测样本券数据进行筛选,以获取目标样本券数据;数据转换模块,用于基于预设标准化规则将所述目标样本券数据转换为标准样本券数据;检测模块,用于将所述标准样本券数据输入预存的机器学习模型,以输出目标检测结果。
[0017]本专利技术还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述基于机器学习的样本券检测方法的步骤。
[0018]本专利技术还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述基于机器学习的样本券检测方法的步骤。
[0019]本专利技术提供的一种基于机器学习的样本券检测方法及装置,先获取海量的待检测样本券数据;然后基于预设筛选条件对待检测样本券数据进行筛选,以获取目标样本券数据;再基于预设标准化规则将目标样本券数据转换为标准样本券数据;最后将标准样本券数据输入预存的机器学习模型,以输出目标检测结果;本专利技术所述方法能够实现样本券数据的自动化清洗过程,提升了债券数据的筛选效率和准确性。
附图说明
[0020]为了更清楚地说明本专利技术或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0021]图1是本专利技术实施例提供的基于机器学习的样本券检测方法的流程示意图;
[0022]图2a

图2c分别是本专利技术另一实施例提供的目标样本券数据的三种不同筛选方法的流程示意图;
[0023]图3是本专利技术又一实施提供的标准样本券数据获取方法的流程示意图;
[0024]图4a

图4b分别是本专利技术实施例提供的目标样本券数据的两种不同补充筛选方法的流程示意图;
[0025]图5是本专利技术实施例提供的基于机器学习的样本券检测装置的结构示意图;
[0026]图6是本专利技术提供的电子设备的结构示意图。
具体实施方式
[0027]为使本专利技术的目的、技术方案和优点更加清楚,下面将结合本专利技术中的附图,对本专利技术中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0028]下面结合图1描述本专利技术实施例提供的基于机器学习的样本券检测方法,包括:
[0029]步骤101、获取海量的待检测样本券数据。
[0030]可以理解的是,一般的债券数据分为利率债和信用债:利率债包含国债、政金债(国开债、农发债和进出口债)等,其中利率债发行主体为国家,政策性银行等,这种债券利率债有国家信用作背书,流动性强,不同债券之间收益率差异不大,债券数据经过简单处理即可作为样本券进行债券整体收益率曲线拟合和预测;而信用债发行主体为政府之外的不同主体,个券的成交量以及收益率天差地别,且每日都有上万条信用债估值和交易数据产生,这种债券数据要经过较为复杂的筛选后才能作为样本券进行债券整体收益率曲线拟合和预测;本实施例主要采集大量的信用债数据作为待检测的样本券数据,并从中获取有用的样本券数据。
[0031]需要说明的是,本实施例获取的样本券数据可以从csv或者excel文档里获取,则输入格式为.csv/.xlsx,还可以从数据库或者其他数据收集平台获取,本实施例不作具体限制。
[0032]步骤102、基于预设筛选条件对所述待检测样本券数据进行筛选,以获取目标样本券数据。
[0033]可以理解的是,由于采集的样本券数据数量多、本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于机器学习的样本券检测方法,其特征在于,包括:获取海量的待检测样本券数据;基于预设筛选条件对所述待检测样本券数据进行筛选,以获取目标样本券数据;基于预设标准化规则将所述目标样本券数据转换为标准样本券数据;将所述标准样本券数据输入预存的机器学习模型,以输出目标检测结果。2.根据权利要求1所述的基于机器学习的样本券检测方法,其特征在于,基于预设筛选条件对所述待检测样本券数据进行筛选,以获取目标样本券数据,具体包括:判定所述样本券数据的余额值大于零,则将所述样本券数据作为目标样本券数据进行保留;和/或,判定所述样本券数据不属于浮动利率债,则将所述样本券数据作为目标样本券数据进行保留;和/或,判定所述样本券数据的待偿期小于或等于五年,则将所述样本券数据作为目标样本券数据进行保留。3.根据权利要求1所述的基于机器学习的样本券检测方法,其特征在于,基于预设标准化规则将所述目标样本券数据转换为标准样本券数据,具体包括:判定所述目标样本券数据为非标准样本券数据,则将所述非标准样本券数据进行虚拟量化处理,以获取虚拟变量;基于所述虚拟变量和未量化处理的目标样本券数据得到所述标准样本券数据。4.根据权利要求1所述的基于机器学习的样本券检测方法,其特征在于,将所述标准样本券数据输入预存的机器学习模型,以输出目标检测结果,具体包括:将所述标准样本券数据输入所述机器学习模型进行分类以获取分类结果;剔除所述分类结果中的异常样本券数据,并保留所述分类结果中剩余样本券数据。5.根据权利要求2所述的基于机器学习的样本券检测方法,其特征在于,基于预设筛...

【专利技术属性】
技术研发人员:方晴
申请(专利权)人:中银金融科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1