金融数据资产的类别标注方法及装置制造方法及图纸

技术编号:29526468 阅读:27 留言:0更新日期:2021-08-03 15:12
本发明专利技术实施例提供了一种金融数据资产的类别标注方法及装置,该方法包括:对金融数据资产进行标签特征抽取,得到该金融数据资产的专业标签;对特定用户展示该金融数据资产,并接收该特定用户对该金融数据资产所添加的用户标签;经过关联分析获取基于该专业标签及该用户标签的标签关联规则,并基于该标签关联规则对该金融数据资产进行类别标注。通过本发明专利技术的上述实施例,可以解决相关技术中的金融数据资产的类别标注方式脱离真实的业务场景以及无法高效灵活地实现金融数据资产的类别标注的问题,达到低成本、快速灵活地为金融数据资产标注符合业务实际场景的类别的效果,从而为实现金融数据资产的自动分类提供支持。

【技术实现步骤摘要】
金融数据资产的类别标注方法及装置
本专利技术实施例涉及数据处理领域,具体而言,涉及一种金融数据资产的类别标注方法及装置。
技术介绍
随着数字化进程的发展,金融行业业务内部产生的数据和可利用的外部数据不断累积,数据规模急剧扩大。然而,数据内容往往分散于各个系统和平台。为了更好更高效地管理和应用数据,行业内纷纷搭建平台实现元数据的统一管理。在此基础上,基于海量金融数据的管理,从业务角度进行分类是必不可少的。传统的金融数据往往采用人工预先设计好的分类框架体系和标准的判断规则(如:企业级数据模型等),人工对数据进行分类。这种方式的缺点是效率低且对专业性要求较高。随着人工智能技术的不断发展,为提高金融数据的分类效率,深度学习技术被用于快速对海量数据进行分类。其原理是:(1)设计并确定一个或多个想要实现的分类体系;(2)通过人工标注,分别获取每个分类体系的训练样本数据;(3)通过双向长短期记忆网络(BidirectionalLongShort-TermMemory,简称为BiLSTM)等深度神经网络方法,得到一个多分类的算法模型;(4)运用分类模型,将存量和增量的金融数据分类至某一类别下。最终实现海量数据的自动分类。然而,在相关技术中,将用户提问文本作为分类语料、利用半监督学习方式构建问答库的方法并不适用于对金融数据资产的自动分类。同时,在对金融数据资产的分类方式中,分类体系仅依靠少量专家设计,分类提前预设且固定,无法灵活适应分类目标的快速变化。再者,金融数据资产分类维度较为单一,无法多个角度对数据资产使用和管理,与业务实际场景存在一定脱节。另外,采用深度学习进行金融数据资产分类时,在训练阶段需要标注大量样本,且对标注人员的专业性要求较高,同时分类体系有所变化,就需要重新标注样本,重新训练模型,缺乏灵活性,分类成本较高。最后,金融数据资产分类的准确性受到分词准确性、标注样本数量、训练模型参数等多个因素制约,需要不断调试,综合成本高。针对相关技术中的金融数据资产的类别标注方式脱离真实的业务场景以及无法高效灵活地实现金融数据资产的类别标注的问题,目前尚未提出有效的解决方案。
技术实现思路
本专利技术实施例提供了一种金融数据资产的类别标注方法及装置,以至少解决相关技术中的金融数据资产的类别标注方式脱离真实的业务场景以及无法高效灵活地实现金融数据资产的类别标注的问题。根据本专利技术的一个实施例,提供了一种金融数据资产的类别标注方法,包括:对金融数据资产进行标签特征抽取,得到所述金融数据资产的专业标签;对特定用户展示所述金融数据资产,并接收所述特定用户对所述金融数据资产所添加的用户标签;经过关联分析获取基于所述专业标签及所述用户标签的标签关联规则,并基于所述标签关联规则对所述金融数据资产进行类别标注。在一个示例性实施例中,对金融数据资产进行标签特征抽取,得到所述金融数据资产的专业标签,可以包括:至少根据以下方式之一对所述金融数据资产进行标签特征抽取,得到所述金融数据资产的专业标签:将所述金融数据资产与预定义的业务规则进行正则匹配,并将与所述金融数据资产正则匹配值达到预定阈值的所述业务规则作为所述专业标签;根据预定义的分类体系通过语义相似度对所述金融数据资产进行标签特征抽取,得到所述专业标签。在一个示例性实施例中,在经过关联分析获取基于所述专业标签及所述用户标签的标签关联规则之前,还可以包括:对所述用户标签进行聚类分析,获取共性的所述用户标签。在一个示例性实施例中,对所述用户标签进行聚类分析,获取共性的所述用户标签,可以包括:分别根据多个聚类个数对所述用户标签进行聚类分析,得到多个所述聚类个数下的轮廓系数;比较多个所述轮廓系数的大小,得到最大轮廓系数;根据与所述最大轮廓系数相对应的所述聚类个数计算所述聚类个数下的各个聚类的中心点,并将离所述聚类的所述中心点最近的词向量作为所述聚类的共性的所述用户标签。在一个示例性实施例中,分别根据多个聚类个数对所述用户标签进行聚类分析,得到多个所述聚类个数下的轮廓系数,可以包括:对所述用户标签进行分词,得到用户标签列表;将所述用户标签列表转换为词向量,得到用户标签向量;根据聚类个数集合中的多个聚类个数对所述用户标签向量进行聚类分析,得到多个所述聚类个数下的轮廓系数,其中,所述聚类个数集合为多个所述聚类个数的集合。在一个示例性实施例中,经过关联分析获取基于所述专业标签及所述用户标签的标签关联规则,并基于所述标签关联规则对所述金融数据资产进行类别标注,可以包括:对所述专业标签和所述用户标签进行关联分析,得到所述专业标签和所述用户标签的多个标签之间的所述标签关联规则及所述标签关联规则的置信度;删除低于预定阈值的所述置信度所对应的所述标签关联规则,对所述标签关联规则进行筛选;根据经过筛选后的所述标签关联规则对所述金融数据资产进行类别标注。在一个示例性实施例中,在基于所述标签关联规则对所述金融数据资产进行类别标注之后,还可以包括:根据经过类别标注后的所述金融数据资产及分类目标,对所述金融数据资产进行分类。在一个示例性实施例中,在对所述金融数据资产进行分类之后,还可以包括:根据更新的所述专业标签和/或用户标签,对所述金融数据资产进行类别标注更新。根据本专利技术的另一个实施例,提供了一种金融数据资产的类别标注装置,包括:抽取模块,用于对金融数据资产进行标签特征抽取,得到所述金融数据资产的专业标签;接收模块,用于对特定用户展示所述金融数据资产,并接收所述特定用户对所述金融数据资产所添加的用户标签;标注模块,用于经过关联分析获取基于所述专业标签及所述用户标签的标签关联规则,并基于所述标签关联规则对所述金融数据资产进行类别标注。根据本专利技术的又一个实施例,还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。根据本专利技术的又一个实施例,还提供了一种电子装置,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行上述任一项方法实施例中的步骤。通过本专利技术的上述实施例,由于将用户标签也纳入用于金融数据类别标注的语料中,因此,可以解决相关技术中的金融数据资产的类别标注方式脱离真实的业务场景的问题,另外,由于可以根据业务变化实时获取用户标签,并基于所获取的用户标签自动对金融数据资产进行类别标注,因此,可以解决相关技术中无法高效灵活地实现金融数据资产的类别标注的问题,达到低成本、快速灵活地为金融数据资产标注符合业务实际场景的类别的效果,从而为实现金融数据资产的自动分类提供支持。附图说明此处所说明的附图用来提供对本专利技术的进一步理解,构成本申请的一部分,本专利技术的示意性实施例及其说明用于解释本专利技术,并不构成对本专利技术的不当限定。在附图中:图1是本专利技术实施例的一种金融数据资产的类别标注方法的移动终端的硬件结构框图;图2是根据本专利技术实施例的金融数据资产的类别标注本文档来自技高网
...

【技术保护点】
1.一种金融数据资产的类别标注方法,其特征在于,包括:/n对金融数据资产进行标签特征抽取,得到所述金融数据资产的专业标签;/n对特定用户展示所述金融数据资产,并接收所述特定用户对所述金融数据资产所添加的用户标签;/n经过关联分析获取基于所述专业标签及所述用户标签的标签关联规则,并基于所述标签关联规则对所述金融数据资产进行类别标注。/n

【技术特征摘要】
1.一种金融数据资产的类别标注方法,其特征在于,包括:
对金融数据资产进行标签特征抽取,得到所述金融数据资产的专业标签;
对特定用户展示所述金融数据资产,并接收所述特定用户对所述金融数据资产所添加的用户标签;
经过关联分析获取基于所述专业标签及所述用户标签的标签关联规则,并基于所述标签关联规则对所述金融数据资产进行类别标注。


2.根据权利要求1所述的方法,其特征在于,对金融数据资产进行标签特征抽取,得到所述金融数据资产的专业标签,包括:
至少根据以下方式之一对所述金融数据资产进行标签特征抽取,得到所述金融数据资产的专业标签:
将所述金融数据资产与预定义的业务规则进行正则匹配,并将与所述金融数据资产正则匹配值达到预定阈值的所述业务规则作为所述专业标签;
根据预定义的分类体系通过语义相似度对所述金融数据资产进行标签特征抽取,得到所述专业标签。


3.根据权利要求1所述的方法,其特征在于,在经过关联分析获取基于所述专业标签及所述用户标签的标签关联规则之前,还包括:
对所述用户标签进行聚类分析,获取共性的所述用户标签。


4.根据权利要求3所述的方法,其特征在于,对所述用户标签进行聚类分析,获取共性的所述用户标签,包括:
分别根据多个聚类个数对所述用户标签进行聚类分析,得到多个所述聚类个数下的轮廓系数;
比较多个所述轮廓系数的大小,得到最大轮廓系数;
根据与所述最大轮廓系数相对应的所述聚类个数计算所述聚类个数下的各个聚类的中心点,并将离所述聚类的所述中心点最近的词向量作为所述聚类的共性的所述用户标签。


5.根据权利要求4所述的方法,其特征在于,分别根据多个聚类个数对所述用户标签进行聚类分析,得到多个所述聚类个数下的轮廓系数,包括:
对所述用户标签进行分词,得到用户标签列表;
将所述用户标签列表转换为词向量,得到用户标签向量;
根据聚类个数集合中的多个聚类个数对所述用户标签向量进行聚类分析,得到多个所述...

【专利技术属性】
技术研发人员:潘学芳金佩林勇史晨阳王磊黄登玺李海丽王宇宸乔佳丽
申请(专利权)人:中国光大银行股份有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1