绿色项目分类及模型训练方法、装置、设备、介质及产品制造方法及图纸

技术编号:46395943 阅读:3 留言:0更新日期:2025-09-16 19:47
本申请提供了一种绿色项目分类方法,可以应用于人工智能领域,该方法包括:获取目标数据,目标数据至少包括目标项目的名称、目标项目中的借款项目、目标项目中的借款用途中的至少之一;基于分类模型,预测针对目标数据的分类标识,分类标识与绿色产业相关的多个统计标识字段中的之一对应;其中,分类模型是基于目标样本训练得到的,目标样本至少包括第一样本和第二样本;其中,第一样本至少包括绿色产业相关的金融数据;其中,第二样本至少包括绿色产业相关的分类依据信息,和/或绿色产业相关的描述信息。本申请还提供了一种分类模型训练方法,以及用于执行前述方法的装置、设备、介质及产品。

【技术实现步骤摘要】

本申请涉及人工智能领域,更具体地,涉及一种绿色项目分类及模型训练方法、装置、设备、介质及产品


技术介绍

1、在绿色金融信贷业务中,银行通常需要依据《绿色产业指导目录》等标准,对企业贷款项目是否属于绿色产业进行识别与分类。当前金融机构对分类标识的识别主要依赖传统文本匹配技术,通过词嵌入模型(word2vec)或词频-逆文档频率(tf-idf)算法将项目描述文本转换为静态词向量,再经余弦相似度计算匹配预定义的绿色标识库,最终输出单一分类标签。该方案存在根本性缺陷:在语义理解层面,word2vec生成的静态词向量无法捕捉上下文动态语义(例如“光伏”在能源或建筑场景的语义歧义),tf-idf则完全忽略词序关联且难以区分同义词/多义词;在数据处理层面,对训练语料外的专业术语(如新型环保技术名称)无法生成有效向量,且仅依赖历史项目表单数据,未融合绿色标识标准文档的权威分类依据,导致长尾类别识别准确率低;在输出机制层面,单一标签输出缺乏容错性,对复杂借款项目(如综合能源改造)的边界案例漏判率过高,同时无法支持多候选结果推荐。上述缺陷致使针对分类标识的识别准确率交底,迫本文档来自技高网...

【技术保护点】

1.一种绿色项目分类方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,在所述预测针对所述目标数据的分类标识之前,所述方法还包括:

3.根据权利要求2所述的方法,其特征在于,所述分类模型包括嵌入层、编码层以及分类层,所述预测针对所述目标文本的分类标识,包括:

4.一种分类模型训练方法,其特征在于,包括:

5.根据权利要求4所述的方法,其特征在于,所述获取第一样本,包括:

6.根据权利要求5所述的方法,其特征在于,所述获取第二样本,包括:

7.一种绿色项目分类装置,其特征在于,包括:

...

【技术特征摘要】

1.一种绿色项目分类方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,在所述预测针对所述目标数据的分类标识之前,所述方法还包括:

3.根据权利要求2所述的方法,其特征在于,所述分类模型包括嵌入层、编码层以及分类层,所述预测针对所述目标文本的分类标识,包括:

4.一种分类模型训练方法,其特征在于,包括:

5.根据权利要求4所述的方法,其特征在于,所述获取第一样本,包括:

6.根据权利要求5所述的方法,其特征在于,所述...

【专利技术属性】
技术研发人员:赵烨凡冯余剑顾旦青任国飞
申请(专利权)人:中国工商银行股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1