一种金融信息识别方法技术

技术编号:39807063 阅读:7 留言:0更新日期:2023-12-22 02:41
本申请实施例提供了一种金融信息识别方法

【技术实现步骤摘要】
一种金融信息识别方法、装置及存储介质


[0001]本申请涉及金融信息处理领域,尤其涉及一种金融信息识别方法

装置及存储介质


技术介绍

[0002]目前,随着金融行业不断发展,出现了大量的金融业务问答场景,金融业务问答中包含丰富的金融信息,为满足金融业务问题需求,需要先进行金融信息识别

金融信息识别一般通过预先训练的信息识别模型来实现,但该信息识别模型大多是针对特定的一种金融业务问答场景来训练的,难以应用于其他金融业务问答场景,即使强行将该信息识别模型应用于其他金融业务问答场景,也会带来识别准确率不高等问题

[0003]因此,以上技术问题,亟待业内解决


技术实现思路

[0004]本申请实施例的主要目的在于提出一种金融信息识别方法

装置及存储介质,以克服现有技术中的不足

[0005]本申请实施例公开了如下技术方案:
[0006]一方面,本申请实施例提供了一种金融信息识别方法,所述方法包括:
[0007]获取用户提问数据;
[0008]对用户提问数据进行分词,得到分词数据;
[0009]使用词嵌入算法根据所述分词数据生成特征词向量,所述特征词向量包括语义信息;
[0010]将所述特征词向量输入第一分类模型,得到类别的预测概率,所述第一分类模型采用朴素贝叶斯模型;
[0011]根据类别的预测概率确定分类结果;
[0012]若所述分类结果为用户提问是目标金融范围问题,将所述分词数据输入金融信息库进行匹配,得到匹配结果;
[0013]若所述分类结果为用户提问非目标金融范围问题,利用主成分分析法计算第一训练数据集的最大主成分方差比以及第二训练数据集的最大主成分方差比,所述第一训练数据集包括所述第一分类模型的模型训练数据集,所述第二训练数据集包括所述特征词向量和所述第一分类模型的模型训练数据集,所述第一训练数据集的最大主成分方差比是第一训练数据集的所有主成分方差比的最大值,所述第一训练数据集的主成分方差比用于表征主成分方差占第一训练数据集的总方差的比例,所述第二训练数据集的最大主成分方差比是第二训练数据集的所有主成分方差比的最大值,所述第二训练数据集的主成分方差比用于表征主成分方差占第二训练数据集的总方差的比例;
[0014]若所述第二训练数据集的最大主成分方差比小于所述第一训练数据集的最大主成分方差比,使用所述第二训练数据集更新所述第一分类模型,得到第二分类模型

[0015]在其中一个实施例中,所述方法还包括:
[0016]获取模型训练数据集,所述模型训练数据集包括机器人提问数据和用户回答数据;
[0017]利用模型训练数据集进行训练,得到所述第一分类模型

[0018]在其中一个实施例中,所述方法还包括:
[0019]对所述用户提问数据进行数据清洗,得到清洗后的用户提问数据

[0020]在其中一个实施例中,所述对用户提问数据进行分词,得到分词数据包括:
[0021]使用
Jieba
分词工具对用户提问数据进行分词,得到分词数据

[0022]在其中一个实施例中,所述使用词嵌入算法根据所述分词数据生成特征词向量包括:
[0023]使用
G l oVe
算法根据所述分词数据生成特征词向量

[0024]在其中一个实施例中,所述方法还包括:
[0025]对所述模型训练数据集进行数据清洗,得到清洗后的训练数据集;
[0026]对清洗后的训练数据集进行标注,得到标注后的训练数据集;
[0027]对标注后的训练数据集进行过采样,得到平衡训练数据集;
[0028]对所述平衡训练数据集进行分词,得到训练分词数据集;
[0029]使用词嵌入算法根据所述训练分词数据集生成训练词向量集

[0030]在其中一个实施例中,所述利用所述模型训练数据集进行训练,得到所述第一分类模型包括:
[0031]利用所述训练特征词向量进行训练,得到所述第一分类模型

[0032]在其中一个实施例中,所述方法还包括:
[0033]若所述分类结果为用户提问非目标金融范围问题,提示用户重新进行提问

[0034]在其中一个实施例中,所述若所述分类结果为用户提问是目标金融范围问题,将所述分词数据输入金融信息库进行匹配,得到匹配结果还包括:
[0035]若所述分类结果为用户提问是保险范围问题,将所述分词数据输入保险关键词库进行匹配,得到匹配结果

[0036]在其中一个实施例中,所述对所述模型训练数据集进行数据清洗包括:
[0037]使用正则表达式对所述模型训练数据集进行数据清洗;
[0038]对所述模型训练数据集中的缺失值采用众数进行补充处理

[0039]在其中一个实施例中,所述对清洗后的训练数据集进行过采样,得到平衡训练数据集包括:
[0040]使用
SMOTE
算法对清洗后的训练数据集进行过采样,得到平衡训练数据集

[0041]在其中一个实施例中,所述利用主成分分析法计算第一训练数据集的最大主成分方差比以及第二训练数据集的最大主成分方差比包括:
[0042]对所述第一训练数据集和所述第二训练数据集进行标准化处理;
[0043]使用主成分分析算法计算所述第一训练数据集的主成分方差;
[0044]根据所述第一训练数据集的主成分方差得到所述第一训练数据集的总方差,所述第一训练数据集的总方差即所述第一训练数据集的所有主成分方差之和;
[0045]根据所述第一训练数据集的主成分方差和所述第一训练数据集的总方差,计算所
述第一训练数据集的主成分方差比,进而确定所述第一训练数据集的最大主成分方差比;
[0046]使用主成分分析算法计算所述第二训练数据集的主成分方差;
[0047]根据所述第二训练数据集的主成分方差得到所述第一训练数据集的总方差,所述第二训练数据集的总方差即所述第二训练数据集的所有主成分方差之和;
[0048]根据所述第二训练数据集的主成分方差和所述第二训练数据集的总方差,计算所述第二训练数据集的主成分方差比,进而确定所述第二训练数据集的最大主成分方差比

[0049]在其中一个实施例中,所述将所述特征词向量输入第一分类模型,得到类别的预测概率包括:
[0050]所述类别的预测概率包括用户提问是目标金融范围问题的预测概率和用户提问非目标金融范围问题的预测概率

[0051]另一方面,本申请实施例提供了一种金融信息识别装置,所述装置包括:
[0052]数据获取模块,用于获取用户提问数据;
[0053]本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种金融信息识别方法,其特征在于,所述方法包括:获取用户提问数据;对用户提问数据进行分词,得到分词数据;使用词嵌入算法根据所述分词数据生成特征词向量,所述特征词向量包括语义信息;将所述特征词向量输入第一分类模型,得到类别的预测概率,所述第一分类模型采用朴素贝叶斯模型;根据类别的预测概率确定分类结果;若所述分类结果为用户提问是目标金融范围问题,将所述分词数据输入金融信息库进行匹配,得到匹配结果;若所述分类结果为用户提问非目标金融范围问题,利用主成分分析法计算第一训练数据集的最大主成分方差比以及第二训练数据集的最大主成分方差比,所述第一训练数据集包括所述第一分类模型的模型训练数据集,所述第二训练数据集包括所述特征词向量和所述第一分类模型的模型训练数据集,所述第一训练数据集的最大主成分方差比是第一训练数据集的所有主成分方差比的最大值,所述第一训练数据集的主成分方差比用于表征主成分方差占第一训练数据集的总方差的比例,所述第二训练数据集的最大主成分方差比是第二训练数据集的所有主成分方差比的最大值,所述第二训练数据集的主成分方差比用于表征主成分方差占第二训练数据集的总方差的比例;若所述第二训练数据集的最大主成分方差比小于所述第一训练数据集的最大主成分方差比,使用所述第二训练数据集更新所述第一分类模型,得到第二分类模型
。2.
根据权利要求1所述的方法,其特征在于,所述方法还包括:获取模型训练数据集,所述模型训练数据集包括机器人提问数据和用户回答数据;利用模型训练数据集进行训练,得到所述第一分类模型
。3.
根据权利要求1所述的方法,其特征在于,所述方法还包括:对所述用户提问数据进行数据清洗,得到清洗后的用户提问数据
。4.
根据权利要求1所述的方法,其特征在于,所述对用户提问数据进行分词,得到分词数据包括:使用
Jieba
分词工具对用户提问数据进行分词,得到分词数据
。5.
根据权利要求2所述的方法,其特征在于,所述方法还包括:对所述模型训练数据集进行数据清洗,得到清洗后的训练数据集;对清洗后的训练数据集进行标注,得到标注后的训练数据集;对标注后的训练数据集进行过采样,得到平衡训练数据集;对所述平衡训练数据集进行分词,得到训练分词数据集;使用词嵌入算法根据所述训练分词数据集生成训练词向量集
。6.
根据权利要求1所述的方法,其特征在于,所述利用主成分分析法计算第一训练数据集的最大主成分方差比以及第二训练数据集的最大主成分方差比包括:对所述第一训练数据集和所述第二训练数据集进行标准化处理;使用主成分分析算法计算所述第一训练数据集的主成分方差;根据所述第一训练数据集的主成分方差得到所述第一训练数据集的总方差,所述第一训练数据集的总方差即所述第一训练数据集的所有...

【专利技术属性】
技术研发人员:李创林刘敏李廷威
申请(专利权)人:广东百家信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1