【技术实现步骤摘要】
企业名称智能分类的方法及系统
本公开涉及文本处理
,尤其涉及一种企业名称智能分类的方法及系统。
技术介绍
在互联网银行个人网贷系统中,贷款的个人信用审核阶段,需要对申请人所在单位企业资质进行查询,用于辅助判别申请人信用级别。由于目前网贷系统和个人风险评级的业务流程中,对申请人所属企业的风险等级判断完全依靠人工查询,效率和准确率极低。人工查询的方式为:利用搜索引擎手动查询,例如按照学校是否重点、是否公办、小学幼儿园排名逐个分不同类别;企业则是由企业数据提供网站上手动逐个查询,按照是否事业单位、是否省级市级、上市情况等人工分类。个体判断的差异性和搜索引擎查询的精细度等人为干预过程,使得一些评判标准并不唯一确定。因而,需要一种降低人工工作量、可靠性高、响应速度快、灵活性好、审核效率高的企业名称分类的方法和系统。
技术实现思路
本公开提供了一种企业名称智能分类的方法及系统,达到高效且灵活对企业名称进行分类的技术目的。本公开的上述技术目的是通过以下技术方案得以实现的:一种企业名称智能分类的方法 ...
【技术保护点】
1.一种企业名称智能分类的方法,其特征在于,包括:/n对企业名称文本数据进行人工标注,得到原始数据集;/n对所述原始数据集进行数据预处理;/n使用TF-IDF模型对预处理后的所述原始数据集进行特征提取,使用one-hot编码和word2vec模型将提取的特征转为词向量;/n将所述词向量分别投入到Capsule模型、TextCNN模型和LightGBM模型进行训练和测试,测试结果达到预设精度的则停止训练并保存相应模型,否则重新进行训练和测试;/n载入训练完成的Capsule模型、TextCNN模型和LightGBM模型并投入所述词向量进行预测,分别得到第一预测结果、第二预测结 ...
【技术特征摘要】
1.一种企业名称智能分类的方法,其特征在于,包括:
对企业名称文本数据进行人工标注,得到原始数据集;
对所述原始数据集进行数据预处理;
使用TF-IDF模型对预处理后的所述原始数据集进行特征提取,使用one-hot编码和word2vec模型将提取的特征转为词向量;
将所述词向量分别投入到Capsule模型、TextCNN模型和LightGBM模型进行训练和测试,测试结果达到预设精度的则停止训练并保存相应模型,否则重新进行训练和测试;
载入训练完成的Capsule模型、TextCNN模型和LightGBM模型并投入所述词向量进行预测,分别得到第一预测结果、第二预测结果和第三预测结果;
采用智能投票机制对所述第一预测结果、第二预测结果和第三预测结果进行投票决策,得到最终预测结果;
将所述最终预测结果返回至前台服务端,与用户进行交互。
2.如权利要求1所述的企业名称智能分类的方法,其特征在于,所述数据预处理包括句子长度填充、分词、去停用词和名词代换。
3.如权利要求1所述的企业名称智能分类的方法,其特征在于,所述智能投票机制包括最差机制和少数服从多数机制,所述最差机制为:当第一预测结果、第二预测结果和第三预测结果中出现最低评级时,则所述最终预测结果直接为最低评级;
所述少数服从多数机制为:当第一预测结果、第二预测结果和第三预测结果都不是最低评级时,根据所述少数服从多数机制投票选出所述最终预测结果。
4.一种企业名称智能分类的系统,其特征在于,包括:
标注模块,...
【专利技术属性】
技术研发人员:王珂,陈菲琪,张昕然,王景斌,
申请(专利权)人:江苏苏宁银行股份有限公司,
类型:发明
国别省市:江苏;32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。