企业名称智能分类的方法及系统技术方案

技术编号：24331204 阅读：61 留言：0更新日期：2020-05-29 19:39

本发明专利技术公开了一种企业名称智能分类的方法及系统，涉及文本处理技术领域，解决了企业名称分类不够高效灵活的技术问题，其技术方案要点是采用标注模块对企业名称文本数据进行人工标注，通过文本分类模块对数据进行句子长度填充、分词、去停用词和名词代换等一系列的预处理，同时智能投票调度模块采用智能投票机制，保证了企业名称分类方法的可靠性；借助于HTTP数据交换模块，能快速将服务器端的预测结果传递到前台服务端，保证了企业名称分类方法的响应速度；借助于前台服务端，本发明专利技术适用于各种操作系统、各类浏览器，支持不同输入方式，保证了企业名称分类方法的灵活性。

全部详细技术资料下载

【技术实现步骤摘要】
企业名称智能分类的方法及系统
本公开涉及文本处理
，尤其涉及一种企业名称智能分类的方法及系统。
技术介绍
在互联网银行个人网贷系统中，贷款的个人信用审核阶段，需要对申请人所在单位企业资质进行查询，用于辅助判别申请人信用级别。由于目前网贷系统和个人风险评级的业务流程中，对申请人所属企业的风险等级判断完全依靠人工查询，效率和准确率极低。人工查询的方式为：利用搜索引擎手动查询，例如按照学校是否重点、是否公办、小学幼儿园排名逐个分不同类别；企业则是由企业数据提供网站上手动逐个查询，按照是否事业单位、是否省级市级、上市情况等人工分类。个体判断的差异性和搜索引擎查询的精细度等人为干预过程，使得一些评判标准并不唯一确定。因而，需要一种降低人工工作量、可靠性高、响应速度快、灵活性好、审核效率高的企业名称分类的方法和系统。
技术实现思路
本公开提供了一种企业名称智能分类的方法及系统，达到高效且灵活对企业名称进行分类的技术目的。本公开的上述技术目的是通过以下技术方案得以实现的：一种企业名称智能分类的方法...

【技术保护点】
1.一种企业名称智能分类的方法，其特征在于，包括：/n对企业名称文本数据进行人工标注，得到原始数据集；/n对所述原始数据集进行数据预处理；/n使用TF-IDF模型对预处理后的所述原始数据集进行特征提取，使用one-hot编码和word2vec模型将提取的特征转为词向量；/n将所述词向量分别投入到Capsule模型、TextCNN模型和LightGBM模型进行训练和测试，测试结果达到预设精度的则停止训练并保存相应模型，否则重新进行训练和测试；/n载入训练完成的Capsule模型、TextCNN模型和LightGBM模型并投入所述词向量进行预测，分别得到第一预测结果、第二预测结果和第三预测结果；/...

【技术特征摘要】
1.一种企业名称智能分类的方法，其特征在于，包括：
对企业名称文本数据进行人工标注，得到原始数据集；
对所述原始数据集进行数据预处理；
使用TF-IDF模型对预处理后的所述原始数据集进行特征提取，使用one-hot编码和word2vec模型将提取的特征转为词向量；
将所述词向量分别投入到Capsule模型、TextCNN模型和LightGBM模型进行训练和测试，测试结果达到预设精度的则停止训练并保存相应模型，否则重新进行训练和测试；
载入训练完成的Capsule模型、TextCNN模型和LightGBM模型并投入所述词向量进行预测，分别得到第一预测结果、第二预测结果和第三预测结果；
采用智能投票机制对所述第一预测结果、第二预测结果和第三预测结果进行投票决策，得到最终预测结果；
将所述最终预测结果返回至前台服务端，与用户进行交互。

2.如权利要求1所述的企业名称智能分类的方法，其特征在于，所述数据预处理包括句子长度填充、分词、去停用词和名词代换。

3.如权利要求1所述的企业名称智能分类的方法，其特征在于，所述智能投票机制包括最差机制和少数服从多数机制，所述最差机制为：当第一预测结果、第二预测结果和第三预测结果中出现最低评级时，则所述最终预测结果直接为最低评级；
所述少数服从多数机制为：当第一预测结果、第二预测结果和第三预测结果都不是最低评级时，根据所述少数服从多数机制投票选出所述最终预测结果。

4.一种企业名称智能分类的系统，其特征在于，包括：
标注模块，...

【专利技术属性】
技术研发人员：王珂，陈菲琪，张昕然，王景斌，
申请(专利权)人：江苏苏宁银行股份有限公司，
类型：发明
国别省市：江苏;32

全部详细技术资料下载我是这个专利的主人