企业名称智能分类的方法及系统技术方案

技术编号:24331204 阅读:40 留言:0更新日期:2020-05-29 19:39
本发明专利技术公开了一种企业名称智能分类的方法及系统,涉及文本处理技术领域,解决了企业名称分类不够高效灵活的技术问题,其技术方案要点是采用标注模块对企业名称文本数据进行人工标注,通过文本分类模块对数据进行句子长度填充、分词、去停用词和名词代换等一系列的预处理,同时智能投票调度模块采用智能投票机制,保证了企业名称分类方法的可靠性;借助于HTTP数据交换模块,能快速将服务器端的预测结果传递到前台服务端,保证了企业名称分类方法的响应速度;借助于前台服务端,本发明专利技术适用于各种操作系统、各类浏览器,支持不同输入方式,保证了企业名称分类方法的灵活性。

【技术实现步骤摘要】
企业名称智能分类的方法及系统
本公开涉及文本处理
,尤其涉及一种企业名称智能分类的方法及系统。
技术介绍
在互联网银行个人网贷系统中,贷款的个人信用审核阶段,需要对申请人所在单位企业资质进行查询,用于辅助判别申请人信用级别。由于目前网贷系统和个人风险评级的业务流程中,对申请人所属企业的风险等级判断完全依靠人工查询,效率和准确率极低。人工查询的方式为:利用搜索引擎手动查询,例如按照学校是否重点、是否公办、小学幼儿园排名逐个分不同类别;企业则是由企业数据提供网站上手动逐个查询,按照是否事业单位、是否省级市级、上市情况等人工分类。个体判断的差异性和搜索引擎查询的精细度等人为干预过程,使得一些评判标准并不唯一确定。因而,需要一种降低人工工作量、可靠性高、响应速度快、灵活性好、审核效率高的企业名称分类的方法和系统。
技术实现思路
本公开提供了一种企业名称智能分类的方法及系统,达到高效且灵活对企业名称进行分类的技术目的。本公开的上述技术目的是通过以下技术方案得以实现的:一种企业名称智能分类的方法,包括:对企业名称文本数据进行人工标注,得到原始数据集;对所述原始数据集进行数据预处理;使用TF-IDF模型对预处理后的所述原始数据集进行特征提取,使用one-hot编码和word2vec模型将提取的特征转为词向量;将所述词向量分别投入到Capsule模型、TextCNN模型和LightGBM模型进行训练和测试,测试结果达到预设精度的则停止训练并保存相应模型,否则重新进行训练和测试;载入训练完成的Capsule模型、TextCNN模型和LightGBM模型并投入所述词向量进行预测,分别得到第一预测结果、第二预测结果和第三预测结果;采用智能投票机制对所述第一预测结果、第二预测结果和第三预测结果进行投票决策,得到最终预测结果;将所述最终预测结果返回至前台服务端,与用户进行交互。进一步地,所述数据预处理包括句子长度填充、分词、去停用词和名词代换。进一步地,所述智能投票机制包括最差机制和少数服从多数机制,所述最差机制为:当第一预测结果、第二预测结果和第三预测结果中出现最低评级时,则所述最终预测结果直接为最低评级;所述少数服从多数机制为:当第一预测结果、第二预测结果和第三预测结果都不是最低评级时,根据所述少数服从多数机制投票选出所述最终预测结果。一种企业名称智能分类的系统,包括:标注模块,对企业名称文本数据进行人工标注,得到原始数据集;文本分类模块,包括:预处理单元,对所述原始数据集进行数据预处理;特征提取单元,使用TF-IDF模型对预处理后的所述原始数据集进行特征提取,使用one-hot编码和word2vec模型将提取的特征转为词向量;模型训练单元,将所述词向量分别投入到Capsule模型、TextCNN模型和LightGBM模型进行训练和测试,测试结果达到预设精度的则停止训练并保存相应模型,否则重新进行训练和测试;预测单元,载入训练完成的Capsule模型、TextCNN模型和LightGBM模型并投入所述词向量进行预测,分别得到第一预测结果、第二预测结果和第三预测结果;智能投票调度模块,采用智能投票机制对所述第一预测结果、第二预测结果和第三预测结果进行投票决策,得到最终预测结果;HTTP数据交换模块,将所述最终预测结果传送给前台服务端;前台服务端,与用户进行交互。进一步地,所述预处理单元包括句子长度填充单元、分词单元、去停用词单元和名词代换单元。进一步地,所述智能投票调度模块包括:最差机制单元,当第一预测结果、第二预测结果和第三预测结果中出现最低评级时,则所述最差机制单元直接给出最低评级的所述最终预测结果;投票单元,当第一预测结果、第二预测结果和第三预测结果都不是最低评级时,所述投票单元根据少数服从多数机制投票选出所述最终预测结果。本公开的有益效果在于:本公开所述的企业名称智能分类的方法及系统通过文本分类模块和智能投票调度模块,对数据进行句子长度填充、分词、去停用词和名词代换等一系列的预处理,同时提出智能投票机制,保证了企业名称分类方法的可靠性;借助于HTTP数据交换模块,能快速将服务器端的预测结果传递到前台服务端,保证了企业名称分类方法的响应速度;借助于前台服务端,本专利技术适用于各种操作系统、各类浏览器,支持不同输入方式,保证了企业名称分类方法的灵活性。附图说明图1为本公开方法流程图;图2为本公开系统示意图;图3为本公开实施例的分词样例示意图;图4为本公开实施例的去停用词样例示意图;图5为本公开实施例的名词代换样例示意图;图6为本公开实施例的前台服务端界面。具体实施方式下面将结合附图对本公开技术方案进行详细说明。在本公开的描述中,需要理解地是,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量,仅用来区分不同的组成部分。图1为本公开方法流程图,如图1所示,首先对企业名称文本数据进行人工标注,标注后的企业名称文本数据则为原始数据集。由于软件功能无法完全对企业名称文本数据进行精准的标注,因而对无法标注的部分需要进行人工标注。然后对原始数据集进行数据预处理,再使用TF-IDF模型对预处理后的原始数据集进行特征提取,使用one-hot编码和word2vec模型将提取的特征转为词向量。将词向量分别投入到Capsule模型、TextCNN模型和LightGBM模型进行训练和测试,测试结果达到预设精度则停止训练并保存相应模型,否则对未达到预设精度的模型重新进行训练和测试。然后载入训练完成的Capsule模型、TextCNN模型和LightGBM模型并投入词向量进行预测,分别得到第一预测结果、第二预测结果和第三预测结果,采用智能投票机制对第一预测结果、第二预测结果和第三预测结果进行投票决策,得到最终预测结果,最后将最终预测结果返回至前台服务端,与用户进行交互。本实施例将企业名称智能分类为A、B、C、D四类标签,企业的风险等级从低到高,A类企业信用等级最高风险最小即最高评级,而D类企业信用等级最低风险最大即最低评级。对企业名称文本数据标注后构成原始数据集,原始数据集供下一步数据预处理使用。数据预处理过程为:首先进行句子长度填充,即利用文本填充技术,为文本前面或后面填充象征开始或者结束的符号,句子长度填充即将不同的企业名称填充成一样的长度,方便后续处理。然后通过分词将一个汉字序列切分成一个个单独的词,将连续的字序列按照一定的规范重新组合成词序列,分词可采用不同的算法,从而实现不同的分词效果,例如有正向最大匹配法、逆向最大匹配法、统计法等,本实施例采用jieba分词对企业名称文本数据进行分词处理,其具体分词实施方式参见图3。之后,调用一个停用词表,根据停用词表所记录的停本文档来自技高网...

【技术保护点】
1.一种企业名称智能分类的方法,其特征在于,包括:/n对企业名称文本数据进行人工标注,得到原始数据集;/n对所述原始数据集进行数据预处理;/n使用TF-IDF模型对预处理后的所述原始数据集进行特征提取,使用one-hot编码和word2vec模型将提取的特征转为词向量;/n将所述词向量分别投入到Capsule模型、TextCNN模型和LightGBM模型进行训练和测试,测试结果达到预设精度的则停止训练并保存相应模型,否则重新进行训练和测试;/n载入训练完成的Capsule模型、TextCNN模型和LightGBM模型并投入所述词向量进行预测,分别得到第一预测结果、第二预测结果和第三预测结果;/n采用智能投票机制对所述第一预测结果、第二预测结果和第三预测结果进行投票决策,得到最终预测结果;/n将所述最终预测结果返回至前台服务端,与用户进行交互。/n

【技术特征摘要】
1.一种企业名称智能分类的方法,其特征在于,包括:
对企业名称文本数据进行人工标注,得到原始数据集;
对所述原始数据集进行数据预处理;
使用TF-IDF模型对预处理后的所述原始数据集进行特征提取,使用one-hot编码和word2vec模型将提取的特征转为词向量;
将所述词向量分别投入到Capsule模型、TextCNN模型和LightGBM模型进行训练和测试,测试结果达到预设精度的则停止训练并保存相应模型,否则重新进行训练和测试;
载入训练完成的Capsule模型、TextCNN模型和LightGBM模型并投入所述词向量进行预测,分别得到第一预测结果、第二预测结果和第三预测结果;
采用智能投票机制对所述第一预测结果、第二预测结果和第三预测结果进行投票决策,得到最终预测结果;
将所述最终预测结果返回至前台服务端,与用户进行交互。


2.如权利要求1所述的企业名称智能分类的方法,其特征在于,所述数据预处理包括句子长度填充、分词、去停用词和名词代换。


3.如权利要求1所述的企业名称智能分类的方法,其特征在于,所述智能投票机制包括最差机制和少数服从多数机制,所述最差机制为:当第一预测结果、第二预测结果和第三预测结果中出现最低评级时,则所述最终预测结果直接为最低评级;
所述少数服从多数机制为:当第一预测结果、第二预测结果和第三预测结果都不是最低评级时,根据所述少数服从多数机制投票选出所述最终预测结果。


4.一种企业名称智能分类的系统,其特征在于,包括:
标注模块,...

【专利技术属性】
技术研发人员:王珂陈菲琪张昕然王景斌
申请(专利权)人:江苏苏宁银行股份有限公司
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1