【技术实现步骤摘要】
一种基于公司名称的行业预测方法及设备
[0001]本申请涉及计算机
,尤其涉及一种基于公司名称的行业预测方法及设备。
技术介绍
[0002]现有技术中,行业分类的用途很广,最新的行业分类标准是GB/T4754
‑
2017《国民经济行业分类》。在统计局报告和统计年鉴里,经常根据行业做统计结果。在信用卡申请时需要申请人同时提供公司名称和所在的行业,为了简化用户体验,很多申请表单简化成只需要提供公司名称,然后根据一定的方法来预测行业。
[0003]最常见的方法是调用一些企业信息查询平台(例如,天严查、企查查等)提供的接口来获取行业,该方法需要预先准备一个公司行业的数据库,再采用精确或者模糊匹配的方法来查询;还有一些是通过机器学习的方法来预测行业。
[0004]现有技术中可以通过数据库查询法和基于模型的方法来进行行业预测。其中,数据库查询法存在以下缺点:缺点一、用户输入的公司名称不一定是标准的,直接匹配得不到结果,而模糊匹配返回的结果可能和待查询的公司差异很大;缺点二、需要准备庞大的数据库,包 ...
【技术保护点】
【技术特征摘要】
1.一种基于公司名称的行业预测方法,其中,该方法包括:获取待预测行业的目标公司名称;基于预设的词典库,对所述目标公司名称依序进行清洗处理、文字过滤处理及分词处理,得到所述目标公司名称对应的初始词组集,所述初始词组集包括至少两个词组,其中,所述预设的词典库包括至少两个预设词组及其对应的行业;基于所述预设的词典库对所述初始词组集中的所有词组进行过滤,并计算过滤后的词组集中的每个词组对应的词组分和备选行业;基于所述过滤后的词组集中的每个词组对应的词组分和备选行业,得到所述目标公司名称对应的预设数量的预测行业及其行业分。2.根据权利要求1所述的方法,其中,所述基于预设的词典库,对所述目标公司名称依序进行清洗处理、文字过滤处理及分词处理,得到所述目标公司名称对应的初始词组集,所述词组集包括至少两个词组,其中,所述预设的词典库包括至少两个预设词组及其对应的行业,包括:对所述目标公司名称进行清洗处理,得到所述目标公司名称对应的第一公司名称;对所述第一公司名称进行文字过滤处理,得到所述目标公司名称对应的第二公司名称;基于所述预设的词典库,对所述第一公司名称和所述第二公司名称分别进行分词处理,得到所述目标公司名称对应的初始词组集,所述词组集包括至少两个词组。3.根据权利要求2所述的方法,其中,所述对所述目标公司名称进行清洗处理,得到所述目标公司名称对应的第一公司名称,包括:对所述目标公司名称进行繁体转简体、全拼转半拼、字符级过滤、英文统一及空格处理中的一种或多种清洗处理,得到所述目标公司名称对应的第一公司名称。4.根据权利要求3所述的方法,其中,所述对所述第一公司名称进行文字过滤处理,得到所述目标公司名称对应的第二公司名称,包括:对所述第一公司名称进行中文保留处理,得到所述目标公司名称对应的第一子公司名称;去掉所述第一子公司名称中位于末尾的组织形式,得到所述目标公司名称对应的第二子公司名称;去掉所述第二子公司名称中包含个体户的相关信息,得到所述目标公司名称对应的第三子公司名称;去掉所述第三子公司名称中位于名称头部的地点信息,得到所述目标公司名称对应的第二公司名称。5.根据权利要求4所述的方法,其中,所述基于所述预设的词典库,对所述第一公司名称和所述第二公司名称分别进行分词处理,得到所述目标公司名称对应的初始词组集,所述初始词组集包括至少两个词组,包括:采用jieba库对所述第二公司名称进行分词处理,得到第一词组列表;基于所述预设的词典库,按照在所述第一公司名称里...
【专利技术属性】
技术研发人员:向桥梁,张俊龙,
申请(专利权)人:连通杭州技术服务有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。