一种计算企业实际经营地的方法技术

技术编号:28942220 阅读:22 留言:0更新日期:2021-06-18 21:48
本申请提供了一种计算企业实际经营地址的方法,通过已训练的地址信息提取模型从目标企业地址提取省市区县等详细结构化数据;通过已训练的行政区划映射模型将提取到的省市区县等详细结构化数据映射成标准规范的行政区划描述数据;基于从企业地址提取到并映射后的标准规范行政区划描述数据,计算该地址的初始得分;基于目标企业地址的发布日期,并结合衰减函数计算该地址的实际得分;输出得分最高的对应的地址就是该企业的实际经营地址(如果得分最高对应的地址有多个,则输出发布日期最近的地址)。

【技术实现步骤摘要】
一种计算企业实际经营地的方法
本方法涉及文本处理
,特别是涉及一种根据企业多个来源地址提取企业实际经营地的方法。
技术介绍
企业在公开数据源上发布的地址往往会存在以下几个问题:1.企业基本信息中发布的地址往往是注册地址,通常与经营地址会存在一定的出入;2.年报中发布的地址是企业自主公示,并且更新频率比较低,通常情况下为1年更新一次;3.招聘网站发布的地址虽然更新比较频繁,但由于发布数量较多,经手人员较多,导致同一个地址可能出现简写,错写,漏写等描述方式不统一的问题;当用户想要通过以上所诉数据来源,获得该企业的实际经营地址时,通常的做法是,首先是通过人工审查,一一核实,排除掉难以得出真实位置的地址,然后在剩下的地址中,通过地址描述的详细程度以及该地址的发布日期以甄别出该企业的实际经营地址。然而,该种方法需要耗费大量的人力物力,且核实过程会耗费大量的时间,存在分析过程效率低下的问题。
技术实现思路
基于此,有必要针对上诉技术问题,提供一种能够提高分析效率的提取企业实际经营地址的方法,它能够在用户查询某企业的实际经营地址时,通过对从多个公开数据来源网站中获取到的地址进行合理的分析,以计算出该企业的实际经营地址。为了实现以上目的,本方法采用的技术方案是:一种计算企业实际经营地的方法,利用从多个公开数据来源网站中获取到的地址进行分析,先从地址长度,有无省市县等关键字,这些方面入手过滤掉无法定位到企业实际经营位置且可能会对最后计算的结果产生影响或者没有多大意义的地址;然后通过已经训练好的模型从地址中提取关键的地址信息,并映射为标准规范的行政区划描述;最后结合经过大量实验调整为最优权重的公式计算出每个企业地址的得分,输出得分最高且发布日期最近的地址即为该企业的实际经营地址。整个方案的具体实施步骤如下:1.从多个来源获取企业的地址及其地址的发布日期,并对这些地址进行清洗,以过滤掉长度不够的地址,没有xx省或xx市或xx县等这种重要关键字的地址,只有xx省xx市xx县等这种没有意义的地址;2.通过已经训练好的地址信息提取模型从上述1中清洗后的地址提取到关键的地址信息;3.通过已经训练好的行政区划映射模型从上诉2中提取到的地址信息映射为标准规范的行政区划描述;4.通过经过大量实验并调整好权重的企业地址初始得分公式和上诉3中标准规范的行政区划描述,计算每个企业地址的初始得分;5.通过企业地址最终得分公式和上诉4中的企业地址初始得分以及该企业地址的发布日期,计算出每个企业地址的最终得分;6.输出得分最高且发布日期最近的地址就是该企业的实际经营地址。附图说明图1为方案具体实施流程图。具体实施方式为了使本申请的目的,技术方案及优点更加清楚明白,以下结合实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,应当理解,本申请中附图仅起到说明和描述的目的,并不用于限定本申请的保护范围。本申请提供的计算企业实际经营地的方法,可以应用于如图1所示的应用环境中,其步骤包括:步骤101:当一个用户查询目标企业的实际经营地时,首先,需要从各个可以获取到该企业地址的网站上去获取该企业的多个地址,最直接的可以从国家企业信用信息公示系统网站查询获得该企业的注册地址,并且从该企业的变更记录中获得该注册地址的变更日期也就是发布日期,如果该注册地址没有发生变更过,则从该企业的照面信息中获取成立日期做为该注册地址的发布日期;另外,还可以从该企业最近一年发布的年报中获取该企业自主公示的年报地址,选取该年报的发布日期做为该年报地址的发布日期;更多的地址来源还可以从众多的招聘网站中获取,比如BOSS直聘,智联招聘,前程无忧,58同城招聘,拉勾网,大街网等等,选取该企业最近一年发布的招聘公告,从中获取到该企业发布的招聘地址,并将该招聘公告发布的日期做为该招聘地址的发布日期。步骤102:在对步骤101中获取到的企业地址进行分析之前,首先要对这些地址进行一个基本的过滤清洗,专利技术人在实施的时候发现,可能由于招聘网站上发布的招聘公告往往不是出自同一个人之手,每个人都会有自己独特的书写习惯,或者由于工作的疏忽会出现错写,漏写,简写等使旁人难以辨别出真实位置的地址;如:某苏州公司在2020年10月份于前程无忧网站上发布的一条招聘公告中,在地址描述栏中填写的是:漕湖大道39号,这对于一个应聘者来说这样的描述是可以接受的,他可以先锁定苏州市,然后再去查询漕湖大道39号的位置,但这种地址对于本方法来说其实是没有意义的,缺少重要的xx省或xx市或xx县关键字,从而导致无法定位到该地址准确的位置,甚至有可能会对最后输出的结果产生不必要的影响,应当将类似这样的地址统统过滤掉;更有甚者,某长春公司在2020年10月份与58同城招聘网站上发布的一条招聘公告中,在地址描述栏中只填写了“长春”,这不仅对本方法没有意义,对于应聘者来说这种地址其实也是没有意义的;所以,要先通过正则表达式将这些字数过少,或者不包含浙江(省),苏州(市)等这种关键字,或者只有浙江(省),苏州(市)这种关键字的地址都过滤掉,以免对结果造成不必要的影响。步骤103:需要知道的是,即使如上步骤2所诉对获取到的地址进行了清洗,但不可避免会出现以下几个问题;首先,如果该查询企业是一个新企业,那么由于在企业创立初期各必须岗位的人员比较固定,所以在短时间内不需要招聘新的人员,因而在各大招聘网站上也就获取不到该企业发布的招聘地址;其次,国家企业信用信息公示系统网站需要进行日常的更新以及维护,当处于这个节点去查询刚刚成立的企业的话,可能会导致无法获取到该企业的注册地址;最后,企业年报是一年发布一次,那么同样意味着查询最近刚刚成立的企业时也无法获得该企业的年报地址;当以上问题同时出现的时候,那么该企业从上诉网站中就获取不到地址,这时就应直接返回该企业的实际经营地址为空;另外,如果经过清洗后只剩下一个地址,执行下面的步骤同样是没有意义的,这时可以直接返回该地址做为企业实际经营地址。步骤104:当获取到的企业地址有多个,且经过如上步骤2所诉清洗后任然保留多个地址时,需要进一步的分析确定该企业的实际经营地址;为了保证最后结果的准确性,需要训练地址信息提取模型;从国家企业信用信息公示系统网站以及招聘网站随机获取一批地址做为训练样本,将每个样本地址都标注成如下形式:样本地址:浙江省杭州市江干区九环路九号4号楼4楼436室,标注结果为:省:浙江省,市:杭州市,县(区):江干区,路:九环路,路-号:九号,园区:,园区-栋:4号楼,园区-栋-楼:4楼,园区-栋-楼-号:436室;将样本地址做为输入特征,将相应的标注好的目标省市县等地址信息做为期望的输出特征,对长久记忆神经网络进行训练获得已训练的地址信息提取模型。步骤105:用如上所诉步骤103中已训练好的地址信息提取模型对该企业清洗后的所有地址进行关键信息提取。步骤106:对如上所诉步骤104中提取到的地址信息进本文档来自技高网...

【技术保护点】
1.一种计算企业实际经营地的方法,其步骤包括:/n步骤1:当某个用户查询某个企业的实际经营地址时,通过数据公开网站获取该企业的地址,及其地址所对应的发布日期;/n步骤2:通过已训练的地址信息提取模型从步骤1所述的地址中提取到省,市,县(区),街道,路,路-号,园区,园区-栋,园区-栋-楼,园区-栋-楼-号数据,即该企业地址信息结构化数据;/n步骤3:通过已训练的行政区划映射模型将步骤2中提取到的企业地址信息结构化数据映射为标准规范的通用行政区划描述数据;/n步骤4:根据步骤3所述的企业标准规范的通用行政区划描述数据计算该企业地址的初始得分,具体公式为:/ns

【技术特征摘要】
1.一种计算企业实际经营地的方法,其步骤包括:
步骤1:当某个用户查询某个企业的实际经营地址时,通过数据公开网站获取该企业的地址,及其地址所对应的发布日期;
步骤2:通过已训练的地址信息提取模型从步骤1所述的地址中提取到省,市,县(区),街道,路,路-号,园区,园区-栋,园区-栋-楼,园区-栋-楼-号数据,即该企业地址信息结构化数据;
步骤3:通过已训练的行政区划映射模型将步骤2中提取到的企业地址信息结构化数据映射为标准规范的通用行政区划描述数据;
步骤4:根据步骤3所述的企业标准规范的通用行政区划描述数据计算该企业地址的初始得分,具体公式为:
s0=v1×p+v2×c+v3×x+v4×j+max(v5×w+v6×wh,v7×y+v8×yd+v9×ydl+v10×ydlh)
其中,p,c,x,j,w,wh,y,yd,ydl,ydlh分别对应表示省,市,县(区),街道,路,路-号,园区,园区-栋,园区-栋-楼,园区-栋-楼-号的取值;如果企业标准规范的通用行政区划描述数据中有对应行政区划的值,则该行政区划对应变量的取值为1,否则取值为0;v1,v2,v3,v4,v5,v6,v7,v8,v9,v10则是对应指标的权重,根据经验和大量实验调整后得出最合适的值分别为:30,25,20,15,5,5,7,2,0.5,0.5;
步骤5:根据步骤4所诉的企业地址初始得分s0和地址的发布日期计算该企业地址的实际得分,具体公式为:<...

【专利技术属性】
技术研发人员:唐杰徐超陈雨馨梁协君
申请(专利权)人:杭州有数金融信息服务有限公司
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1