一种面向企业信息的行业全息画像构建方法及系统技术方案

技术编号:14469571 阅读:163 留言:0更新日期:2017-01-21 01:20
本发明专利技术提供了一种面向企业信息的行业全息画像构建方法及系统,属于信息技术领域。本系统包括企业名称抓取模块、企业文本描述信息模块、中文切词模块、词频统计模块、有效词集获取模块、有效行业词集获取模块和企业行业全息画像获取模块。本方法通过网络抓取企业名称,获取每个企业的文本描述信息,对文本描述信息进行切词、剔除常用词,得到有效词集,计算有效词与一级、二级行业国家标准名称的相似度分数,剔除小于阈值的词,对每个企业,根据每类文本描述信息与相似度分数,计算企业所属的一级、二级行业,取对应的有效行业词集作为企业的行业全息画像。本发明专利技术可大规模快速获取企业行业画像信息,有效行业词较人工标注的词更加全面、精准。

【技术实现步骤摘要】

本专利技术涉及信息
,具体涉及一种面向企业信息的行业全息画像构建方法及系统。
技术介绍
当前,企业各行业分类标准已经制定,但从企业名称本身很难直接获取其所属行业,需要通过搜集企业的额外信息以及行业知识来辅助对企业进行行业画像,通过行业来大范围查询和统计企业数量就显得异常困难。也很难通过一段时间内注册企业行业走向来分析行业发展。目前对企业行业画像,主要是根据企业工商信息、产品信息、网站信息等数据进行人工手动映射分类,这些方法获取数据难度大,准确度低。虽然有不少企业或学者通过企业某一类信息进行一一映射来程序化分类画像,但是目前尚没有利用企业综合信息自动构建企业行业画像的方法。
技术实现思路
本专利技术针对目前人工对企业行业画像难度较大的问题以及缺少对企业综合信息进行自动构建行业画像的问题,提供了一种面向企业信息的行业全息画像构建方法及系统,利用中文语言处理构建企业行业全息画像。本专利技术提供的面向企业信息的行业全息画像构建方法,包括如下步骤:步骤1、通过网络抓取企业名称,提取有效企业列表,剔除个体商户、企业名称为纯英文的企业;步骤2、对有效企业列表中每个企业,获取企业的名称、介绍、知识产权、法律记录、媒体报道、公司年报、产品中的文本描述信息集合;企业文本描述信息集合包括但不限于以上类型。设第i个企业的文本描述信息集合Ei形式化描述为:Ei=(Ni,Ii,Bi,Li,Mi,Ai,Pi);其中,Ni为名称,Ii为介绍,Bi为知识产权,Li为法律记录,Mi为媒体报道,Ai为公司年报,Pi为产品;步骤3、对步骤2中提取的企业文本描述信息集合进行中文切词,得到企业文本描述信息包含的所有词集,并对所有词集进行处理,去除干扰词;去除干扰词判定条件为:剔除单字,包括英文和中文单字;剔除包括英文、数字等非中文词汇。步骤4、对步骤3中得到的词集进行合并统计,获取每个词出现的频次;步骤5、将步骤4中得到的词集中出现频次小于阈值thresholdword的词剔除,然后对词集中剩余的词进行中文文本聚类,剔除人名、地名等常用词,得到有效词集;步骤5中,利用一段时间内全网新闻数据生成中文文本聚类模型,得到包括人名、地名的常用词;然后步骤4得到的词集与得到的常用词进行相似度计算,去除相似度大于阈值thresholdscore的词,得到有效词集。步骤6、计算步骤5得到的有效词集中每个词与一级、二级行业国家标准名称的相似度分数,将分数小于阈值thresholdindustry的词剔除,获取有效行业词集,并生成有效行业词集对应的一级、二级行业相似度分数矩阵;步骤7、对每个有效企业构建行业全息画像;对每个有效企业,根据该企业的每一类企业文本描述信息的有效行业词,计算该企业在每个一级行业或每个二级行业的相似度分数,取相似度分数最大的一级行业或二级行业,作为该企业所属的一级行业或二级行业,将该企业所属的一级行业和二级行业对应的有效行业词集合并一起作为该企业的行业全息画像。一种面向企业信息的行业全息画像构建系统,通过计算机硬件及其上的编程软件实现,包括如下模块:企业名称抓取模块,通过网络抓取企业名称,剔除个体商户、纯英文名称的企业,获取有效企业列表;企业文本描述信息模块,对有效企业列表中每个企业,提取企业文本描述信息集合;企业文本描述信息从如下几类获取:名称、介绍、知识产权、法律记录、媒体报道、公司年报和产品;中文切词模块,对企业文本描述信息集合进行中文切词,得到企业文本描述信息包含的所有词集,并对所有词集进行处理,去除干扰词;去除干扰词包括:剔除单字,包括英文和中文单字,剔除非中文词汇;词频统计模块,对得到的词集进行合并统计,获取每个词出现的频次;有效词集获取模块,将词集中出现频次小于阈值thresholdword的词剔除,再对词集中剩余的词进行中文文本聚类,剔除常用词,得到有效词集;所述的常用词,是利用一段时间内全网新闻数据生成中文文本聚类模型,然后得到包括人名、地名的常用词;所述的剔除常用词是指,将词集与得到的常用词进行相似度计算,去除相似度大于阈值thresholdscore的词,得到有效词集;有效行业词集获取模块,用于计算有效词集中每个词与一级、二级行业国家标准名称的相似度分数,将分数小于阈值thresholdindustry的词从有效词集中剔除,获取有效行业词集,并生成有效行业词集对应的一级、二级行业相似度分数矩阵;企业行业全息画像获取模块,用于对每个有效企业构建行业全息画像,具体是:对每个有效企业,根据该企业的每一类企业文本描述信息的有效行业词,计算该企业在每个一级行业或每个二级行业的相似度分数,取相似度分数最大的一级行业或二级行业,作为该企业所属的一级行业或二级行业,将该企业所属的一级行业和二级行业对应的有效行业词集合并一起作为该企业的行业全息画像。本专利技术的优点与积极效果在于:(1)本专利技术的行业全息画像构建方法及系统改变了传统的根据企业工商信息、产品信息、网站信息等数据人工获取企业行业信息的方法,通过企业名称、介绍、知识产权、法律记录、媒体报道、公司年报、产品等综合信息进行处理分析,进而构建企业行业的全息画像,可大规模快速获取企业行业画像信息;(2)本专利技术的行业全息画像构建方法及系统使用了Map/Reduce分布式计算框架对海量企业文本描述信息进行处理,在数据提取、文本切词、相似度计算、企业画像等处理上,速度有极大提升;(3)本专利技术的行业全息画像构建方法及系统抽取用于构建企业行业全息画像的15682个有效行业词,较人工标注的词更加全面、精准;(4)本专利技术使用的中文文本聚类模型采用了超过200万篇全网新闻资料进行训练,文本相似度计算精准,构建的企业行业画像信息精确度高;(5)模型应用在水滴数据平台企业行业画像,具有较高精度,使得能够对全国注册企业按照行业进行分类,挖掘各行业注册企业按时间变化规律,辅助支持行业调整决策。附图说明图1是本专利技术的企业行业全息画像构建方法的整体模型;图2是本专利技术的中文文本相似度模型训练的流程示意图;图3是本专利技术的企业有效词集获取的流程示意图。具体实施方式下面将结合附图和实施例对本专利技术作进一步的详细说明。本专利技术是一种面向企业信息的行业全息画像构建方法,利用中文语言处理中文文本相似性计算算法,对企业的名称、介绍、知识产权、法律记录、媒体报道、公司年报、产品等综合信息进行处理分析,进而构建企业行业全息画像。下面结合实例和图1来说明本专利技术的面向企业信息的行业全息画像构建方法,并利用该方法对12707667家企业进行行业画像。步骤1、通过信息抓取获取到12707667家企业,并剔除个体商户、企业名称纯英文等企业,得到有效企业共12692649家。通过互联网资源,以常用词库中的词,从企业查询网、新闻站点等网络抓取企业信息,形成企业数据库、新闻网页数据库,对抓取的数据作清洗处理,并提取出企业名称列表。步骤2、提取步骤1中12692649家企业的名称、介绍、知识产权、法律记录、媒体报道、公司年报、产品中的文本描述信息集合。其中,第i个企业的文本描述信息集合Ei形式化描述为:Ei=(Ni,Ii,Bi,Li,Mi,Ai,Pi);Ni为名称,Ii为介绍,Bi为知识产权,Li为法律记录,Mi为媒体报道,Ai为公司年报,Pi为产本文档来自技高网...

【技术保护点】
一种面向企业信息的行业全息画像构建方法,其特征在于,实现步骤如下:步骤1、通过网络抓取企业名称,剔除个体商户、纯英文名称的企业,获取有效企业列表;步骤2、对有效企业列表中每个企业,提取企业文本描述信息集合;企业文本描述信息从如下几类获取:名称、介绍、知识产权、法律记录、媒体报道、公司年报和产品;步骤3、对步骤2提取的企业文本描述信息集合进行中文切词,得到企业文本描述信息包含的所有词集,并对所有词集进行处理,去除干扰词;去除干扰词判定条件为:剔除单字,包括英文和中文单字;剔除非中文词汇;步骤4、对步骤3中得到的词集进行合并统计,获取每个词出现的频次;步骤5、将步骤4中得到的词集中出现频次小于阈值thresholdword的词剔除,然后对词集中剩余的词进行中文文本聚类,剔除常用词,得到有效词集;首先,利用一段时间内全网新闻数据生成中文文本聚类模型,得到包括人名、地名的常用词;然后步骤4得到的词集与得到的常用词进行相似度计算,去除相似度大于阈值thresholdscore的词,得到有效词集;步骤6、计算有效词集中每个词与一级、二级行业国家标准名称的相似度分数,将分数小于阈值thresholdindustry的词剔除,获取有效行业词集,并生成有效行业词集对应的一级、二级行业相似度分数矩阵;步骤7、对每个有效企业构建行业全息画像;对每个有效企业,根据该企业的每一类企业文本描述信息的有效行业词,计算该企业在每个一级行业或每个二级行业的相似度分数,取相似度分数最大的一级行业或二级行业,作为该企业所属的一级行业或二级行业,将该企业所属的一级行业和二级行业对应的有效行业词集合并一起作为该企业的行业全息画像。...

【技术特征摘要】
1.一种面向企业信息的行业全息画像构建方法,其特征在于,实现步骤如下:步骤1、通过网络抓取企业名称,剔除个体商户、纯英文名称的企业,获取有效企业列表;步骤2、对有效企业列表中每个企业,提取企业文本描述信息集合;企业文本描述信息从如下几类获取:名称、介绍、知识产权、法律记录、媒体报道、公司年报和产品;步骤3、对步骤2提取的企业文本描述信息集合进行中文切词,得到企业文本描述信息包含的所有词集,并对所有词集进行处理,去除干扰词;去除干扰词判定条件为:剔除单字,包括英文和中文单字;剔除非中文词汇;步骤4、对步骤3中得到的词集进行合并统计,获取每个词出现的频次;步骤5、将步骤4中得到的词集中出现频次小于阈值thresholdword的词剔除,然后对词集中剩余的词进行中文文本聚类,剔除常用词,得到有效词集;首先,利用一段时间内全网新闻数据生成中文文本聚类模型,得到包括人名、地名的常用词;然后步骤4得到的词集与得到的常用词进行相似度计算,去除相似度大于阈值thresholdscore的词,得到有效词集;步骤6、计算有效词集中每个词与一级、二级行业国家标准名称的相似度分数,将分数小于阈值thresholdindustry的词剔除,获取有效行业词集,并生成有效行业词集对应的一级、二级行业相似度分数矩阵;步骤7、对每个有效企业构建行业全息画像;对每个有效企业,根据该企业的每一类企业文本描述信息的有效行业词,计算该企业在每个一级行业或每个二级行业的相似度分数,取相似度分数最大的一级行业或二级行业,作为该企业所属的一级行业或二级行业,将该企业所属的一级行业和二级行业对应的有效行业词集合并一起作为该企业的行业全息画像。2.根据权利要求1所述的一种面向企业信息的行业全息画像构建方法,其特征在于,所述的步骤5中设置thresholdword为15,设置thresholdscore为0.5。3.根据权利要求1所述的一种面向企业信息的行业全息画像构建方法,其特征在于,所述的步骤6中,设置thresholdindustry为0.5。4.根据权利要求1或3所述的一种面向企业信息的行业全息画像构建方法,其特征在于,所述的步骤6中,包括:(6a)计算每个有效词与二级行业词的相似度分数,剔除分数小于阈值thresholdindustry的词,得到第一有效行业词集,生成二级行业与每个有效行业词的二级行业相似度分数矩阵;(6b)计算每个有效词与一级行业词的相似度分数,剔除分数小于阈值thresholdindustry的词,得到第二有效行业词集,生成一级行业与每个有效行业词的一级行业相似度分数矩阵。5.根据权利要求1所述的一种面向企业信息的行业全息画像构建方法,其特征在于,所述的步骤7中,为某个有效行业构建行业全息画像,包括以下步骤:7a)计算企业文本描述信息集合中每一类企业文本描述信息在每个二级行业词中相似度分数集合Skj如下:Skj=Σm=1m=NUMks(wkm,dj)/NUMk,1≤j≤K1,k∈(N,I,B,L,M,A,P);]]>其中,k表示某类企业文本描述信息,N、I、B、L、M、A和P分别代表名称、介绍、知识产权、法律记录、媒体报道、公司年报和产品;K1为二级行业个数;NUMk为本企业的k类企业文本描述信息中有效行业词的数量;wkm为本企业的k类企业文本描述信息中的第m个有效行业词,dj为第j个二级行业词,s(wkm,dj)为有效行业词wkm与行业词dj的相似度分数;7b)对获取的Skj进行加权处理,获取企业在每个二级行业的相似度分数Scorej为:Scorej=Σk∈(N,I,B,L,M,A,P)SkjWk,1≤j≤K1;]]>Wk为本企业中k类企业文本描述信息的权重,设置WN=0.2,WI=0.2,WB=0.1,WL=0.1,WM=0.1,WA=0.1,WP=0.2;7c)取步骤7b中Scorej分数最大的二级行业,为本企业所属的二级行业,获取本企业所属二级行业对应的有效行业词集A;7d)根据步骤7a~7c的计算方法,计算本企业所属的一级行业,并获取本企业所属一级行业对应的有效行业词集B,并与步骤7c中得到的有效行业词集A合并,作为本企业行业全息画像;在计算本企业所属的一级行业时,首先根据步骤7a中公式,计算企业文本描述信息集合中每一类企业文本描述信息在每个一级行业词中相似度分数集合Skj,其中1≤j≤K2,K2为一级行业个数,dj为第j个一级行业词;再根据步骤7b中公式,计算企业在每个一级行业的相似度分数,所设置的权重与步骤7b中相同;最后,取企业在一级行业的相似度分数最大的一级行业,作为本企业所属的一级行业;7e)若企业行业全息画像的有效行业词集中包含的词个数超过5...

【专利技术属性】
技术研发人员:袁伟柳欢张建伟蔡明王娟艾申彪陈涛
申请(专利权)人:北京创业公社征信服务有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1