一种面向企业信息的行业全息画像构建方法及系统技术方案

技术编号：14469571 阅读：163 留言：0更新日期：2017-01-21 01:20

本发明专利技术提供了一种面向企业信息的行业全息画像构建方法及系统，属于信息技术领域。本系统包括企业名称抓取模块、企业文本描述信息模块、中文切词模块、词频统计模块、有效词集获取模块、有效行业词集获取模块和企业行业全息画像获取模块。本方法通过网络抓取企业名称，获取每个企业的文本描述信息，对文本描述信息进行切词、剔除常用词，得到有效词集，计算有效词与一级、二级行业国家标准名称的相似度分数，剔除小于阈值的词，对每个企业，根据每类文本描述信息与相似度分数，计算企业所属的一级、二级行业，取对应的有效行业词集作为企业的行业全息画像。本发明专利技术可大规模快速获取企业行业画像信息，有效行业词较人工标注的词更加全面、精准。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及信息
，具体涉及一种面向企业信息的行业全息画像构建方法及系统。
技术介绍
当前，企业各行业分类标准已经制定，但从企业名称本身很难直接获取其所属行业，需要通过搜集企业的额外信息以及行业知识来辅助对企业进行行业画像，通过行业来大范围查询和统计企业数量就显得异常困难。也很难通过一段时间内注册企业行业走向来分析行业发展。目前对企业行业画像，主要是根据企业工商信息、产品信息、网站信息等数据进行人工手动映射分类，这些方法获取数据难度大，准确度低。虽然有不少企业或学者通过企业某一类信息进行一一映射来程序化分类画像，但是目前尚没有利用企业综合信息自动构建企业行业画像的方法。
技术实现思路
本专利技术针对目前人工对企业行业画像难度较大的问题以及缺少对企业综合信息进行自动构建行业画像的问题，提供了一种面向企业信息的行业全息画像构建方法及系统，利用中文语言处理构建企业行业全息画像。本专利技术提供的面向企业信息的行业全息画像构建方法，包括如下步骤：步骤1、通过网络抓取企业名称，提取有效企业列表，剔除个体商户、企业名称为纯英文的企业；步骤2、对有效企业列表中每个企业，获取企业的名称、介绍、知识产权、法律记录、媒体报道、公司年报、产品中的文本描述信息集合；企业文本描述信息集合包括但不限于以上类型。设第i个企业的文本描述信息集合Ei形式化描述为：Ei＝(Ni,Ii,Bi,Li,Mi,Ai,Pi)；其中，Ni为名称，Ii为介绍，Bi为知识产权，Li为法律记录，Mi为媒体报道，Ai为公司年报，Pi为产品；步骤3、对步骤2中提取的企业文本描述信息集合进行中文切词，得到企业文...

【技术保护点】
一种面向企业信息的行业全息画像构建方法，其特征在于，实现步骤如下：步骤1、通过网络抓取企业名称，剔除个体商户、纯英文名称的企业，获取有效企业列表；步骤2、对有效企业列表中每个企业，提取企业文本描述信息集合；企业文本描述信息从如下几类获取：名称、介绍、知识产权、法律记录、媒体报道、公司年报和产品；步骤3、对步骤2提取的企业文本描述信息集合进行中文切词，得到企业文本描述信息包含的所有词集，并对所有词集进行处理，去除干扰词；去除干扰词判定条件为：剔除单字，包括英文和中文单字；剔除非中文词汇；步骤4、对步骤3中得到的词集进行合并统计，获取每个词出现的频次；步骤5、将步骤4中得到的词集中出现频次小于阈值thresholdword的词剔除，然后对词集中剩余的词进行中文文本聚类，剔除常用词，得到有效词集；首先，利用一段时间内全网新闻数据生成中文文本聚类模型，得到包括人名、地名的常用词；然后步骤4得到的词集与得到的常用词进行相似度计算，去除相似度大于阈值thresholdscore的词，得到有效词集；步骤6、计算有效词集中每个词与一级、二级行业国家标准名称的相似度分数，将分数小于阈值threshold...

【技术特征摘要】
1.一种面向企业信息的行业全息画像构建方法，其特征在于，实现步骤如下：步骤1、通过网络抓取企业名称，剔除个体商户、纯英文名称的企业，获取有效企业列表；步骤2、对有效企业列表中每个企业，提取企业文本描述信息集合；企业文本描述信息从如下几类获取：名称、介绍、知识产权、法律记录、媒体报道、公司年报和产品；步骤3、对步骤2提取的企业文本描述信息集合进行中文切词，得到企业文本描述信息包含的所有词集，并对所有词集进行处理，去除干扰词；去除干扰词判定条件为：剔除单字，包括英文和中文单字；剔除非中文词汇；步骤4、对步骤3中得到的词集进行合并统计，获取每个词出现的频次；步骤5、将步骤4中得到的词集中出现频次小于阈值thresholdword的词剔除，然后对词集中剩余的词进行中文文本聚类，剔除常用词，得到有效词集；首先，利用一段时间内全网新闻数据生成中文文本聚类模型，得到包括人名、地名的常用词；然后步骤4得到的词集与得到的常用词进行相似度计算，去除相似度大于阈值thresholdscore的词，得到有效词集；步骤6、计算有效词集中每个词与一级、二级行业国家标准名称的相似度分数，将分数小于阈值thresholdindustry的词剔除，获取有效行业词集，并生成有效行业词集对应的一级、二级行业相似度分数矩阵；步骤7、对每个有效企业构建行业全息画像；对每个有效企业，根据该企业的每一类企业文本描述信息的有效行业词，计算该企业在每个一级行业或每个二级行业的相似度分数，取相似度分数最大的一级行业或二级行业，作为该企业所属的一级行业或二级行业，将该企业所属的一级行业和二级行业对应的有效行业词集合并一起作为该企业的行业全息画像。2.根据权利要求1所述的一种面向企业信息的行业全息画像构建方法，其特征在于，所述的步骤5中设置thresholdword为15，设置thresholdscore为0.5。3.根据权利要求1所述的一种面向企业信息的行业全息画像构建方法，其特征在于，所述的步骤6中，设置thresholdindustry为0.5。4.根据权利要求1或3所述的一种面向企业信息的行业全息画像构建方法，其特征在于，所述的步骤6中，包括：(6a)计算每个有效词与二级行业词的相似度分数，剔除分数小于阈值thresholdindustry的词，得到第一有效行业词集，生成二级行业与每个有效行业词的二级行业相似度分数矩阵；(6b)计算每个有效词与一级行业词的相似度分数，剔除分数小于阈值thresholdindustry的词，得到第二有效行业词集，生成一级行业与每个有效行业词的一级行业相似度分数矩阵。5.根据权利要求1所述的一种面向企业信息的行业全息画像构建方法，其特征在于，所述的步骤7中，为某个有效行业构建行业全息画像，包括以下步骤：7a)计算企业文本描述信息集合中每一类企业文本描述信息在每个二级行业词中相似度分数集合Skj如下：Skj=Σm=1m=NUMks(wkm,dj)/NUMk,1≤j≤K1,k∈(N,I,B,L,M,A,P);]]>其中，k表示某类企业文本描述信息，N、I、B、L、M、A和P分别代表名称、介绍、知识产权、法律记录、媒体报道、公司年报和产品；K1为二级行业个数；NUMk为本企业的k类企业文本描述信息中有效行业词的数量；wkm为本企业的k类企业文本描述信息中的第m个有效行业词，dj为第j个二级行业词，s(wkm，dj)为有效行业词wkm与行业词dj的相似度分数；7b)对获取的Skj进行加权处理，获取企业在每个二级行业的相似度分数Scorej为：Scorej=Σk∈(N,I,B,L,M,A,P)SkjWk,1≤j≤K1;]]>Wk为本企业中k类企业文本描述信息的权重，设置WN＝0.2，WI＝0.2，WB＝0.1，WL＝0.1，WM＝0.1，WA＝0.1，WP＝0.2；7c)取步骤7b中Scorej分数最大的二级行业，为本企业所属的二级行业，获取本企业所属二级行业对应的有效行业词集A；7d)根据步骤7a～7c的计算方法，计算本企业所属的一级行业，并获取本企业所属一级行业对应的有效行业词集B，并与步骤7c中得到的有效行业词集A合并，作为本企业行业全息画像；在计算本企业所属的一级行业时，首先根据步骤7a中公式，计算企业文本描述信息集合中每一类企业文本描述信息在每个一级行业词中相似度分数集合Skj，其中1≤j≤K2，K2为一级行业个数，dj为第j个一级行业词；再根据步骤7b中公式，计算企业在每个一级行业的相似度分数，所设置的权重与步骤7b中相同；最后，取企业在一级行业的相似度分数最大的一级行业，作为本企业所属的一级行业；7e)若企业行业全息画像的有效行业词集中包含的词个数超过5...

【专利技术属性】
技术研发人员：袁伟，柳欢，张建伟，蔡明，王娟，艾申彪，陈涛，
申请(专利权)人：北京创业公社征信服务有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人