The invention discloses an information processing method includes determining a first industry classification code accords with the preset industry classification code from the default enterprise; the default industry classification code representation for three industry industry; industry classification code based on the preset characterized industry corresponding industry documentation, three new generation enterprise key words the material base; the first enterprise business scope and corresponding document corpus for keyword matching, and selected second enterprises; business related document crawling second corresponding to the enterprise, and will climb business documents and access to the corpus similarity calculation; business related documents will reach the preset similarity of second enterprises identified as new enterprises. The invention also discloses an information processing system. The invention can accurately from the presupposition in enterprises selected to meet the requirements of the new enterprise.
【技术实现步骤摘要】
一种信息处理方法和系统
本专利技术涉及一种信息方法和系统,具体涉及一种识别三新企业的方法和系统。
技术介绍
随着我国经济的快速发展,新的企业及经济活动不断出现。企业作为社会经济中最重要的活动主体,在经济中扮演着重要的角色,对于企业信息的整理和分析有助于帮助相关决策者了解该企业的经营状况,发现潜在经营风险。例如,最近新出现且备受党中央、国务院关注的三新企业(包括新产业、新业态、新商业模式的企业),相关人员需要对这类企业的经济活动发展规模、结构和质量等进行统计观察,以便实时了解这类企业的发展规模、结构和质量,为未来决策提供参考依据。而进行统计观察的关键点是需要准确知晓考察的众多企业中那些企业属于三新企业。这就需要对三新企业进行准确筛选,以筛选出符合要求的三新企业。然而,目前并不存在准确筛选三新企业的方案。。
技术实现思路
本专利技术的实例要解决的技术问题是提供一种能够省时省力且准确筛选三新企业的方案。本专利技术一方面提供一种信息处理方法,用于准确有效地筛选三新企业,该方法包括:从预设企业中确定行业分类代码符合预设行业分类代码的第一企业;其中,所述预设行业分类代码所表征行业 ...
【技术保护点】
一种信息处理方法,其特征在于,包括:从预设企业中确定行业分类代码符合预设行业分类代码的第一企业;其中,所述预设行业分类代码所表征行业为三新企业所属行业;基于所述预设行业分类代码所表征行业对应的行业说明文档,生成三新企业关键词语料库;将所述第一企业对应的经营范围介绍文档与所述语料库进行关键字匹配,筛选出第二企业;爬取所述第二企业对应的业务相关文档,并将爬取到的业务相关文档与所述语料库进行相似度计算;将达到预设相似度的业务相关文档所属第二企业确定为三新企业。
【技术特征摘要】
1.一种信息处理方法,其特征在于,包括:从预设企业中确定行业分类代码符合预设行业分类代码的第一企业;其中,所述预设行业分类代码所表征行业为三新企业所属行业;基于所述预设行业分类代码所表征行业对应的行业说明文档,生成三新企业关键词语料库;将所述第一企业对应的经营范围介绍文档与所述语料库进行关键字匹配,筛选出第二企业;爬取所述第二企业对应的业务相关文档,并将爬取到的业务相关文档与所述语料库进行相似度计算;将达到预设相似度的业务相关文档所属第二企业确定为三新企业。2.根据权利要求1所述的方法,其特征在于,所述业务相关文档包括如下一种或多种文档的全文或者片段:相关产品介绍、相关产品使用说明、软件著作、商标、专利。3.根据权利要求1或2所述的方法,其特征在于,基于所述预设行业分类代码所表征行业对应的行业说明文档,生成三新企业关键词语料库,具体包括:针对所述预设行业分类代码中每类行业代码对应的行业说明文档,将该行业说明文档拆分成单个词;针对拆分得到的每个词,确定该词的词频;采用预设算法基于确定的词频提取关键词,生成三新企业关键词语料库。4.根据权利要求1或2所述的方法,其特征在于,将爬取到的业务相关文档与所述语料库进行相似度计算,具体包括:针对爬取到的每篇业务相关文档,将该业务相关文档拆分成单个词;针对拆分得到的每个词,确定该词的词频;将由该业务相关文档拆分得到的词以及对应的词频,分别与由所述预设行业分类代码中每类行业代码对应行业说明文档拆分得到的词以及对应的词频进行相似度计算。5.根据权利要求4所述的方法,其特征在于,将达到预设相似度的业务相关文档所属第二企业确定为三新企业,具体包括:若存在至少一类行业代码,使该业务相关文档与该类行业代码对应行业说明文档相似度达到预设相似度,则将该业务相关文档所属第二企业确定为三新企业。6.一种信息处理系统,其特征在于,包括:第一处理单元,用于从预设企业中确定...
【专利技术属性】
技术研发人员:夏耘海,张斌德,王江,
申请(专利权)人:国信优易数据有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。