一种结合知识发现与文本挖掘的产业信息标引方法和系统技术方案

技术编号:33531812 阅读:171 留言:0更新日期:2022-05-19 02:04
本发明专利技术涉及一种结合知识发现与文本挖掘的产业信息标引方法和系统。该方法的步骤包括:定义基础产业版块分类体系,并赋予基础产业版块分类体系中各个领域的产业版块词汇;通过知识发现对所述基础产业版块分类体系中的各个领域补充新兴产业词汇;将产业信息和企业信息汇总成文本,通过文本挖掘对文本标注分类词,进而将产业信息和企业信息划分到所述基础科技分类体系中,将企业和产业版块进行关联,从而实现产业信息标引。本发明专利技术结合知识发现与文本挖掘实现了产业信息标引,利于进一步实现面向产业链图谱、产业地图绘制等各应用板块所涉及的业务数据的采集、预处理、分析和可视化展示。展示。展示。

【技术实现步骤摘要】
一种结合知识发现与文本挖掘的产业信息标引方法和系统


[0001]本专利技术属于信息
,具体涉及一种结合知识发现与文本挖掘的产业信息标引方法和系统。

技术介绍

[0002]目前,我国加快发展数字经济,推动实体经济和数字经济融合发展,推进互联网技术、产业、应用以及跨界融合发展。我国在大数据、云计算、人工智能、智能芯片等产业版块实施了一系列重大科技研发项目,新兴产业版块如智能网联汽车、无人驾驶、新能源汽车等蓬勃发展,使用一成不变的产业版块分类方法已经不适合这些新兴产业版块。
[0003]产业信息标引是将企业划分到对应的产业分类体系,实现企业和产业版块关联,从而利于实现产业链图谱、产业地图、产业发展评价等。目前,产业信息标引尚没有很好的实现方法。

技术实现思路

[0004]在战略新兴领域蓬勃发展的大背景下,本专利技术提出一种结合知识发现与文本挖掘的产业信息标引方法和系统。
[0005]本专利技术的一种结合知识发现与文本挖掘的产业信息标引方法,其步骤包括:
[0006]定义基础产业版块分类体系,并赋予基础产业本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种结合知识发现与文本挖掘的产业信息标引方法,其特征在于,包括以下步骤:定义基础产业版块分类体系,并赋予基础产业版块分类体系中各个产业版块的搜索词汇;通过知识发现对所述基础产业版块分类体系中的各个产业版块补充新兴产业名称;将产业信息和企业信息汇总成文本,通过文本挖掘对文本标注分类词,进而将产业信息和企业信息划分到所述基础产业版块分类体系中,将企业和产业版块进行关联,从而实现产业信息标引。2.根据权利要求1所述的方法,其特征在于,所述定义基础产业版块分类体系,包括:根据当前科技发展现状人为定义基础产业版块分类体系,包括基础大类,并按照树状结构拓展其它小类,赋予对应的关键词以对每个类别进行简介;所述基础大类包括新能源汽车、智能网联汽车、氢能。3.根据权利要求1所述的方法,其特征在于,所述通过知识发现对基础产业版块分类体系中的各个产业版块补充新兴产业名称,包括:计算论文中所有关键字的增长率;根据产业相关论文发表时间、关键字出现频次和关键字的增长率,筛选新兴产业名称;对筛选出的新兴产业名称进行二次验证,以确定最终的新兴产业名称。4.根据权利要求3所述的方法,其特征在于,所述计算论文中所有关键字的增长率,包括:将一年拆分为若干个时间段,根据论文发表时间,统计每个时间段关键字出现的频次,即有多少篇论文中涉及该关键字,再计算每个关键字相较于上一个半年的增长率,公式为:其中,R
i
为关键字i的增长率,N
m
为关键字i第m个半年的出现频次,N
m
‑1为关键字i第m

1个半年的出现频次。5.根据权利要求3所述的方法,其特征在于,所述根据该产业版块论文发表时间、关键字出现频次和关键字的增长率,筛选新兴产业名称,包括:按照论文发表时间、关键字出现频次和增长率对关键字进行降序排列,排名靠前的关键字作为筛选出的新兴产业名称作为产业专家判断其是否为新兴产业的重要依据。6.根据权利要求3所述的方...

【专利技术属性】
技术研发人员:刘东曹丽霄羌薇孙睿刘爱军杨灵运陈冀华曹琳贾永芳陈冬秦伟林霍瞳殷广丽刘烨孙雪黄本慧金林珠
申请(专利权)人:北京航天智造科技发展有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1