【技术实现步骤摘要】
一种基于知识产权大数据的情报调查方法、系统和存储介质
本专利技术属于互联网
,尤其是涉及一种基于知识产权大数据的情报调查方法、系统和存储介质。
技术介绍
在当前信息化的时代,每天产生巨量的信息数据,对于企业而言,拥有的数据维度极为丰富,工商数据、人员数据、经营数据、科技创新数据等等,如何从纷繁复杂的数据中梳理出有价值的信息,从而真实准确刻画企业画像,洞察企业的科技创新实力,识别企业的投资价值,需要耗费大量的人力物力。传统的投资人在筛选项目时,大部分靠人工,一年只能看200个项目,而经过复杂的评估计算后,最终确定的项目可能只有少数几个,效率极低。在互联网得到普及应用的情况下,大数据时代已经正式到来。“大数据”也被称为巨量资料,它指网上图像、文本、音频和视频等数据所涉及的资料总体量规模巨大,无法用目前的常用普通软件等处理工具在合理时间内进行处理,也无法整理成为对用户有价值的资讯。也就是说,大数据具有四个特征,体量巨大、信息密度低、数据类型多、要求的处理速度快。大数据时代,信息呈爆炸式增长,目前,互联网上的数据每年都 ...
【技术保护点】
1.一种基于知识产权大数据的情报调查方法,包括以下步骤:/nS1、数据获取步骤:获取多元多样化的数据信息,其中多元多样化的数据信息包括结构化文本、非结构化文本、其他数据信息;/nS2、数据处理步骤:包括数据清洗,数据分类,添加标签;/nS3、实体关系挖掘步骤:从多元多样化的数据信息中挖掘出实体关系;/nS4、情报信息存储步骤:将挖掘出的实体关系存储在存储器中形成情报数据库;其中,/n在数据获取步骤中,所述多元多样化的数据信息包括知识产权数据信息、工商注册企业数据信息、企业投资和融资数据;/n在实体关系挖掘步骤中,利用语义序列核函数对训练数据样本空间中每个样本X进行计算,计算 ...
【技术特征摘要】
1.一种基于知识产权大数据的情报调查方法,包括以下步骤:
S1、数据获取步骤:获取多元多样化的数据信息,其中多元多样化的数据信息包括结构化文本、非结构化文本、其他数据信息;
S2、数据处理步骤:包括数据清洗,数据分类,添加标签;
S3、实体关系挖掘步骤:从多元多样化的数据信息中挖掘出实体关系;
S4、情报信息存储步骤:将挖掘出的实体关系存储在存储器中形成情报数据库;其中,
在数据获取步骤中,所述多元多样化的数据信息包括知识产权数据信息、工商注册企业数据信息、企业投资和融资数据;
在实体关系挖掘步骤中,利用语义序列核函数对训练数据样本空间中每个样本X进行计算,计算X与训练数据样本空间中的其他样本的相似度s,其中s为0~1之间的实数;并利用层次聚类方法,将训练数据样本空间进行聚类,并采用平均相似度进行簇间度量,度量公式为:
式中,li、lj代表训练样本空间中的子簇,ni、nj分别代表第i个和第j个样本,p、p’代表各簇中的样本;
在聚类过程中,限定簇间相似度满足终止阈值:
其中终止阈值ε设置为0.9~1。
2.根据权利要求1所述的方法,在步骤S1中,将购买自第三方的数据信息直接录入数据库,或者利用java程序或Sqoop工具将结构化的Excel数据表,或者利用解析工具将xml文件根据预定规则解析后提取到数据库中;来自网页上的非结构化数据通过网络蜘蛛技术抓取并将获取的页面信息存入数据库中。
3.根据权利要求1所述的方法,在步骤S2中,数据处理步骤包括数据清洗预加工,数据分类聚类以及对关键词添加标签的步骤。
4.根据权利要求3所述的方法,在所述数据清洗预加工步骤中,数据清洗过程包括“重复数据清洗”、“缺失数据填充”和“纠正或删除错误数据”三个部分。
5.根据权利要求3所述的方法,在所述数据分类聚类步骤中,完成切词的分类聚类处理后,对所提取的关键词添加标签,并将其作为模型分析的...
【专利技术属性】
技术研发人员:耿德强,武伟,刘洋,李杨,
申请(专利权)人:杭州六棱镜知识产权科技有限公司,
类型:发明
国别省市:浙江;33
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。