数据预处理方法、装置、设备及介质制造方法及图纸

技术编号:23084947 阅读:38 留言:0更新日期:2020-01-11 01:06
本发明专利技术提供一种数据预处理方法、装置、设备及介质,该方法包括:获取用户需求;在知识网络库内匹配与所述用户需求相适应的知识网络;如果匹配到与该用户需求相适应的知识网络时,则按照所述知识网络对数据源分类组合,在数据预处理过程中建立数据之间知识点相互关联的数据集;如果无法匹配到该用户需求相适应的知识网络时,则按所述用户需求预处理相关数据。在数据预处理阶段,结合与用户需求相适应的知识网络,对数据源分类组合,在数据预处理过程中建立数据之间知识点相互关联的数据集,而不是在每次有需求时,耗费大量时间重复过滤无用数据,简化了计算过程,本发明专利技术提高了数据预处理的效率,并降低了数据预处理的操作成本。

Data preprocessing methods, devices, equipment and media

【技术实现步骤摘要】
数据预处理方法、装置、设备及介质
本专利技术涉及数据处理
,特别是涉及一种数据预处理方法、装置、设备及介质。
技术介绍
随着计算机、互联网和物联网等技术在各个领域的大规模应用,产生的数据量也随之增多。由于数据源产生的数据类型多样,格式不一,因此,在处理数据之前,要先对数据进行预处理。然而,现有的预处理方式,为了抽取合适的数据,需要重复过滤大量的无用数据,造成数据平台反应速度过慢,导致数据预处理的过程操作耗时,效率低,操作成本高。
技术实现思路
鉴于以上所述现有技术的缺点,本专利技术的目的在于提供数据预处理方法、装置、设备及介质,用于解决传统数据预处理方式,对数据预处理的过程操作耗时,效率低,操作成本高的问题。为实现上述目的及其他相关目的,本专利技术提供一种数据预处理方法,包括:获取用户需求;在知识网络库内匹配与所述用户需求相适应的知识网络;如果匹配到与该用户需求相适应的知识网络时,则按照所述知识网络对数据源分类组合,在数据预处理过程中建立数据之间知识点相互关联的数据集;如果无法匹本文档来自技高网...

【技术保护点】
1.一种数据预处理方法,其特征在于,/n获取用户需求;/n在知识网络库内匹配与所述用户需求相适应的知识网络;/n如果匹配到与该用户需求相适应的知识网络时,则按照所述知识网络对数据源分类组合,在数据预处理过程中建立数据之间知识点相互关联的数据集;/n如果无法匹配到该用户需求相适应的知识网络时,则按所述用户需求预处理相关数据。/n

【技术特征摘要】
1.一种数据预处理方法,其特征在于,
获取用户需求;
在知识网络库内匹配与所述用户需求相适应的知识网络;
如果匹配到与该用户需求相适应的知识网络时,则按照所述知识网络对数据源分类组合,在数据预处理过程中建立数据之间知识点相互关联的数据集;
如果无法匹配到该用户需求相适应的知识网络时,则按所述用户需求预处理相关数据。


2.根据权利要求1所述的数据预处理方法,其特征在于,所述知识网络的形成包括:
利用所述数据源进行业务逻辑运算形成知识点;所述知识点根据推理学习形成行业的知识网络。


3.根据权利要求1所述的数据预处理方法,其特征在于,所述在数据库内匹配与所述用户需求相适应的知识网络的步骤,包括:
确定所述用户需求的主题;按照所述用户需求的主题在数据库匹配与其相适应的知识网络。


4.根据权利要求3所述的数据预处理方法,其特征在于,所述主题包括:标题长度、标题内容的敏感度、知识点标题与扩展标题之间的语义相似度中的至少一种。


5.根据权利要求1所述的数据预处理方法,其特征在于,所述如果匹配到与该用户需求相适应的知识网络时,则按照所述知识网络对数据源分类组合,在数据预处理过程中建立数据之间知识点相互关联的数据集的步骤,包括:
如果匹配到与所述用户需求相适应的知识网络时,按照所述知识网络中知识点的性质属性对数据源分类,利用ETL技术将数据按照知识点互相关联方式封装到目标结构中形成知识点之间相关联数据集。


6.根据权利要求5所述的数据处理方法,其特征在于,所述知识点互相关联方式包括父子关系、前导关系、后续关系、平行关系中的至少一种。


7.一种数据预处理装置,其特征在于,
获取模块,用于获取用户需求;
匹配模块,用于在知识网络库内匹配与所述用户需求相适应的知识网络...

【专利技术属性】
技术研发人员:周曦姚志强刘志兵
申请(专利权)人:上海云从企业发展有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1