【技术实现步骤摘要】
一种基于知识图谱的数据质量提升方法
[0001]本专利技术涉及大数据处理的
,尤其涉及一种基于知识图谱的数据质量提升方法。
技术介绍
[0002]在运用大数据技术进行特征分析挖掘的应用过程中,机器学习方法仍然存在着可解释性差、数据来源单一、用户模式表征完整度低等缺点。而且随着企业服务质量的不断提升,用户行为分析系统对于分析结果的可解释性要求变得越来越高。现有大数据分析技术难以克服上述缺点。随着大数据时代的到来,使得人工智能技术发展迅速,同时也导致人工智能对数据处理和理解的需求增加,知识图谱应用逐渐升温,知识图谱作为“大数据+人工智能”的知识体现形式,在行为刻画完整度和可解释性方面有着天然的优势,能够克服现有方法的不足。在知识应用层面,知识图谱应用于行业应用中,针对其行业数据,即使应对数据量比较集中的情况,其知识图谱的结果也同样具有有效性。知识图谱领域的发展将会持续呈现特色化、开放化、智能化的趋势,为更好发挥现有知识图谱知识表达、知识资源优势,需与其他技术(信息推荐、事理图谱、机器学习、深度学习等)相结合。
[0 ...
【技术保护点】
【技术特征摘要】
1.一种基于知识图谱的数据质量提升方法,其特征在于:包括,对数据库中的建表语句进行预处理,再进行实体抽取和关系抽取;提取所述数据库中的数据仓库加工流程之间的关系自动化建立知识图谱;基于所述知识图谱的关系检索,对数据处理和加工过程进行关联关系映射;在运用异常检测算法的过程中,利用所述知识图谱中的关联关系,为相近数据特征的异常检测提供数据补充,提升大数据的异常值检测效果。2.根据权利要求1所述的基于知识图谱的数据质量提升方法,其特征在于:所述预处理包括,利用正则表达式提取出每个表的建表过程,再依次进行分析;同时使用所述正则表达式删去不必要的注释和语句以免形成干扰;其中,所述正则表达式的规则简要表述为“create table”与“;”之间的语句,提取出单个中间表的生成过程,以便后续进行分析。3.根据权利要求2所述的基于知识图谱的数据质量提升方法,其特征在于:还包括,单独得到每块表的建表语句后,对sql语句进行分析;根据分析结果中存在一定的逻辑关系,提取出其中的字段实体和表实体的从属关系以及原始表和该表的产生关系。4.根据权利要求1或3所述的基于知识图谱的数据质量提升方法,其特征在于:建立所述知识图谱包括,将知识三元组利用图结构的<key,value>的形式进行存储;实体以节点的形式进行存储;实体与实体的关系以节点和节点之间的边的形式进行存储,从而高效地对知识图谱的知识信息进行展示。5.根据权利要求4所述的基于知识图谱的数据质量提升方法,其特征在于:基于所述知识图谱的关系检索包括,根据图数据库的使用效果,采用Neo4j对知识进行存储;所述Neo4j属于NoSQL型数据库,所述Neo4j节点的类别、属性以及边的类别、属性均为分开存储;所述Neo4j还包括完整的事务支持、强大的图形搜索能力和一定的横向扩展能力;所述完整的事务支持表示所述Neo4j要求每个更改数据的动作在一个事务内完成,有利于保证数据的一致性;所述强大的图形搜索能力表示所述Neo4j对当前一系列流行的语言都有能支持的客户端,包括一种特意为图数据库设计的Cypher语言,使得用户可以很方...
【专利技术属性】
技术研发人员:程大伟,孙浩宇,欧阳君桦,刘钦源,张冬冬,王成,
申请(专利权)人:同济大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。