一种企业级审计知识图谱构建方法技术

技术编号:33191907 阅读:32 留言:0更新日期:2022-04-24 00:19
本发明专利技术提供了一种企业级审计知识图谱构建方法、系统及装置,系统包括:数据采集及预处理模块,用于采集多源异构数据,并对数据进行预处理,从而形成结构化审计数据;抽取模块,用于对所述结构化审计数据进行抽取,确定结构化审计数据中的基础实体、属性和关系,构建审计领域显性网络;显性网络建立模块,用于对所述基础实体、属性、关系,通过知识融合,获得不同来源的审计数据与审计数据模式之间的映射关系,从而完善审计领域显性网络;存储模块,用于对审计数据进行存储;隐性关系挖掘模块,用于获取审计数据的隐性关系,建立审计知识图谱。本方案可为各类数字化审计平台提供服务,其高度可成长性可为审计工作提供长期、灵活、可适应的支撑。应的支撑。应的支撑。

【技术实现步骤摘要】
一种企业级审计知识图谱构建方法


[0001]本专利技术涉及数据处理及数据图形化领域,尤其涉及一种针对企业级的审计知识数据的知识图谱构建方法、系统及其装置。

技术介绍

[0002]知识图谱可以将信息表达成更接近人类认知的形式,具有组织、管理和理解海量信息的能力。知识图谱作为重要的数据管理基础设施(Infrastructure),能够提供智能化数据资源处理及使用服务,当前已广泛应用于信息检索/搜索、自然语言理解、问答系统、推荐系统、教育医疗等领域。
[0003]在信息的检索中,基于知识图谱的搜索引擎能够将搜索结果体系化、关联化和可视化,任何一个搜索请求都能得到一个知识体系,不再只是线性的网址列表,而是网状知识结点,能够帮助用户挖掘未知的信息。在数据信息的关系表达和查询中,例如在文献数据的分析中,基于知识图谱的文献计量分析可以展示国家/机构/科学家的合作关系可视化研究团队,梳理研究发展脉络,辅助文献调研与综述等,帮助发现研究趋势、最有影响力的作者/研究机构/期刊等,辅助挑选导师、出国学校与投稿期刊。基于知识图谱的问答系统将问答问题简化为句法解析问题,在知识图谱的语义感知与理解的基础上,实现自然语言理解,结合节点遍历与计算等图算法,打造具有领域知识的“大脑”,同时通过开放API接口,能够满足不同用户的各类场景需求,提供完善的知识问答服务。
[0004]综上所述,知识图谱通过将信息表达成更接近人类认知的形式,提供一种更好地组织、管理和理解海量信息的能力。通过关联不同来源及领域的信息形成知识网络,提供从“关系”的角度去分析问题的能力,可以显著提升数据资源整合与利用水平。已有知识图谱的应用,通过基于各类数据构建知识图谱,并提供可视化与API服务,能够展示、推广及服务于不同场景、不同需求的用户,提供成熟的知识服务。
[0005]但是,在审计领域,知识图谱的应用目前还非常少,处在一个探索的阶段。随着审计监督职能的扩大和审计全覆盖的要求,企业审计信息化水平逐渐提高,审计知识及数据多源异构现象加大,存在数据冗余、关联度差、数据资源共享及跨专业复用效率较低等问题。同时,由于不同系统的应用程序和底层数据库不一致,不同行业审计信息系统数据互不连通,无法支撑大数据审计需求。因此,迫切需要研究基于大数据技术的知识图谱实现审计数据的融合,挖掘数据背后隐藏的线索。

技术实现思路

[0006]有鉴于此,本专利技术提供一种企业级审计知识图谱构建方法、系统及装置,具体而言,本专利技术具体提供了如下技术方案:
[0007]一方面,本专利技术提供了一种企业级审计知识图谱构建方法,所述方法包括:
[0008]S1、采集多源异构数据,并对数据进行预处理,从而形成结构化审计数据;所述多源异构数据至少包括数字化审计平台数据、基于关键词的高质量审计数据;所述预处理包
括数据清洗、数据标准化、数据映射;
[0009]S2、对所述结构化审计数据进行抽取,确定结构化审计数据中的基础实体、属性和关系,构建审计领域显性网络;所述抽取包括实体识别、关系抽取及属性抽取,所述基础实体包括人名、组织机构名、地名、度量单位、日期;所述关系包括审计与被审计关系、上下游关系、关联担保关系;所述属性包括地理位置、创立日期、所在地区;
[0010]S3、对S2中获取的所述基础实体、属性、关系,通过知识融合,获得不同来源的审计数据与审计数据模式之间的映射关系,从而完善审计领域显性网络;并在此基础上,基于知识数据的一致性、冗余度、权威度,结合新的审计数据,验证审计领域显性网络;
[0011]S4、针对S3中获得的审计领域显性网络,对审计数据进行存储,所述存储方式为实体-关系-实体、实体-属性-属性值方式;
[0012]S5、基于S3中获取的完善后的审计领域显性网络,通过知识推理及关系挖掘,获取审计数据的隐性关系,基于所述隐性关系及S3中获取的完善后的审计领域显性网络,通过可视化方法,建立审计知识图谱。
[0013]优选的,所述S5还包括,基于新获取的审计数据,通过步骤S1至S4,对审计知识图谱进行动态更新。
[0014]优选的,所述S1中的多源异构数据包括:电力行业、国家电网及具体公司相关的法律法规、行业规定、通用制度信息数据;作业域相关审计模型信息;历史审计成果数据信息;审计关键词数据。
[0015]优选的,所述S3中,验证审计领域显性网络时,当引入审计新知识数据时,判断新知识数据是否与已有知识一致,如果新知识数据与已有知识发生冲突,判断新知识的正确性,如果新知识数据正确,则进行相关实体和关系的更新。
[0016]优选的,所述S5中还包括:基于检索标准Restful API服务,建立审计知识图谱的检索服务,并建立统一API接口。
[0017]此外,本专利技术还提供了一种企业级审计知识图谱构建系统,该系统包括:
[0018]数据采集及预处理模块,用于采集多源异构数据,并对数据进行预处理,从而形成结构化审计数据;所述多源异构数据至少包括数字化审计平台数据、基于关键词的高质量审计数据;所述预处理包括数据清洗、数据标准化、数据映射;
[0019]抽取模块,用于对所述结构化审计数据进行抽取,确定结构化审计数据中的基础实体、属性和关系,构建审计领域显性网络;所述抽取包括实体识别、关系抽取及属性抽取,所述基础实体包括人名、组织机构名、地名、度量单位、日期;所述关系包括审计与被审计关系、上下游关系、关联担保关系;所述属性包括地理位置、创立日期、所在地区;
[0020]显性网络建立模块,用于对所述基础实体、属性、关系,通过知识融合,获得不同来源的审计数据与审计数据模式之间的映射关系,从而完善审计领域显性网络;并在此基础上,基于知识数据的一致性、冗余度、权威度,结合新的审计数据,验证审计领域显性网络;
[0021]存储模块,用于对审计数据进行存储,所述存储方式为实体-关系-实体、实体-属性-属性值方式;
[0022]隐性关系挖掘模块,用于基于完善后的审计领域显性网络,通过知识推理及关系挖掘,获取审计数据的隐性关系,基于所述隐性关系及完善后的审计领域显性网络,通过可视化方法,建立审计知识图谱。
[0023]优选的,所述多源异构数据包括:电力行业、国家电网及具体公司相关的法律法规、行业规定、通用制度信息数据;作业域相关审计模型信息;历史审计成果数据信息;审计关键词数据。
[0024]优选的,所述显性网络建立模块验证审计领域显性网络时,当引入审计新知识数据时,判断新知识数据是否与已有知识一致,如果新知识数据与已有知识发生冲突,判断新知识的正确性,如果新知识数据正确,则进行相关实体和关系的更新。
[0025]优选的,所述系统还包括:检索模块,基于检索标准Restful API服务,建立审计知识图谱的检索服务,并建立统一API接口。
[0026]另外,本专利技术还提供了一种企业级审计知识图谱构建装置,所述装置包括:
[0027]处理器;以及,
[0028]存储器,在本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种企业级审计知识图谱构建方法,其特征在于,所述方法包括:S1、采集多源异构数据,并对数据进行预处理,从而形成结构化审计数据;所述多源异构数据至少包括数字化审计平台数据、基于关键词的高质量审计数据;所述预处理包括数据清洗、数据标准化、数据映射;S2、对所述结构化审计数据进行抽取,确定结构化审计数据中的基础实体、属性和关系,构建审计领域显性网络;所述抽取包括实体识别、关系抽取及属性抽取,所述基础实体包括人名、组织机构名、地名、度量单位、日期;所述关系包括审计与被审计关系、上下游关系、关联担保关系;所述属性包括地理位置、创立日期、所在地区;S3、对S2中获取的所述基础实体、属性、关系,通过知识融合,获得不同来源的审计数据与审计数据模式之间的映射关系,从而完善审计领域显性网络;并在此基础上,基于知识数据的一致性、冗余度、权威度,结合新的审计数据,验证审计领域显性网络;S4、针对S3中获得的审计领域显性网络,对审计数据进行存储,所述存储方式为实体-关系-实体、实体-属性-属性值方式;S5、基于S3中获取的完善后的审计领域显性网络,通过知识推理及关系挖掘,获取审计数据的隐性关系,基于所述隐性关系及S3中获取的完善后的审计领域显性网络,通过可视化方法,建立审计知识图谱。2.根据权利要求1所述的方法,其特征在于,所述S5还包括,基于新获取的审计数据,通过步骤S1至S4,对审计知识图谱进行动态更新。3.根据权利要求1所述的方法,其特征在于,所述S1中的多源异构数据包括:电力行业、国家电网及具体公司相关的法律法规、行业规定、通用制度信息数据;作业域相关审计模型信息;历史审计成果数据信息;审计关键词数据。4.根据权利要求1所述的方法,其特征在于,所述S3中,验证审计领域显性网络时,当引入审计新知识数据时,判断新知识数据是否与已有知识一致,如果新知识数据与已有知识发生冲突,判断新知识的正确性,如果新知识数据正确,则进行相关实体和关系的更新。5.根据权利要求1所述的方法,其特征在于,所述S5中还包括:基于检索标准Restful API服务,建立审计知识图谱的检索服务,并建立统一API接口。6.一种企业级审计知识图谱构建系统,其特征在于,所述...

【专利技术属性】
技术研发人员:张莉王磊王宁宁邢春玉
申请(专利权)人:北京信息科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1