一种软件代码知识图谱构建方法及工具技术

技术编号:32279924 阅读:27 留言:0更新日期:2022-02-12 19:46
本发明专利技术公开了一种软件代码知识图谱构建方法及工具,方法包括:数据源配置;创建配置;选择数据源中的用于形成知识图谱的数据;对代码文件进行标注,初步形成关系和实体标签,对所有关系和实体标签进行校验,从而定义Schema,形成Guideline;标注训练,统一标注的认知;根据Guideline对代码文件进行标注,形成图谱的实体,并对实体进行连接形成实体与实体之间的关系;随机抽样检查代码的正式标注结果;根据代码的正式标注结果进行知识融合,形成最终的软件代码知识图谱。本发明专利技术实现高效、高质量多人协同在线的软件代码文件处理标准定义与校验,以科学的标准化流程,引导高质量软件代码知识图谱生成。软件代码知识图谱生成。软件代码知识图谱生成。

【技术实现步骤摘要】
一种软件代码知识图谱构建方法及工具


[0001]本专利技术涉及计算机编程领域,尤其涉及一种软件代码知识图谱构建方法及工具。

技术介绍

[0002]知识图谱,是通过将应用数学、图形学、信息可视化技术、信息科学等学科的理论与方法与计量学引文分析、共现分析等方法结合,并利用可视化的图谱形象地展示学科的核心结构、发展历史、前沿领域以及整体知识架构达到多学科融合目的的现代理论,能为学科研究提供切实的、有价值的参考。
[0003]智能化软件开发正在经历从简单的代码检索到语义赋能的代码自动生成的转变,传统的语义表达方式无法有效地支撑人、机器和代码之间的语义交互。基于知识图谱的认知智能是突破软件产业发展瓶颈的重大机遇。从2012年谷歌推出知识图谱以来,知识图谱技术发展迅速,产生了日益广泛的社会、经济效益,成为发展人工智能战略的重要内容。知识图谱是一种大规模语义网络,表达了实体/概念及其之间的各种语义关系。知识图谱为机器语言认知提供了丰富的背景知识,使得机器语言认知成为可能,进而使得文本自动化处理、智慧搜索、精准推荐、自然人机交互、深度解释等一系列智能化本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种软件代码知识图谱构建方法,其特征在于,包括以下步骤:数据源配置:配置软件代码文件所在数据源的基本信息,并测试数据源能否正常连接;任务配置:创建任务,填写任务信息并绑定配置好的数据源,再发布任务;数据预处理:选择数据源中的用于形成知识图谱的数据;定义Schema并生成Guideline:对代码文件进行标注,初步形成关系和实体标签,对所有关系和实体标签进行校验,从而定义所述代码属于领域的Schema,形成具有标注指导意义的Guideline;标注训练:随机抽取部分已经筛选过的代码文件,多人根据Guideline对代码文件进行标注,标注完成后验证多人标注的一致性;即多人标注同样的文件,目的是统一标注的认知;正式标注:根据Guideline对代码文件进行标注,形成图谱的实体,并对实体进行连接形成实体与实体之间的关系;标注验收:随机抽样检查代码的正式标注结果;图谱生成:根据代码的正式标注结果进行知识融合,形成最终的软件代码知识图谱。2.根据权利要求1所述的一种软件代码知识图谱构建方法,其特征在于,所述数据预处理具体为:步骤301:在数据库中选择存储所述代码文件的相关表和字段,在文件系统中选择存储代码文件的目录;步骤302:多人定义数据过滤规则,包括定义脏数据处理规则,定义代码语言类型,定义代码文件名过滤;步骤303:对过滤规则进行校验。3.根据权利要求2所述的一种软件代码知识图谱构建方法,其特征在于,所述定义Schema并生成Guideline具体包括:步骤401:根据过滤规则筛选需要标注的代码文件;步骤402:多人对代码文件进行标注,先用反射获取属性、方法和构造函数,再通过在线的方式标注代码中更加细粒度的参数和引用关系,初步形成关系和实体标签;步骤403:校验所有关系和实体标签,定义该代码所属领域的Schema,并整理成相关术语的定义和标注示例,形成具有标注指导意义的Guideline。4.根据权利要求1所述的一种软件代码知识图谱构建方法,其特征在于,所述标注训练具体包括:步骤5...

【专利技术属性】
技术研发人员:张云超王亚强曹亮
申请(专利权)人:成都信息工程大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1