军用软件缺陷多模态知识图谱构建方法、装置及系统制造方法及图纸

技术编号:39064175 阅读:14 留言:0更新日期:2023-10-12 19:57
本发明专利技术公开了一种军用软件缺陷多模态知识图谱构建方法、装置及系统,属于知识图谱构建领域,包括:S1,模式层设计;S2,缺陷知识挖掘:对数据源进行采集、信息抽取和数据预处理;S3,多模态知识图谱构建:在多个数据库中进行数据录入,在图数据库中存储节点间的语义关系,在关系型数据库中存储图数据库节点的多模态信息,构建多模态知识图谱。本发明专利技术构建的数据驱动和知识引导相结合的军用软件缺陷知识图谱,转变了传统的知识管理方式,多方位展示了丰富的语义信息和其他信息的缺陷,解决了军用软件缺陷知识资源碎片化,利用不充分,知识获取成本高和更新困难的问题,为军用软件缺陷百科检索、智能问答、智能预测和智能推荐等应用奠定基础。用奠定基础。用奠定基础。

【技术实现步骤摘要】
军用软件缺陷多模态知识图谱构建方法、装置及系统


[0001]本专利技术涉及知识图谱构建领域,更为具体的,涉及一种军用软件缺陷多模态知识图谱构建方法、装置及系统。

技术介绍

[0002]经过无数前辈多年耕耘,军工行业衍生了越来越多的领域,相关产业也愈加发达,军工测试也越来越复杂。领域知识庞大,系统功能逐年累加,测试数据爆炸增长、典型缺陷库臃肿等问题,使得知识的查找、搜索和学习变得困难。而软件缺陷是软件的固然属性,已经发现的软件缺陷是承载经验教训的知识库,对开发人员和测试人员来说,甚至对需求分析人员、系统设计人员来说都是一笔丰厚的财富。
[0003]军工行业每年都存在因缺陷而产生的经济效益损失和声誉损失,如何减少军用软件缺陷的产生,是军工行业亟需解决的问题。当前军用软件缺陷存在以下问题:
[0004](1)内部测试、联试、试验、用户现场使用发现的缺陷并没有百分百的利用起来,而是湮没在测试报告、联试记录、归零报告、质量案例和外场问题清单等茫茫文档中,使用及其不方便。
[0005](2)军用软件缺陷目前存储方式不统一,比如:以表格方式存储的结构化数据、从信息系统获取的半结构化数据,以及文本格式存储的非结构化数据。
[0006](3)每个缺陷都是孤立存在的,他们之间没有联系,与型号、软件、硬件、设备、元器件、缺陷现象之间完全失联,如同一个个的孤岛,隐藏在文档背后,隐匿在文字深处。
[0007](4)每个软件缺陷除了简单的文字描述外,往往还包含丰富的富文本、图片、文档、音频、视频等多模态信息,除了将缺陷词条实体与其他表述进行语义关联外,如何全面展现军用软件缺陷的相关内容,也是业内重点关注问题之一。

技术实现思路

[0008]本专利技术的目的在于克服现有技术的不足,提供一种军用软件缺陷多模态知识图谱构建方法、装置及系统,解决了军用软件缺陷知识资源碎片化,利用不充分,知识获取成本高和更新困难等问题。
[0009]本专利技术的目的是通过以下方案实现的:
[0010]一种军用软件缺陷多模态知识图谱构建方法,包括以下步骤:
[0011]S1,模式层设计;
[0012]S2,缺陷知识挖掘:对数据源进行采集、信息抽取和数据预处理;
[0013]S3,多模态知识图谱构建:在多个数据库中进行数据录入,在图数据库中存储节点间的语义关系,在关系型数据库中存储图数据库节点的多模态信息,构建多模态知识图谱。
[0014]进一步地,在步骤S1中,所述模式层设计采用自顶而下的模式层设计方式,先通过领域专家等行业专业人员自行建立顶层模式层,然后将数据层的表述概念添加到已经定义好的模式层中,以此来保证模式体系的准确性;且所述模式层设计采用层级分类,确定系统
标签种类、关系集合、标签节点集合。
[0015]进一步地,在步骤S2中,所述对数据源进行采集、信息抽取和数据预处理,具体包括子步骤:
[0016]S21,数据源采集;
[0017]S22,信息抽取;
[0018]S23,数据预处理:包含数据清洗和知识融合,其中数据清洗用于将不符合要求的数据进行剔除;知识融合步骤通过不同来源数据之间的知识融合,利用实体对齐、实体消歧和重复知识合并实现知识图谱之间的链接与合并。
[0019]进一步地,在步骤S3中,所述在图数据库中存储节点间的语义关系,具体包括:在Neo4J图数据库中存储词条对应的语义关系,在SQL数据库中存储词条的多模态信息,两者通过词条的ID相连。
[0020]进一步地,在步骤S3之后,还包括知识更新步骤,具体包括:
[0021]针对内容增加问题,引入“新增词条”功能,用户通过新建词条,创建词条名、词条分类、词条内容、词条对应的语义关系内容;
[0022]记录用户输入的搜索问题,根据更新周期,将记录的所有用户搜索的所有问题,利用人工提取三元组,动态更新图数据库内容;具有提问者和问题之间的关系,为推荐词条功能提供大数据支持;
[0023]针对内容优化问题,引入“词条版本管理”功能,包含词条每个版本的更改人、更改内容的词条操作记录,管理员能够选择某个版本作为词条的内容;引入“词条管理”功能,包含词条内容的管理和词条信息;
[0024]针对词条消亡问题,引入“删除词条”功能,设置管理员有操作权限。
[0025]进一步地,在步骤S21中,所述数据源包括领域专家提供的准确行业数据体系或文档、用户行为日志、用户新增数据、典型缺陷集、归零报告、质量案例、软件测试信息系统数据和外场问题;其中,领域专家提供的准确行业数据体系或文档、用户行为日志、用户新增数据、典型缺陷集、归零报告、质量案例均是非结构化数据,软件测试信息系统数据是半结构化数据,外场问题是结构化数据。
[0026]进一步地,在步骤S22中,针对结构化数据,保证三元组格式无误即存入知识图谱;针对半结构化数据,使用包装器转化为三元组形式后存入知识图谱;针对非结构化数据,处理过程具体包括如下子步骤:
[0027]根据文本信息描述,依照顶层模式层的设计,人工抽取和高阶语义模型相结合来提取三元组关系,即使用文本预训练模型BERT模型作为文本编码器,结合Bi

LSTM双向长短时记忆网络和CRF条件随机场,形成Bert+Li

LSTM+CRF语义模型,对非结构化的词条文本进行三元组关系识别,在训练数据构造上,直接使用人工标注的训练集对模型进行训练,运用Doccano工具给表述打标签;
[0028]使用表述标记方法,经过BERT建模之后,输入文本信息,在实体的开始位置和结束位置分别插入特殊的标志符号,采用BIO三位标记法:将每个元素标注为“B

X”、“I

X”或者“O”;其中,B

X表示此元素所在的片段属于X类型并且此元素在此片段的开头,I

X表示此元素所在的片段属于X类型并且此元素在此片段的中间位置,O表示不属于任何类型,来判断文本所属类别。
[0029]进一步地,在步骤S23中,对于结构化数据和半结构化数据,在进行数据预处理后,直接按照模式层设计和概念知识图谱理论,提取所需三元组;对于非结构化数据,则先通过构建的Bert+Li

LSTM+CRF语义模型,对文本信息进行三元组关系提取,加入人工优化步骤,再做数据预处理并按照模式层设计理念和概念知识图谱理论进行三元组的提取。
[0030]一种军用软件缺陷多模态知识图谱构建装置,该装置包括处理器和存储器,所述存储器中存储有计算机程序,当所述计算机程序被所述处理器加载时并执行如上任一项所述的方法。
[0031]一种军用软件缺陷多模态知识图谱构建系统,该系统包括如上所述的装置。
[0032]本专利技术的有益效果包括:
[0033]利用本专利技术方案构建的数据驱动和知识引导相结合的军用软件缺陷知识图谱,转变了传统的知识管理方式,多方位展示了丰富本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种军用软件缺陷多模态知识图谱构建方法,其特征在于,包括以下步骤:S1,模式层设计;S2,缺陷知识挖掘:对数据源进行采集、信息抽取和数据预处理;S3,多模态知识图谱构建:在多个数据库中进行数据录入,在图数据库中存储节点间的语义关系,在关系型数据库中存储图数据库节点的多模态信息,构建多模态知识图谱。2.根据权利要求1所述的军用软件缺陷多模态知识图谱构建方法,其特征在于,在步骤S1中,所述模式层设计采用自顶而下的模式层设计方式,先通过领域专家等行业专业人员自行建立顶层模式层,然后将数据层的表述概念添加到已经定义好的模式层中,以此来保证模式体系的准确性;且所述模式层设计采用层级分类,确定系统标签种类、关系集合、标签节点集合。3.根据权利要求1所述的军用软件缺陷多模态知识图谱构建方法,其特征在于,在步骤S2中,所述对数据源进行采集、信息抽取和数据预处理,具体包括子步骤:S21,数据源采集;S22,信息抽取;S23,数据预处理:包含数据清洗和知识融合,其中数据清洗用于将不符合要求的数据进行剔除;知识融合步骤通过不同来源数据之间的知识融合,利用实体对齐、实体消歧和重复知识合并实现知识图谱之间的链接与合并。4.根据权利要求1所述的军用软件缺陷多模态知识图谱构建方法,其特征在于,在步骤S3中,所述在图数据库中存储节点间的语义关系,具体包括:在Neo4J图数据库中存储词条对应的语义关系,在SQL数据库中存储词条的多模态信息,两者通过词条的ID相连。5.根据权利要求1所述的军用软件缺陷多模态知识图谱构建方法,其特征在于,在步骤S3之后,还包括知识更新步骤,具体包括:针对内容增加问题,引入“新增词条”功能,用户通过新建词条,创建词条名、词条分类、词条内容、词条对应的语义关系内容;记录用户输入的搜索问题,根据更新周期,将记录的所有用户搜索的所有问题,利用人工提取三元组,动态更新图数据库内容;具有提问者和问题之间的关系,为推荐词条功能提供大数据支持;针对内容优化问题,引入“词条版本管理”功能,包含词条每个版本的更改人、更改内容的词条操作记录,管理员能够选择某个版本作为词条的内容;引入“词条管理”功能,包含词条内容的管理和词条信息;针对词条消亡问题,引入“删除词条”功能,设置管理员有操作权限。6.根据权利要求3所述的军用软件缺陷多模态知识图谱构建方法,其特征在于,在步骤S21中,所述数据源包括领域专家提供的准确行业数据体系或文档、用户行为日志、用户新增数据、典型缺陷集、...

【专利技术属性】
技术研发人员:邓佳棋王月波李继秀蒲卿路杨旭杜刚李振王郑力
申请(专利权)人:中国电子科技集团公司第十研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1