【技术实现步骤摘要】
一种图数据合成方法、装置、计算机设备和存储介质
本申请涉及数据合成
,特别是涉及一种图数据合成方法、装置、计算机设备和存储介质。
技术介绍
合成数据是指通过程序自动生成而非实际采集的数据。在隐私、安全、保密、数据采集成本等因素导致真实数据缺乏时,合成数据被广泛应用于机器学习训练、模型测试、仿真实验等方面。图数据是一种采用节点和边的结构表示的数据,被广泛应用于语义Web、社交网络、复杂网络、基因交互、分子交互等领域。受隐私、安全、保密、数据采集成本等因素制约,机器学习训练、模型测试、仿真实验等无法获得真实图数据作为输入时,要获得高质量的输出结果,需要依赖于数据合成技术生成的高质量合成图数据及其负例,特别是与领域的知识体系保持一致的合成图数据,以及合成图数据的真负例。现有图数据合成和负例生成的研究方面已经取得一定的成果。文献公开了:一种基于本体中所定义的模式,生成类的实例及实例之间关系的工具TOntoGen;一种可用于不同词汇集的合成链接数据(一种图数据)生成器LinkGen。TOntoGen和LinkGen均缺乏对生成数据与本体知识体系保持一致性的控制手段,所得到的合成图数据与模式存在冲突,且不区分真正例和真负例,因此,不能保障数据质量,难以适用于机器学习训练和仿真实验。文献还公开了:一种合成资源描述框架(RDF,ResourceDescriptionFramework)数据的生成器BGen;一种基于种群分布生成公共交通RDF数据的方法。上述两种方法中,参数约束和分布都蕴含着领域知识,可以控制合成图数据与 ...
【技术保护点】
1.一种图数据合成方法,其特征在于,所述方法包括:/n获取预设领域中的知识体系;/n根据所述预设领域中的知识体系,使用本体编程工具表示预设领域中类、关系和属性,获得预设领域中类表示、关系表示和属性表示;/n获得描述所述类表示以及类表示与类表示之间联系的公理集和描述所述关系表示与关系表示之间联系的规则集,将所述公理集和所述规则集合并得到本体公理集;/n根据所述本体公理集生成实例,以及根据所述本体公理集确定所述实例的扩展断言集、所述实例的属性断言和所述实例之间的关系断言,根据所述扩展断言集、所述属性断言以及所述关系断言,得到本体断言集;/n根据本体推理机对所述公理集与所述本体断言集的并集进行一致性检测,获得一致性检测结果;/n根据所述一致性检测结果和所述规则集,获得合成图数据。/n
【技术特征摘要】 【专利技术属性】
1.一种图数据合成方法,其特征在于,所述方法包括:
获取预设领域中的知识体系;
根据所述预设领域中的知识体系,使用本体编程工具表示预设领域中类、关系和属性,获得预设领域中类表示、关系表示和属性表示;
获得描述所述类表示以及类表示与类表示之间联系的公理集和描述所述关系表示与关系表示之间联系的规则集,将所述公理集和所述规则集合并得到本体公理集;
根据所述本体公理集生成实例,以及根据所述本体公理集确定所述实例的扩展断言集、所述实例的属性断言和所述实例之间的关系断言,根据所述扩展断言集、所述属性断言以及所述关系断言,得到本体断言集;
根据本体推理机对所述公理集与所述本体断言集的并集进行一致性检测,获得一致性检测结果;
根据所述一致性检测结果和所述规则集,获得合成图数据。
2.根据权利要求1所述的方法,其特征在于,根据所述预设领域中的知识体系,在本体开发工具中,使用本体编程语言表示预设领域中类、关系和属性,获得预设领域中类表示、关系表示和属性表示,包括:
从所述知识体系的数据模式中提取类概念,使用所述本体编程工具表示预设领域的知识体系中描述的所述类概念类之间的父类-子类关系,获得分类体系表示;
从所述知识体系的数据模式中提取关系概念,根据预设领域的知识体系对所述关系概念的定义域和值域的描述,使用所述本体编程工具获得关系表示;
从所述知识体系的数据模式中提取属性概念,根据预设领域的知识体系对所述属性概念的定义域和值域的描述,使用本体编程工具获得属性表示;
在所述本体编程工具中创建数据保留属性,根据所述数据保留属性得到数据保留属性表示;所述数据保留属性的定义域为所述本体编程工具自动生成的顶层类,值域为不小于1的整数型数据范围;
根据预设领域的知识体系以及所述数据保留属性,使用所述本体编程工具对所述分类体系中的每一个类进行表示,获得类表示。
3.根据权利要求1所述的方法,其特征在于,获得描述所述类表示以及类表示与类表示之间联系的公理集和描述所述关系表示与关系表示之间联系的规则集,将所述公理集和所述规则集合并得到本体公理集,包括:
根据所述预设领域中类表示、关系表示和属性表示的知识组成所述类表示及类表示与类表示之间联系的公理集;
根据预设领域中的知识体系,对所述关系表示之间的推导知识或关系表示的定义,采用和所述本体编程工具对应的描述推理规则的语言表示,得到规则集;
将所述公理集和所述规则及合并形成本体公理集。
4.根据权利要求1所述的方法,其特征在于,根据所述本体公理集生成实例,以及根据所述本体公理集确定所述实例的扩展断言集、所述实例的属性断言和所述实例之间的关系断言,根据所述扩展断言集、所述属性断言以及所述关系断言,得到本体断言集,包括:
根据所述本体公理集中对类的实例数量描述,为每一类创建相应数量的实例,根据所述实例构成实例集合,根据所述实例集合构建类断言集,将所有所述类断言集合并,得到本体类断言集;
根据所述本体推理机对所述规则集与所述本体类断言集并集进行分类推理,得到推理结果中的断言表示,根据所述断言构成断言集合,将所述本体类断言集与所述断言集合进行合并,得到扩展断言集;
根据所述本体公理集中对于每一个关系的定义创建实例间的定义关系断言集;
根据所述本体公理集中对于每一个类的关系约束创建实例间的约束关系断言集;
根据所述本体公理集中对于每一个所述类,从所述关系之间关系的规则集中获取所述类的关系约束,基于所述类的关系约束创建实例之间的关系,形成关系断言并加入到实例间的关系断言集;
技术研发人员:刘斌,陈航,陆敏,朱席席,姚莉,丁兆云,朱承,朱先强,
申请(专利权)人:中国人民解放军国防科技大学,
类型:发明
国别省市:湖南;43
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。