一种基于数据融合的知识图谱构建方法及系统技术方案

技术编号:36394350 阅读:12 留言:0更新日期:2023-01-18 09:59
本发明专利技术公开了一种基于数据融合的知识图谱构建方法,包括如下步骤:S1.构建传统数据库和图数据库以及深度学习环境;S2.根据传统数据库获取对象;S3.筛选对象以获取第一数据和第二数据,并分别储存;S4.根据公众号关键信息获取第三数据;S5.处理第二数据和第三数据,以生成第四数据和第五数据;S6.处理第四数据和第五数据,以生成第六数据并储存;S7.处理第六数据和第一数据,以生成知识图谱;S8.重复步骤S2至步骤S7直至完善知识图谱。该方法融合了传统数据库、图数据库和公众号数据构建了不断更新的知识图谱,且在构建过程中,通过筛选掉错误或无关信息,三次处理提高数据精度,精确且数据量庞大的知识图谱可以为访问者提供精确有效、崭新的相关知识。崭新的相关知识。崭新的相关知识。

【技术实现步骤摘要】
一种基于数据融合的知识图谱构建方法及系统


[0001]本专利技术涉及数据处理的
,特别是涉及一种基于数据融合的知识图谱构建方法及系统。

技术介绍

[0002]信息搜集获取的时效性、分析处理的准确性、分发应用的实效性等,直接影响国家战略规划和国防军事体系效能发挥。当前,国际互联网与政治、经济、社会、军事等领域高度融合,各国政府部门、组织机构、专家智库等发布的战略规划、研究报告、对策建议等,及门户网站、社交软件、网络媒体等任何人都可公开访问的开源信息,已经成为各国信息的重要来源。目前,仅仅是百科数据和相关网络公众号数据已经包含了大量某一领域相关的知识。这些开源信息的搜集获取、筛选处理、订阅分发等可以采用自动化方法高效完成,但其针对特定用户或特定应用场景的专题式挖掘分析仍主要依靠人工完成,其信息数据中存在的或强或弱的关联关系极易被分析人员所忽视,直接导致从开源信息中分析得到的信息价值不高、使用效益受限。如何利用开源数据构建一个高度结构化的知识图谱就成为了迫切需要研究的内容。
[0003]以往进行知识图谱构建中,往往直接只提取了其中的结构化数据中,而忽略了大量非结构化数据中的信息。而现在的知识图谱构建往往直接利用相关技术进行信息抽取,而没有考虑到已有的结构化数据,容易导致构建的知识图谱中存在大量错误或者相互矛盾的信息。
[0004]因此,提供一种可以有效解决知识图谱构建过程中,数据量有限、准确度较低、数据过时失真的基于数据融合的知识图谱构建方法及系统是本领域技术人员亟待解决的问题。

技术实现思路

[0005]本专利技术的目的在于提供一种基于数据融合的知识图谱构建方法,该方法逻辑清晰,操作简单,能有效解决现有构建知识图谱中数据量有限、准确度较低的技术问题。该系统也具有同样的有益效果。
[0006]基于以上目的,本专利技术提供的技术方案如下:
[0007]一种基于数据融合的知识图谱构建方法,包括如下步骤:
[0008]S1.构建传统数据库和图数据库以及深度学习环境;
[0009]S2.根据所述传统数据库获取对象;
[0010]S3.筛选所述对象以获取第一数据和第二数据,并分别储存;
[0011]S4.根据公众号关键信息获取第三数据;
[0012]S5.处理所述第二数据和所述第三数据,以生成第四数据和第五数据;
[0013]S6.处理所述第四数据和所述第五数据,以生成第六数据并储存;
[0014]S7.处理所述第六数据和所述第一数据,以生成知识图谱;
[0015]S8.重复步骤S2至步骤S7直至完善所述知识图谱。
[0016]优选地,所述步骤S2具体为:
[0017]根据预设关键词过滤所述传统数据库以获取所述对象。
[0018]优选地,所述步骤S3包括如下步骤:
[0019]根据编程语言筛选所述对象以获取所述第一数据和所述第二数据;
[0020]将所述第一数据以第一格式存入所述图数据库中;
[0021]将所述第二数据存入所述传统数据库中。
[0022]优选地,所述步骤S4具体为:
[0023]获取公众号关键信息;
[0024]根据所述公众号信息以及所述预设关键词过滤各公众号以获取所述第三数据。
[0025]优选地,在所述步骤S5之前,还包括:
[0026]分别定义实体类型、实体关系和实体属性。
[0027]优选地,所述步骤S5具体为:
[0028]根据已定义的所述实体类型、所述实体关系和所述实体属性,对所述第二数据和所述第三数据进行标注以生成所述第四数据和所述第五数据;
[0029]其中,所述第四数据为已标注数据集,所述第五数据为未标注数据集。
[0030]优选地,所述步骤S6包括如下步骤:
[0031]训练所述第四数据;
[0032]预处理所述第五数据;
[0033]根据已定义的所述实体类型、所述实体关系和所述实体属性,抽取已训练的所述第四数据的已预处理的所述第五数据以生成所述第六数据并存入所述图数据库中。
[0034]优选地,所述步骤S7包括如下步骤:
[0035]对所述第六数据进行消歧;
[0036]对消歧后的所述第六数据和所述第一数据进行数据融合,以生成知识图谱。
[0037]一种基于数据融合的知识图谱构建系统,包括:
[0038]构建模块,用于构建传统数据库和图数据库以及深度学习环境;
[0039]获取模块,用于根据所述传统数据库获取对象;
[0040]获取模块,还用于根据公众号关键信息获取第三数据;
[0041]筛选模块,用于筛选所述对象以获取第一数据和第二数据;
[0042]储存模块,用于分别储存所述第一数据和所述第二数据;
[0043]储存模块,还用于储存第六数据;
[0044]处理模块,用于处理所述第二数据和所述第三数据,以生成第四数据和第五数据;
[0045]处理模块,还用于处理所述第四数据和所述第五数据,以生成第六数据;
[0046]处理模块,还用于处理所述第六数据和所述第一数据,以生成知识图谱。
[0047]优选地,还包括:
[0048]定义模块,用于定义实体类型、实体关系和实体属性;
[0049]所述处理模块包括:标注子模块、训练子模块、预处理子模块、抽取模块、消歧子模块和数据融合子模块;
[0050]所述标注子模块,用于对所述第二数据和所述第三数据进行标注;
[0051]所述训练子模块,用于训练所述第四数据;
[0052]所述预处理子模块,用于预处理所述第五数据;
[0053]所述抽取子模块,用于抽取已训练的所述第四数据和已预处理的所述第五数据;
[0054]所述消歧子模块,用于对所述第六数据进行消歧;
[0055]所述数据融合子模块,用于对消歧后的所述第六数据和所述第一数据进行数据融合,以生成知识图谱。
[0056]本专利技术提供了一种基于数据融合的知识图谱构建方法,是通过构建传统数据库和图数据库以及深度学习的环境;在传统数据库获取对象;从对象中筛选出第一数据和第二数据并分别储存,从公众号中获取第三数据;处理第二数据和第三数据,以生成第四数据和第五数据;再次处理第四数据和第五数据,以生成第六数据并储存;处理第六数据和第一数据,以生成知识图谱。不断更新第一数据、第二数据、第三数据和第六数据,直至完善知识图谱。
[0057]该方法融合了传统数据库、图数据库和公众号数据构建了一种不断更新的知识图谱,且在构建过程中,通过筛选掉错误或无关信息,三次处理提高数据精度,精确且数据量庞大的知识图谱可以为访问者提供精确有效、崭新的相关知识。
[0058]本专利技术还提供了一种基于数据融合的知识图谱构建系统,该系统与该方法属于相同的技术构思,因此该系统理应具有与该方法相同的有益效果,在此不再赘述。
附图说明...

【技术保护点】

【技术特征摘要】
1.一种基于数据融合的知识图谱构建方法,其特征在于,包括如下步骤:S1.构建传统数据库和图数据库以及深度学习环境;S2.根据所述传统数据库获取对象;S3.筛选所述对象以获取第一数据和第二数据,并分别储存;S4.根据公众号关键信息获取第三数据;S5.处理所述第二数据和所述第三数据,以生成第四数据和第五数据;S6.处理所述第四数据和所述第五数据,以生成第六数据并储存;S7.处理所述第六数据和所述第一数据,以生成知识图谱;S8.重复步骤S2至步骤S7直至完善所述知识图谱。2.如权利要求1所述的基于数据融合的知识图谱构建方法,其特征在于,所述步骤S2具体为:根据预设关键词过滤所述传统数据库以获取所述对象。3.如权利要求2所述的基于数据融合的知识图谱构建方法,其特征在于,所述步骤S3包括如下步骤:根据编程语言筛选所述对象以获取所述第一数据和所述第二数据;将所述第一数据以第一格式存入所述图数据库中;将所述第二数据存入所述传统数据库中。4.如权利要求2所述的基于数据融合的知识图谱构建方法,其特征在于,所述步骤S4具体为:获取公众号关键信息;根据所述公众号信息以及所述预设关键词过滤各公众号以获取所述第三数据。5.如权利要求1所述的基于数据融合的知识图谱构建方法,其特征在于,在所述步骤S5之前,还包括:分别定义实体类型、实体关系和实体属性。6.如权利要求5所述的基于数据融合的知识图谱构建方法,其特征在于,所述步骤S5具体为:根据已定义的所述实体类型、所述实体关系和所述实体属性,对所述第二数据和所述第三数据进行标注以生成所述第四数据和所述第五数据;其中,所述第四数据为已标注数据集,所述第五数据为未标注数据集。7.如权利要求6所述的基于数据融合的知识图谱构建方法,其特征在于,所述步骤S6包括...

【专利技术属性】
技术研发人员:王俊辉王彦锋隋兵才郑重孙彩霞冯权友王永文
申请(专利权)人:中国人民解放军国防科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1