基于融合和半监督信息抽取的航空系统知识图谱构建方法技术方案

技术编号:37622410 阅读:9 留言:0更新日期:2023-05-18 12:13
本发明专利技术提供了一种基于融合和半监督信息抽取的航空系统知识图谱构建方法,其包括:构建航空系统知识体系库,构建航空系统标签与实体类别词表,构建航空系统领域知识体系,构建基于属性与邻居特征的航空系统实体融合模型,构建基于阅读理解的航空系统半监督信息抽取模型,进行航空系统信息抽取,生成航空系统知识图谱。本发明专利技术针对知识体系构建问题,基于标签提取与语义特征提出了体系融合算法,降低了构建难度,提高体系丰富度;针对实体融合问题,基于属性与邻居特征提出了实体融合算法,提高了实体融合效果;针对高质量大规模数据难以获取问题,基于阅读理解提出了半监督信息抽取框架,使模型逐渐具有航空系统领域特性,提升了知识图谱实用性。知识图谱实用性。知识图谱实用性。

【技术实现步骤摘要】
基于融合和半监督信息抽取的航空系统知识图谱构建方法


[0001]本专利技术属于知识图谱构建
,特别是一种基于融合和半监督信息抽取的航空系统知识图谱构建方法。

技术介绍

[0002]随着互联网技术的发展和网络数据的海量增长,知识图谱首先被谷歌提出用于改善搜索引擎的搜索结果,它通过将现实世界中的概念和关联转化为结构化三元组,以图的形式进行存储,形成了一种网络状的结构化知识库,这种网状知识结构具有强大的关系表达能力和对现实世界的建模能力,可以对互联网上繁冗复杂的信息进行组织和整合,将信息转化为有价值的知识,使信息资源可以更好地被理解和使用;同时,网络状的知识结构也具有强大的语义处理能力和开放互通能力,提高了许多下游任务的效果。目前,知识图谱已经被广泛用于问答检索、智能客服、风险控制、用户推荐等多个场景,同时在金融、法律、医疗、工业、政府等多个行业都取得了不错的效果。
[0003]由于垂直领域之间数据的差异性与场景应用的特殊性,不同领域的知识图谱不能直接迁移复用,需要根据知识特点和需求场景需求重新构建。然而,现有的知识图谱构建过程缺少具备知识体系融合、实体融合和信息抽取功能的通用工具辅助支撑,构建时面临以下问题:其一,缺少对可复用知识体系的统一管理,导致构建时无法找到相应的参考,增加了构建的难度,降低了知识体系的利用率,而且不同的体系存在对同一属性的不同表述,知识体系融合性能影响图谱构建效果;其二,实体融合未考虑长值属性的特点以及关系节点存在冗余的情况,导致融合准确率下降;其三,高质量大规模的训练数据难以获取而导致的深度学习模型效果下降,知识和业务需求场景存在差异化使得不同领域训练的抽取模型难以迁移复用。因此,针对航空系统,寻求一种基于融合和半监督信息抽取的航空系统知识图谱构建方法,以解决知识体系构建梳理繁琐且体系无法复用、高质量训练数据难以获取以及实体融合未充分考虑实体属性和邻居特征的问题是十分迫切且必要的。

技术实现思路

[0004]本专利技术针对上述现有技术中的缺陷,提出一种基于融合和半监督信息抽取的航空系统知识图谱构建方法。该方法包括构建航空系统知识体系库,构建航空系统标签与实体类别词表,构建航空系统领域知识体系,构建基于属性与邻居特征的航空系统实体融合模型,构建基于阅读理解的航空系统半监督信息抽取模型,进行航空系统信息抽取,生成航空系统知识图谱。本专利技术针对知识体系构建问题,基于标签提取与语义特征提出了体系融合算法,降低了构建难度,提高体系丰富度;针对实体融合问题,基于属性与邻居特征提出了实体融合算法,提高了实体融合效果;针对高质量大规模数据难以获取问题,基于阅读理解提出了半监督信息抽取框架,使模型逐渐具有航空系统领域特性,提升了知识图谱实用性。
[0005]本专利技术提供一种基于融合和半监督信息抽取的航空系统知识图谱构建方法,其包括以下步骤:
[0006]S1、构建航空系统知识体系库;
[0007]S11、获取航空系统原始数据,分别获取表格类数据、JSON类数据和Neo4j图数据库数据,综合作为航空系统原始数据;
[0008]S12、进行航空系统数据预处理,得到航空系统实体的属性及实体间的关系;
[0009]S13、航空系统统一知识体系存储;考虑到部分航空系统知识图谱可能只存在实体及属性或实体与实体间的关系信息,将步骤S12中获得的航空系统实体的属性由航空系统的实体属性表进行存储,航空系统实体间的关系由航空系统的实体关系表进行存储;
[0010]S14、构建航空系统知识体系库:将航空系统的所述实体属性表和实体关系表综合作为航空系统知识体系库;
[0011]S2、构建航空系统标签与实体类别词表;
[0012]S21、航空系统关键词提取:采用tf

idf关键词提取算法,从航空系统实体名称和描述性属性值中,抽取出航空系统实体的关键词;
[0013]S22、获取航空系统标签与实体类别词表:对航空系统同类实体的关键词进行统计和排序获得航空系统高频关键词,使用航空系统高频关键词构建航空系统标签与实体类别词表;
[0014]S3、构建航空系统领域知识体系;针对html网页文件进行航空系统实体属性提取、航空系统实体标签提取、航空系统结构特征发现与实体类别对齐和航空系统知识体系融合,获取航空系统领域知识体系;
[0015]S4、构建基于属性与邻居特征的航空系统实体融合模型;针对步骤S3所构建的航空系统领域知识体系中的航空系统知识体系融合,基于属性与邻居特征进行改进,获得实体融合后的航空系统领域知识体系;
[0016]S5、构建基于阅读理解的航空系统半监督信息抽取模型,生成航空系统知识图谱;
[0017]S51、获取航空系统半监督信息抽取模型的输入数据:基于航空系统领域知识体系获得三元组,基于航空系统领域非结构化文本获得文本,所述三元组和文本组合为输入数据;
[0018]S52、针对输入数据,基于问句生成模板进行航空系统数据预处理,生成问句语料对集;
[0019]S53、针对问句语料对集,采用阅读理解模型生成航空系统预标注数据;
[0020]S54、针对问句语料对集,基于阈值设置获取航空系统标注数据;
[0021]S55、基于航空系统标注数据进行航空系统信息抽取,生成航空系统知识图谱;
[0022]S551、针对航空系统实体识别任务,若训练数据足量,则采用CRF模型进行信息抽取,若训练数据不足,则采用Bert

BiLSTM

CRF模型进行航空系统信息抽取;
[0023]S552、针对航空系统关系抽取任务,采用Bert

BiGRU

ATT模型进行航空系统信息抽取;
[0024]S553、综合抽取的航空系统信息,返回步骤S43训练迭代,最终生成航空系统知识图谱。
[0025]进一步,所述步骤S3具体包括以下步骤:
[0026]S31、输入html网页文件并进行航空系统实体属性提取:分析百科网站航空系统的网页结构,通过网页判断具体网站,根据不同网站的InfoBox解析设定不同的规则获取航空
系统实体属性;
[0027]S32、航空系统实体标签提取:使用基于无监督的隐含狄利克雷分布LDA算法,对百科网站的航空系统描述性信息进行航空系统实体标签提取;
[0028]S33、航空系统结构特征发现与实体类别对齐:基于提取的航空系统实体标签,遍历所述航空系统标签与实体类别词表,若命中标签,则返回相应的航空系统实体类别;否则计算与航空系统实体类别的语义相似度,返回语义相似度最高的航空系统实体类别,作为航空系统候选实体类别;
[0029]S34、航空系统知识体系融合:针对航空系统实体类别对齐的航空系统实体进行属性融合和结构融合;
[0030]S35、获取航空系统领域知识体系:将航空系统知识体系融合获得的航空系统实体组成航空系统领域知识体系,并分别对所述航空系统本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于融合和半监督信息抽取的航空系统知识图谱构建方法,其特征在于,其包括以下步骤:S1、构建航空系统知识体系库;S11、获取航空系统原始数据,分别获取表格类数据、JSON类数据和Neo4j图数据库数据,综合作为航空系统原始数据;S12、进行航空系统数据预处理,得到航空系统实体的属性及实体间的关系;S13、航空系统统一知识体系存储;考虑到部分航空系统知识图谱可能只存在实体及属性或实体与实体间的关系信息,将步骤S12中获得的航空系统实体的属性由航空系统的实体属性表进行存储,航空系统实体间的关系由航空系统的实体关系表进行存储;S14、构建航空系统知识体系库:将航空系统的所述实体属性表和实体关系表综合作为航空系统知识体系库;S2、构建航空系统标签与实体类别词表;S21、航空系统关键词提取:采用tf

idf关键词提取算法,从航空系统实体名称和描述性属性值中,抽取出航空系统实体的关键词;S22、获取航空系统标签与实体类别词表:对航空系统同类实体的关键词进行统计和排序获得航空系统高频关键词,使用航空系统高频关键词构建航空系统标签与实体类别词表;S3、构建航空系统领域知识体系;针对html网页文件进行航空系统实体属性提取、航空系统实体标签提取、航空系统结构特征发现与实体类别对齐和航空系统知识体系融合,获取航空系统领域知识体系;S4、构建基于属性与邻居特征的航空系统实体融合模型;针对步骤S3所构建的航空系统领域知识体系中的航空系统知识体系融合,基于属性与邻居特征进行改进,获得实体融合后的航空系统领域知识体系;S5、构建基于阅读理解的航空系统半监督信息抽取模型,生成航空系统知识图谱;S51、获取航空系统半监督信息抽取模型的输入数据:基于航空系统领域知识体系获得三元组,基于航空系统领域非结构化文本获得文本,所述三元组和文本组合为输入数据;S52、针对输入数据,基于问句生成模板进行航空系统数据预处理,生成问句语料对集;S53、针对问句语料对集,采用阅读理解模型生成航空系统预标注数据;S54、针对问句语料对集,基于阈值设置获取航空系统标注数据;S55、基于航空系统标注数据进行航空系统信息抽取,生成航空系统知识图谱;S551、针对航空系统实体识别任务,若训练数据足量,则采用CRF模型进行信息抽取,若训练数据不足,则采用Bert

BiLSTM

CRF模型进行航空系统信息抽取;S552、针对航空系统关系抽取任务,采用Bert

BiGRU

ATT模型进行航空系统信息抽取;S553、综合抽取的航空系统信息,返回步骤S43训练迭代,最终生成航空系统知识图谱。2.根据权利要求1所述的基于融合和半监督信息抽取的航空系统知识图谱构建方法,其特征在于,所述步骤S3具体包括以下步骤:S31、输入html网页文件并进行航空系统实体属性提取:分析百科网站航空系统的网页结构,通过网页判断具体网站,根据不同网站的InfoBox解析设定不同的规则获取航空系统实体属性;
S32、航空系统实体标签提取:使用基于无监督的隐含狄利克雷分布LDA算法,对百科网站的航空系统描述性信息进行航空系统实体标签提取;S33、航空系统结构特征发现与实体类别对齐:基于提取的航空系统实体标签,遍历所述航空系统标签与实体类别词表,若命中标签,则返回相应的航空系统实体类别;否则计算与航空系统实体类别的语义相似度,返回语义相似度最高的航空系统实体类别,作为航空系统候选实体类别;S34、航空系统知识体系融合:针对航空系统实体类别对齐的航空系统实体进行属性融合和结构融合;S35、获取航空系统领域知识体系:将航空系统知识体系融合获得的航空系统实体组成航空系统领域知识体系,并分别对所述航空系统知识体系库和航空系统标签与实体类别词表进行补充。3.根据权利要求1所述的基于融合和半监督信息抽取的航空系统知识图谱构建方法,其特征在于,所述步骤S4具体包括以下步骤:S41、航空系统实体属性规范化:将航空系统实体属性进行规范化处理,所述规范化处理包括属性名规范化和属性值表达统一化;S42、航空系统实体分块:将航空系统实体分别进行基于实体名称的分块处理和基于实体类别的分块处理;S421、将航空系统实体名称转化为Bi

gram系列,并建立航空系统实体倒排索引表;S422、将航空系统实体插入航空系统实体倒排索引中表中;S423、将航空系统实体倒排索引表中的长度大于1键值对应的航空系统实体划入同一块;S424、将块中同一类别的航空系统实体再划入统一子块中,作为最终的航空系统实体分块结果;S43、航空系统实体对齐:提取航空系统实体属性特征与邻居特征,分别计算匹配度并取平均值,作为航空系统实体对的匹配得分;S44、航空系统实体融合:对于航空系统实体对的匹配得分超过设定阈值的航空系统实体对进行融合,所述融合包括属性融合和关系融合;航空系统实体属性为单值属性时,比较其属性值的语义相似度,若语义相似度高于一定值时保留一个值,否则两个值都保留;航空系统实体属性为多值属性时,直接将所有值进行保留。4.根据权利要求1所述的基于融合和半监督信息抽取的航空系统知识图谱构建方法,其特征在于,所...

【专利技术属性】
技术研发人员:何柳安然陶剑卓雨东刘姝妍贺薇裴育王孝天高龙董洪飞
申请(专利权)人:中国航空综合技术研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1