【技术实现步骤摘要】
一种基于注意力机制及实体描述的产业图谱构建方法
本专利技术属于知识图谱
,具体涉及一种产业图谱的构建方法,具体涉及一种基于注意力机制及实体描述的分段卷积神经网络的产业图谱构建方法;为知识图谱领域提供了基于产业图谱的语义集成、知识推理等方面提供了技术基础,为宏观经济领域探寻经济运行新规律,提升经济管理和决策水平,完善调控体系,提升政府治理能力、推动政府治理精准化提供提供了技术支持。
技术介绍
近年来,人工智能在全球蓬勃发展,其成功离不开知识图谱的贡献。目前知识大量存在于无结构化的文本数据、大量半结构化的表格和网页以及生产系统的结构化数据中。构建知识图谱的主要目的是获取大量的、让计算机可读的知识。当前在知识图谱构建方面,主要方法还是依赖于传统NLP和基于深度学习模型两类方法,利用信息提取技术对中文命名实体关系进行提取,对于复杂的非结构化数据,越来越倾向于使用深度学习来抽取实体间的关系。虽然深度学习技术在图像和语音方面当前取得了突破性的进展,但应用在文本方面,优化实体抽取方式,提高知识的覆盖率与准确率,跨语言知识融合 ...
【技术保护点】
1.一种基于注意力机制及实体描述的产业图谱构建方法,其特征在于,包括以下步骤:/n步骤1:获取无标注的产业领域语料数据并统一存储,获得产业语料库;/n步骤2:利用知识图谱中的三元关系组r(e
【技术特征摘要】 【专利技术属性】
1.一种基于注意力机制及实体描述的产业图谱构建方法,其特征在于,包括以下步骤:
步骤1:获取无标注的产业领域语料数据并统一存储,获得产业语料库;
步骤2:利用知识图谱中的三元关系组r(e1,e2)将语料数据根据实体对分成多个语料包,记录每个语料包中实体对可能的实体对关系,其中e1和e2代表实体对,r代表实体对的关系;
步骤3:将每个语料包中每条句子的每个词和每个词的位置向量化,将词向量和词位置向量级联后作为分段卷积神经网络的输入;
步骤4:根据实体对位置将句子分割为三段,使用三个最大池对三段语句的特征向量分别进行最大池化后将得到的三个特征向量拼接得到整个句子的特征向量,通过非线性函数得到句子特征向量;
步骤5:在注意力层对语料包中每条句子注意力权值和每条句子特征向量计算加权和,获得实体对所在语料包的特征向量,通过softmax计算得到包中每条句子与实体对每个可能关系的置信度;
步骤6:通过卷积神经网络提取实体描述句子的特征向量,计算每条句子中实体特征向量与实体描述特征向量的距离;
步骤7:以句子中实体对与所有可能关系的置信度概率以及实体特征向量与实体描述特征向量的距离为目标函数,训练分段卷积神经网络;使用训练后的分段卷积神经网络自动标注语料库中语料并使用标注好的语料数据构建产业图谱。
2.根据权利要求1所述的基于注意力机制及实体描述的产业图谱构建方法,其特征在于:步骤1中所述产业领域语料数据包括产业相关企业基本信息及在生产经营情况,产业相关新闻事件,公开发布的产业分析报告,产业结构、产业链材料数据。
技术研发人员:熊盛武,陈小英,谢泽丰,陈伟,王盛,
申请(专利权)人:武汉理工大学,
类型:发明
国别省市:湖北;42
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。