一种基于汽车产业图谱知识问答方法、系统及电子设备技术方案

技术编号:29873139 阅读:20 留言:0更新日期:2021-08-31 23:48
本发明专利技术公开了一种基于汽车产业图谱知识问答方法、系统及电子设备,首先针对湖北省汽车产业内产业数据构建完善的产业图谱;将产业图谱进行嵌入表示,得到产业图谱内实体与关系的向量表示;然后依据使用者提出的问题进行分词解析,并对其进行处理得到问句的低维表示嵌入,其维度与产业图谱的表示嵌入相同;最后,在已知产业图谱表征、每个三元组的得分以及问句的表征后,需要对候选答案进行推理筛选,即以问句表示的实体为中心,沿着关系路径进行推理得到答案实体。本发明专利技术展示了湖北省汽车产业的发展现状,为使用者对于产业图谱内的海量信息提供了一种高级便捷的检索方式。

【技术实现步骤摘要】
一种基于汽车产业图谱知识问答方法、系统及电子设备
本专利技术属于智能问答与知识图谱
,具体涉及到基于湖北省汽车产业数据构建的产业图谱的知识问答方法、系统及电子设备。
技术介绍
随着人工智能技术的不断发展,知识图谱也随之不断演化进步,其规模和深度日趋变得扩大。大数据所支撑的大规模知识图谱在各个领域都扮演着重要的角色,包括信息检索、智能问答、推荐系统等等。同样地,湖北省汽车产业内的数据包括了企业、项目、地区和子类产业等等不同维度的信息。这样一个以湖北省汽车产业投资数据为基础的产业图谱,不仅涵盖了汽车产业布局、发展分布以及各个子类产业之间的上下游关系,而且通过整合项目的相关信息,可以体现汽车产业子类的发展情况。除此之外,汽车子类产业在不同地区的分布情况也可以代表着地方汽车产业的发展现状和趋势。基于知识图谱的知识问答是对于知识图谱信息检索的一种更高级的方式,使用者不需要了解结构和存储信息就可以与知识图谱进行交互。现有的基于知识图谱的知识问答方法可以分成三大类:1.基于语义解析的方法,这种方式偏向于语言学,主要思想是对问句构建逻辑形式,通过相应的查询语句在知识图谱中查询答案;2.基于信息抽取的方法,这种方法通过抽取问句中的实体和关系,通过子图和分类器等对候选答案进行筛选;3.基于深度学习的方法,这种方法是自深度学习的发展应运而生,并逐渐成为主流的方法。目前对于中文知识图谱的知识问答并没有一个统一的解决方法,而且在构建问答系统的过程中,对于知识图谱的表示嵌入很多都直接采用现有的表示方法。但是对于产业图谱内的数据来说并不适用,因为产业图谱内拥有大量表征实体属性的属性三元组。
技术实现思路
为了解决上述技术问题,本专利技术提出了一种基于汽车产业图谱知识问答方法、系统及电子设备,从而让使用者更加方便、快捷地了解到产业内的信息,同时对于产业图谱内大量的属性三元组和关系三元组设计了一个新的表示方法。本专利技术的方法所采用的技术方案是:一种基于汽车产业图谱知识问答方法,包括以下步骤:步骤1:针对汽车产业数据,构建完整的汽车产业图谱,并从中获取代表产业发展的三元组数据;所述汽车产业包括汽柴油整车制造产业,新能源整车制造产业,汽车用发动机制造产业,改装汽车制造产业,低速汽车制造产业,电车制造产业,汽车车身产业、挂车制造产业和汽车零部件及配件制造产业;所述汽车产业数据包括产业结构、产业分布和产业布局数据;三元组数据一般包括两个实体和它们之间的关系,一般形式为(h,r,t),其中h为头实体,r为实体间的关系,t为尾实体;产业图谱内的信息大概包括了企业、项目、产业、地区等维度,其中,地区的下辖关系(如(武汉市,下辖,洪山区)这样的三元组)作为客观事实存在,企业和地区之间的“位于”关系(如(xx公司,位于,江夏区))体现了企业在地区上的分布情况,企业实施的项目体现了企业在产业中的结构地位以及与其他企业之间的关系(如(xx公司,实施,A项目),A项目在产业中所处的上下游地位体现了改企业在产业中的结构地位),项目与产业之间的关系是产业分布的直接体现(如(A项目,属于,汽车零部件及配件制造产业)),某一个汽车子类产业所属的项目多,则该类汽车子类产业在整体汽车产业发展中就占据主导地位。步骤2:使用基于TransE模型的关系三元组和属性三元组联合嵌入,将产业图谱进行表示嵌入,得到产业图谱内的实体和关系的表示向量,将产业图谱转化为知识表示;为后续的答案推理做准备;步骤3:问题分析;对输入的问题进行分词处理,得到其中可能代表产业内的实体和关系,并使用预训练模型获得与图谱中实体和关系维度统一的向量表示;步骤4:答案选择;在产业图谱中可能的候选实体进行打分排序,从而获得得分最高的实体;步骤5:将最终得到的实体作为答案返回给使用者。本专利技术的系统所采用的技术方案是:一种基于汽车产业图谱知识问答系统,包括以下模块:模块1,用于针对汽车产数据,构建完整的汽车产业图谱,并从中获取代表产业发展的三元组数据;所述汽车产业包括汽柴油整车制造产业,新能源整车制造产业,汽车用发动机制造产业,改装汽车制造产业,低速汽车制造产业,电车制造产业,汽车车身产业、挂车制造产业和汽车零部件及配件制造产业;所述汽车产业数据包括产业结构、产业分布和产业布局数据;三元组数据一般包括两个实体和它们之间的关系,一般形式为(h,r,t),其中h为头实体,r为实体间的关系,t为尾实体;模块2,用于使用基于TransE模型的关系三元组和属性三元组联合嵌入,将产业图谱进行表示嵌入,得到产业图谱内的实体和关系的表示向量,将产业图谱转化为知识表示;为后续的答案推理做准备;模块3,用于问题分析;对输入的问题进行分词处理,得到其中可能代表产业内的实体和关系,并使用预训练模型获得与图谱中实体和关系维度统一的向量表示;模块4,用于答案选择;在产业图谱中可能的候选实体进行打分排序,从而获得得分最高的实体;模块5,用于将最终得到的实体作为答案返回给使用者。本专利技术的电子设备所采用的技术方案是:一种电子设备,包括一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现基于汽车产业图谱知识问答方法。本专利技术的有益之处在于:本专利技术基于构建完整的汽车产业图谱,结合投资项目的相关时间、金额等属性,可以表征出地方上产业发展的现状和趋势。通过对于用户提出的问句进行解析,本专利技术能够将用户想要检索的信息输入到产业图谱内,并在产业图谱内沿着路径检索出相应的实体作为答案,并返回答案提供给用户。附图说明图1为本专利技术实施例的方法流程图;图2为本专利技术实施例的方法原理示意图;图3为本专利技术实施例关系三元组和属性三元组联合嵌入示意图。具体实施方法为了便于本领域普通技术人员理解和实施本专利技术,下面结合附图及实施例对本专利技术作进一步的详细描述,应当理解,此处所描述的实施示例仅用于说明和解释本专利技术,并不用于限定本专利技术。请见图1、图2和图3,本专利技术提供的一种基于汽车产业图谱知识问答方法,结合立足于湖北省汽车产业的发展数据构建的产业图谱,以用户提出的问句作为输入,经过对于问句的处理、产业图谱的表示嵌入以及多跳推理的过程之后,最终将用户想要检索的答案返回。在实际应用中,应该按照以下步骤顺序执行,从而才能正确得到用户想要检索的答案。具体包括以下步骤:步骤1:针对湖北省汽车产业的发展数据,构建完整的汽车产业产业图谱,并从中获取代表产业事实的三元组数据,这些数据将会作为后续检索答案的依据;其中,每个企业投资的项目所隶属的汽车子类产业总计有八种:汽柴油整车制造,新能源整车制造,汽车用发动机制造,改装汽车制造,低速汽车制造,电车制造,汽车车身、挂车制造和汽车零部件及配件制造。在原始数据当中,很多的企业在申报项目时本文档来自技高网
...

【技术保护点】
1.一种基于汽车产业图谱知识问答方法,其特征在于,包括以下步骤:/n步骤1:针对汽车产业数据,构建完整的汽车产业图谱,并从中获取代表产业发展的三元组数据;/n所述汽车产业包括汽柴油整车制造产业,新能源整车制造产业,汽车用发动机制造产业,改装汽车制造产业,低速汽车制造产业,电车制造产业,汽车车身产业、挂车制造产业和汽车零部件及配件制造产业;/n所述汽车产业数据包括产业结构、产业分布和产业布局数据;/n三元组数据包括两个实体和它们之间的关系,一般形式为(h,r,t),其中h为头实体,r为实体间的关系,t为尾实体;/n步骤2:使用基于TransE模型的关系三元组和属性三元组联合嵌入,将产业图谱进行表示嵌入,得到产业图谱内的实体和关系的表示向量,将产业图谱转化为知识表示;为后续的答案推理做准备;/n步骤3:问题分析;/n对输入的问题进行分词处理,得到其中可能代表产业内的实体和关系,并使用预训练模型获得与图谱中实体和关系维度统一的向量表示;/n步骤4:答案选择;/n在产业图谱中可能的候选实体进行打分排序,从而获得得分最高的实体;/n步骤5:将最终得到的实体作为答案返回给使用者。/n

【技术特征摘要】
1.一种基于汽车产业图谱知识问答方法,其特征在于,包括以下步骤:
步骤1:针对汽车产业数据,构建完整的汽车产业图谱,并从中获取代表产业发展的三元组数据;
所述汽车产业包括汽柴油整车制造产业,新能源整车制造产业,汽车用发动机制造产业,改装汽车制造产业,低速汽车制造产业,电车制造产业,汽车车身产业、挂车制造产业和汽车零部件及配件制造产业;
所述汽车产业数据包括产业结构、产业分布和产业布局数据;
三元组数据包括两个实体和它们之间的关系,一般形式为(h,r,t),其中h为头实体,r为实体间的关系,t为尾实体;
步骤2:使用基于TransE模型的关系三元组和属性三元组联合嵌入,将产业图谱进行表示嵌入,得到产业图谱内的实体和关系的表示向量,将产业图谱转化为知识表示;为后续的答案推理做准备;
步骤3:问题分析;
对输入的问题进行分词处理,得到其中可能代表产业内的实体和关系,并使用预训练模型获得与图谱中实体和关系维度统一的向量表示;
步骤4:答案选择;
在产业图谱中可能的候选实体进行打分排序,从而获得得分最高的实体;
步骤5:将最终得到的实体作为答案返回给使用者。


2.根据权利要求1所述的基于汽车产业图谱知识问答方法,其特征在于:步骤2中,产业图谱的三元组数据中的关系为头实体到尾实体的翻译,在训练过程中,通过不断调整关系向量的值,使得头实体向量和关系向量之和尽可能与尾实体向量相等,即遵循h+r≈t的原则,其中h为头实体,r为三元组实体间的关系,t为尾实体;
TransE的目标函数为:



其中,Tr代表产业图谱内有效的三元组集合,T′r代表产业图谱内随机负采样的无效三元组集合,γ是间隔超参数;f()表示距离函数,用于衡量头实体与关系的嵌入向量之和与尾实体的嵌入向量之间的差值,具体为
对于属性三元组,某个实体的多个属性值c1,c2,…,ct,有组合函数f(a)使得属性三元组满足h+r≈f(a);



其中,N表示在此组合函数中使用的n的最大值;
因此,对于属性三元组的距离函数即为:
对应属性三元组的目标函数即为:



其中,Ta为产业图谱内的有效属性三元组,T′a为负采样随机替换属性值的无效属性三元组;
在训练时,将关系三元组以及其中实体所对应的属性三元组进行联合训练,最终的目标函数即为:J=JRE+JAE。


3.根据权利要求1所述的基于汽车产业图谱知识问答方法,其特征在于:步骤3中,采用Jieba分词工具对输入的问题进行分词处理,同时在结合产业内的语料信息之后,附加一个产业内的实体词典作为分词时的参考依据,其中具有产业...

【专利技术属性】
技术研发人员:熊盛武马彪陈小英
申请(专利权)人:武汉理工大学
类型:发明
国别省市:湖北;42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1