当前位置: 首页 > 专利查询>东南大学专利>正文

一种基于UCL语义标引的知识图谱构建方法及装置制造方法及图纸

技术编号:24938185 阅读:27 留言:0更新日期:2020-07-17 20:58
本发明专利技术公开了一种基于UCL语义标引的知识图谱构建方法及装置。本发明专利技术首先从开放链接数据库中提取实体和关系,构建基础实体库;然后利用爬虫爬取各大门户网站中的新闻信息,对这些信息进行清洗解析形成UCL实体,完成实体消歧,并将UCL实体与基础实体库进行语义融合构建知识图谱;最后利用改进的关系推理算法完成对知识图谱的自动化补全,提高知识图谱的自动化水平。本发明专利技术能够利用UCL国家标准对互联网信息进行规范化、细粒度语义标引,使知识图谱所表示的语义信息更加丰富,为基于语义深度处理的内容大数据应用提供基于UCL语义标引的知识图谱支持。

【技术实现步骤摘要】
一种基于UCL语义标引的知识图谱构建方法及装置
本专利技术涉及一种基于UCL语义标引的知识图谱构建方法及装置,属于互联网

技术介绍
随着互联网的迅速普及和数字信息的爆炸式增长,一方面带来了宝贵的信息财富,而另一方面如何从这些庞大的数据中检索有效信息对于搜索引擎也是一个较大挑战。传统的搜索引擎主要通过索引网页中的内容,匹配用户搜索请求中的关键词反馈给用户相关的网页链接,并利用网页排序算法对结果进行排序。这种模式给互联网信息检索带来了极大便利,但是返回结果过于单一,用户必须点进网页链接做二次检索才能获取所需信息。互联网用户希望当搜索时能够获取准确的、直接的和丰富的信息,搜索引擎需要提供智能语义搜索服务。知识图谱可以将互联网的信息表达成更接近人类认知世界的形式,提供了一种更好的组织、管理和利用海量信息的方式,目前已经广泛应用于智能语义搜索中。目前国内外关于知识图谱的相关研究已经取得了丰富的成果,对本专利技术的研究工作具有借鉴意义,但在知识图谱构建上仍有较大提升空间。首先,目前知识图谱的知识表示方式主要是以较为简单的三元组形式将结构化数据组织,这样便于机器处理,但是丢失了实体的“上下文信息”,降低知识图谱语义表达的准确性。另外,目前关系推理算法主要基于Transe算法进行改进,但是这类算法忽略了实体与关系在语义上的多样性,缺乏对“一对多”和“多对一”类型关系的有效处理,从而大大降低了关系推理的准确性。
技术实现思路
专利技术目的:针对现有技术中存在的问题与不足,本专利技术提出了一种基于UCL语义标引的知识图谱构建方法及装置,能够对互联网信息进行规范化、细粒度标引,使知识图谱所表示的语义信息更丰富,同时能够完善传统关系推理算法在处理“一对多”和“多对一”类型关系时,如果对于关系两侧实体分别实施替换干扰得到的推理性能表现不均衡的问题。技术方案:为实现上述专利技术目的,本专利技术所述的一种基于UCL语义标引的知识图谱构建方法,利用爬虫爬取各大门户网站中的新闻信息,对这些信息进行清洗解析形成UCL实体,并从百度百科、维基百科和wikidata等开放链接数据中提取实体和关系构建基础实体库,将UCL实体与该基础实体库进行语义融合最终构建知识图谱,最后利用改进的关系推理算法完成对知识图谱的自动化补全,提高知识图谱的自动化水平。具体步骤如下:(1)构建基础实体库:从开放链接数据库中提取实体、实体基础属性和实体间关联关系构建基础实体库。(2)构建初始UCL知识图谱:对获取的新闻信息进行清洗、语义解析标引成UCL实体。并根据新闻的5W特性,将UCL实体与基础实体库中普通实体间的关系分类,然后分别计算各普通实体在UCL实体中的语义重要程度,从而得到UCL实体与普通实体间的关联度,将UCL实体融入基础实体库,完成初始UCL知识图谱的构建。(3)改进关系推理算法完成对UCL知识图谱的自动化补全:根据普通实体与UCL实体间的关联关系,将UCL实体作为普通实体间关系的“上下文”,利用关系的语义环境区分实体间的关系,据此在Transe算法模型中引入属于特定关系的上下文环境变量训练得到词向量,利用训练好的词向量模型对知识图谱补全,提高知识图谱的自动化程度。作为优选,所述步骤(1)中构建基础实体库时,首先使用开放链接数据库wikidata中的数据作为源数据建立基础的知识库;然后从其它开放链接数据中提取实体和关系,并对齐到基础实体库中,完善和纠正基础实体库中的实体属性和关联关系信息;所述其它开放链接数据为百度百科、互动百科和/或中文维基百科网站。作为优选,所述步骤(2)中根据词频选择UCL中待消歧实体,根据词频和词在文中的位置计算实体的语义重要程度,并根据实体间的词语相似度选取基础实体库中的目标实体集合,再从基础实体库中获取目标实体的同义实体和歧义实体加入目标实体集合作为候选实体集合,并从基础实体库中获取每个候选实体的关联实体集合作为候选实体的上下文环境;计算UCL中待消歧实体的上下文与候选实体的上下文的相似性作为实体间的环境相似度;取环境相似度最高的目标实体,将对应的语义重要程度作为它与UCL实体的关联度。作为优选,根据如下公式计算UCL中待消歧实体uclei与候选实体cej的环境相似度:其中,UCLDE表示UCL中待消歧实体集合,pwi表示uclei的语义重要程度,REL表示候选实体的关联实体集合,size(UCLDE)表示集合UCLDE的大小,I(SIM(et,ek)>0)为指示函数,SIM表示实体间的词语相似度,θ为权重分配参数。作为优选,所述步骤(3)中利用如下公式作为知识图谱补全的判断依据:f(h,r,t)=‖UCLr°h+r-UCLr°t‖2其中h、r、t分别表示头实体向量、关系向量和尾实体向量,UCLr由头尾实体共同上下文语义环境决定的参数向量,他和头尾实体向量维数相同,UCLr°h表示UCLr和h两个向量各位相乘,||·||2表示L2范数,f(h,r,t)计算的值越接近0,表示补全的实体越准确。作为优选,按照如下目标函数训练得到UCL知识图谱中三元组(h,r,t)和对应环境参数UCLr的向量表示:其中S表示UCL知识图谱中三元组词向量集合,S′(h,r,t)表示构建的对应三元组(h,r,t)的负样本集合,为正负样本之间的间距。基于相同的专利技术构思,本专利技术所述的一种基于UCL语义标引的知识图谱构建装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,该计算机程序被加载至处理器时实现上述的基于UCL语义标引的知识图谱构建方法。有益效果:与现有技术相比,本专利技术提供的基于UCL语义标引的知识图谱构建方法,具有如下优点:(1)本专利技术构建的知识图谱具有丰富的语义信息,保留了实体的“上下文信息”,提高了知识图谱语义表达的丰富性。(2)本专利技术基于UCL国家标准对互联网信息进行语义标引,并且将其融入普通知识库中,而UCL具有结构灵活、简洁高效等特点,便于机器处理,提高知识图谱的自动化程度。(3)本专利技术利用UCL实体与普通实体的关系,改进传统关系推理算法,提高实体与关系在不同语义环境下的区分能力,进而增加对“一对多”和“多对一”类型关系的有效处理。附图说明图1为本专利技术实施例的方法流程图。图2为本专利技术实施例涉及的UCL知识图谱结构图。图3为本专利技术实施例涉及的UCL知识图谱自动补全流程图。图4为本专利技术实施例涉及的UCL知识图谱实体转换为向量流程图。具体实施方式下面结合具体实施例,进一步阐明本专利技术,应理解这些实施例仅用于说明本专利技术而不用于限制本专利技术的范围,在阅读了本专利技术之后,本领域技术人员对本专利技术的各种等价形式的修改均落于本申请所附权利要求所限定的范围。由国家标准《统一内容标签格式规范》(GB/T35304-2017)所定义的统一内容标签UCL(UniformContentLabel),是一种可对内容资源的丰富语义进行标引的内容元本文档来自技高网...

【技术保护点】
1.一种基于UCL语义标引的知识图谱构建方法,其特征在于,包括如下步骤:/n(1)从开放链接数据库中提取实体、实体基础属性和实体间关联关系构建基础实体库;/n(2)对获取的新闻信息进行清洗、语义解析标引成UCL实体,并根据新闻的5W特性,将UCL实体与基础实体库中普通实体间的关系分类,然后分别计算各普通实体在UCL实体中的语义重要程度,从而得到UCL实体与普通实体间的关联度,将UCL实体融入基础实体库,完成初始UCL知识图谱的构建;/n(3)根据普通实体与UCL实体间的关联关系,将UCL实体作为普通实体间关系的“上下文”,利用关系的语义环境区分实体间的关系,据此在Transe算法模型中引入属于特定关系的上下文环境变量训练得到词向量,利用训练好的词向量模型对知识图谱补全。/n

【技术特征摘要】
1.一种基于UCL语义标引的知识图谱构建方法,其特征在于,包括如下步骤:
(1)从开放链接数据库中提取实体、实体基础属性和实体间关联关系构建基础实体库;
(2)对获取的新闻信息进行清洗、语义解析标引成UCL实体,并根据新闻的5W特性,将UCL实体与基础实体库中普通实体间的关系分类,然后分别计算各普通实体在UCL实体中的语义重要程度,从而得到UCL实体与普通实体间的关联度,将UCL实体融入基础实体库,完成初始UCL知识图谱的构建;
(3)根据普通实体与UCL实体间的关联关系,将UCL实体作为普通实体间关系的“上下文”,利用关系的语义环境区分实体间的关系,据此在Transe算法模型中引入属于特定关系的上下文环境变量训练得到词向量,利用训练好的词向量模型对知识图谱补全。


2.根据权利要求1所述的基于UCL语义标引的知识图谱构建方法,其特征在于,所述步骤(1)中构建基础实体库时,首先使用开放链接数据库wikidata中的数据作为源数据建立基础的知识库;然后从其它开放链接数据中提取实体和关系,并对齐到基础实体库中,完善和纠正基础实体库中的实体属性和关联关系信息;所述其它开放链接数据为百度百科、互动百科和/或中文维基百科网站。


3.根据权利要求1所述的基于UCL语义标引的知识图谱构建方法,其特征在于,所述步骤(2)中根据词频选择UCL中待消歧实体,根据词频和词在文中的位置计算实体的语义重要程度,并根据实体间的词语相似度选取基础实体库中的目标实体集合,再从基础实体库中获取目标实体的同义实体和歧义实体加入目标实体集合作为候选实体集合,并从基础实体库中获取每个候选实体的关联实体集合作为候选实体的上下文环境;计算UCL中待消歧实体的上下文与候选实体的上下文的相似性作为实体间的环境相似度;取环境相似度...

【专利技术属性】
技术研发人员:杨鹏李超纪雯马卫东
申请(专利权)人:东南大学
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1