一种基于UCL语义标引的知识图谱构建方法及装置制造方法及图纸

技术编号：24938185 阅读：27 留言：0更新日期：2020-07-17 20:58

本发明专利技术公开了一种基于UCL语义标引的知识图谱构建方法及装置。本发明专利技术首先从开放链接数据库中提取实体和关系，构建基础实体库；然后利用爬虫爬取各大门户网站中的新闻信息，对这些信息进行清洗解析形成UCL实体，完成实体消歧，并将UCL实体与基础实体库进行语义融合构建知识图谱；最后利用改进的关系推理算法完成对知识图谱的自动化补全，提高知识图谱的自动化水平。本发明专利技术能够利用UCL国家标准对互联网信息进行规范化、细粒度语义标引，使知识图谱所表示的语义信息更加丰富，为基于语义深度处理的内容大数据应用提供基于UCL语义标引的知识图谱支持。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于UCL语义标引的知识图谱构建方法及装置
本专利技术涉及一种基于UCL语义标引的知识图谱构建方法及装置，属于互联网

技术介绍
随着互联网的迅速普及和数字信息的爆炸式增长，一方面带来了宝贵的信息财富，而另一方面如何从这些庞大的数据中检索有效信息对于搜索引擎也是一个较大挑战。传统的搜索引擎主要通过索引网页中的内容，匹配用户搜索请求中的关键词反馈给用户相关的网页链接，并利用网页排序算法对结果进行排序。这种模式给互联网信息检索带来了极大便利，但是返回结果过于单一，用户必须点进网页链接做二次检索才能获取所需信息。互联网用户希望当搜索时能够获取准确的、直接的和丰富的信息，搜索引擎需要提供智能语义搜索服务。知识图谱可以将互联网的信息表达成更接近人类认知世界的形式，提供了一种更好的组织、管理和利用海量信息的方式，目前已经广泛应用于智能语义搜索中。目前国内外关于知识图谱的相关研究已经取得了丰富的成果，对本专利技术的研究工作具有借鉴意义，但在知识图谱构建上仍有较大提升空间。首先，目前知识图谱的知识表示方式主要是以较为简单的三元组形式将结构化数据组织，这样便于机器处理，但是丢失了实体的“上下文信息”，降低知识图谱语义表达的准确性。另外，目前关系推理算法主要基于Transe算法进行改进，但是这类算法忽略了实体与关系在语义上的多样性，缺乏对“一对多”和“多对一”类型关系的有效处理，从而大大降低了关系推理的准确性。
技术实现思路
专利技术目的：针对现有技术中存在的问题与不足，本专利技术提出了一种基于U...

【技术保护点】
1.一种基于UCL语义标引的知识图谱构建方法，其特征在于，包括如下步骤：/n(1)从开放链接数据库中提取实体、实体基础属性和实体间关联关系构建基础实体库；/n(2)对获取的新闻信息进行清洗、语义解析标引成UCL实体，并根据新闻的5W特性，将UCL实体与基础实体库中普通实体间的关系分类，然后分别计算各普通实体在UCL实体中的语义重要程度，从而得到UCL实体与普通实体间的关联度，将UCL实体融入基础实体库，完成初始UCL知识图谱的构建；/n(3)根据普通实体与UCL实体间的关联关系，将UCL实体作为普通实体间关系的“上下文”，利用关系的语义环境区分实体间的关系，据此在Transe算法模型中引入属于特定关系的上下文环境变量训练得到词向量，利用训练好的词向量模型对知识图谱补全。/n

【技术特征摘要】
1.一种基于UCL语义标引的知识图谱构建方法，其特征在于，包括如下步骤：
(1)从开放链接数据库中提取实体、实体基础属性和实体间关联关系构建基础实体库；
(2)对获取的新闻信息进行清洗、语义解析标引成UCL实体，并根据新闻的5W特性，将UCL实体与基础实体库中普通实体间的关系分类，然后分别计算各普通实体在UCL实体中的语义重要程度，从而得到UCL实体与普通实体间的关联度，将UCL实体融入基础实体库，完成初始UCL知识图谱的构建；
(3)根据普通实体与UCL实体间的关联关系，将UCL实体作为普通实体间关系的“上下文”，利用关系的语义环境区分实体间的关系，据此在Transe算法模型中引入属于特定关系的上下文环境变量训练得到词向量，利用训练好的词向量模型对知识图谱补全。

2.根据权利要求1所述的基于UCL语义标引的知识图谱构建方法，其特征在于，所述步骤(1)中构建基础实体库时，首先使用开放链接数据库wikidata中的数据作为源数据建立基础的知识库；然后从其它开放链接数据中提取实体和关系，并对齐到基础实体库中，完善和纠正基础实体库中的实体属性和关联关系信息；所述其它开放链接数据为百度百科、互动百科和/或中文维基百科网站。

3.根据权利要求1所述的基于UCL语义标引的知识图谱构建方法，其特征在于，所述步骤(2)中根据词频选择UCL中待消歧实体，根据词频和词在文中的位置计算实体的语义重要程度，并根据实体间的词语相似度选取基础实体库中的目标实体集合，再从基础实体库中获取目标实体的同义实体和歧义实体加入目标实体集合作为候选实体集合，并从基础实体库中获取每个候选实体的关联实体集合作为候选实体的上下文环境；计算UCL中待消歧实体的上下文与候选实体的上下文的相似性作为实体间的环境相似度；取环境相似度...

【专利技术属性】
技术研发人员：杨鹏，李超，纪雯，马卫东，
申请(专利权)人：东南大学，
类型：发明
国别省市：江苏;32

全部详细技术资料下载我是这个专利的主人