一种基于形式概念分析技术的增量式实体摘要方法技术

技术编号:23852221 阅读:33 留言:0更新日期:2020-04-18 09:14
一种基于形式概念分析技术的增量式实体摘要生成方法,包括如下步骤:S100:分别构造初始知识图谱RDF数据的初始形式背景k

An incremental entity summarization method based on formal concept analysis

【技术实现步骤摘要】
一种基于形式概念分析技术的增量式实体摘要方法
本公开属于人工智能、数据挖掘、互联网
,具体涉及一种基于形式概念分析技术的增量式实体摘要生成方法。
技术介绍
目前,随着语义网的蓬勃发展,互联网中积累了越来越多的以非结构化形式存储的信息。然而,由于计算机擅于处理结构化数据,为了让计算机能够处理这些非结构化形式存储的信息,将其用知识图谱的形式进行存储,可以很好的理解和应用这些非结构化数据的语义和关系。因此,知识图谱,作为新一代人工智能的基础设施之一,得到了学术界和工业界广泛的关注。知识图谱,是结构化的语义知识库,用“实体-关系-实体”三元组、实体和其相关的“属性-值”对的形式,来描述物理世界中的概念及其相互关系,实体间通过关系相互联结,构成网状的知识结构。知识图谱中的实体可以用资源描述框架(ResourceDescriptionFramework)来进行统一描述,具体地,是由多个“主语-谓语-宾语”形式的三元组进行表示。然而,在当今互联网、物联网、云计算等技术不断发展的背景下,用户产生了海量的数据,且在不断增加。因此,用户在浏览不断增长的大量知识图谱信息的同时,不可避免地会陷入信息过载的境地。例如,最近版本的知识图谱DBpedia就包含了17亿的RDF三元组、660万实体,相当于平均每个实体包含258个描述信息。因此,有必要为用户提供一个简洁的实体摘要信息,从而能够有效避免用户陷入信息过载。实体摘要技术,旨在从大量冗长的知识图谱数据中,为用户提取出简洁而又具有代表性的信息。其实质是对“属性-值”对进行排序后取前k个代表作为实体特征描述。目前,对于知识图谱的实体摘要技术有很多,但是和基准数据依然存在较大差距,仍存在较大的提升空间。并且,当前的实体摘要方法大多没有考虑到数据的动态增长特性,仅仅考虑针对某一时间点的某一版本的知识图谱的实体摘要,这种情况导致在含有大量知识图谱数据背景下,得到相应的实体摘要的效率就会降低。形式概念分析(FormalConceptAnalysis)是一种有力的反应“对象”和“属性”二元关系的完备的数学工具,目前已经被广泛应用于数据挖掘、软件工程、语义网等领域。FCA擅长于分析二元关系数据,而知识图谱中的RDF三元组中某个实体的“谓语”和“宾语”能够被转化为二元表关系。
技术实现思路
鉴于此,本公开提供了一种基于形式概念分析技术的增量式实体摘要生成方法,包括如下步骤:S100:分别构造初始知识图谱RDF数据的初始形式背景k1及新增知识图谱RDF数据的新增形式背景k2;S200:分别构造初始形式背景k1的概念格C1及新增形式背景k2的概念格C2;S300:对概念格C1的外延和概念格C2的外延求交集,得到集合T;S400:由集合T中的外延元素,得到对应的内涵,构成最终的概念格;S500:基于所形成的最终的概念格,利用排序算法,得到实体摘要。通过上述技术方案,首先,本方法能够在构造概念格的形式背景过程中,将“对象”按照一定规则分割,能够挖掘出“对象”和“属性”的潜在的关联关系,使得最终的概念格得到的排序结果更能符合实际情况;其次,本方法利用概念格的“外延”基数进行排序,有很好的概念格理论支撑,能够挖掘出最重要、最具代表性的三元组;总之,本方法是一种增量式的构造概念格的方法,在动态知识图谱背景下,能够有很好的数据处理性能。附图说明图1是本公开一个实施例中所提供的一种基于形式概念分析技术的增量式实体摘要生成方法的流程示意图;图2是本公开一个实施例中初始知识图谱RDF数据、新增知识图谱RDF数据,以及对应的形式背景的示意图;图3(a)和图3(b)是本公开一个实施例中得到的概念格C1、C2示意图;图4(a)是本公开一个实施例中最终知识图谱的概念格;图4(b)是本公开一个实施例中得到的最终排序结果示意图;图5是本公开一个实施例中本方法与非增量式的实体摘要方法的数据处理性能对比图。具体实施方式下面结合附图1至附图5对本专利技术进行进一步的详细说明。在一个实施例中,参见图1,其公开了一种基于形式概念分析技术的增量式实体摘要生成方法,包括如下步骤:S100:分别构造初始知识图谱RDF数据的初始形式背景k1及新增知识图谱RDF数据的新增形式背景k2;S200:分别构造初始形式背景k1的概念格C1及新增形式背景k2的概念格C2;S300:对概念格C1的外延和概念格C2的外延求交集,得到集合T;S400:由集合T中的外延元素,得到对应的内涵,构成最终的概念格;S500:基于所形成的最终的概念格,利用排序算法,得到实体摘要。就该实施例而言,本方法利用的形式概念分析技术,将知识图谱中实体的RDF三元组的“谓语”和“宾语”分别转化为形式概念分析技术中的“属性”和“对象”,构造出“属性”和“对象”的形式背景,然后构造概念格,利用概念格结构特征,对RDF三元组排序,得到相应的实体摘要。其中,在构造“属性”和“对象”的形式背景时,将“对象”按照一定规则分割后,得到其与“属性”的关联关系,能够最大程度地挖掘出两者之间的关系。利用生成的概念格的外延基数的大小,对外延中所有的“对象”进行评分,即可得到对应的RDF三元组的评分,输出最重要和最有代表性的三元组,即:当前实体的摘要信息。与传统实体摘要方法不同,本方法利用一种增量式构造概念格的方法,构造概念格,然后利用概念格结构特征,对概念格中的概念进行排序,最后生成实体摘要,能够解决在动态知识图谱中的实体摘要问题。在另一个实施例中,所述步骤S100进一步包括如下子步骤:S101:将知识图谱RDF中的三元组的“谓语”和“宾语”分别作为形式概念分析技术中形式背景的“属性”和“对象”;S102:将“对象”按照一定规则分割后,找出所有的其与“属性”的关联关系;S103:按照子步骤S101的方式,将初始知识图谱RDF三元组和新增知识图谱RDF三元组,根据子步骤S102得到的“属性”和“对象”的关联关系,分别构造初始形式背景k1和新增形式背景k2。就该实施例而言,初始知识图谱是指未新增RDF三元组数据的知识图谱,新增知识图谱是指新增的RDF三元组数据构成的知识图谱。此处的一定规则可以是特殊字符,也可以是字符的大小写。特殊字符包括:“/”、“#”等,按照这种规则进行分割,一个长字符串最后被分割为几个字符串。比如:“JapaneseMysteryWriters”可以分割成“Japanese”“Mystery”“Writers”三个字符;“Japanese_people”可以分割成“Japanese”“people”两个字符。在另一个实施例中,所述步骤S200进一步包括:遍历初始形式背景k1及新增形式背景k2中的所有“对象”和“属性”,按照初始形式背景k1及新增形式背景k2中已有的关联关系,通过形式概念分析技术中的“下运算”↓和“上运算”↑,分别得到概念格本文档来自技高网
...

【技术保护点】
1.一种基于形式概念分析技术的增量式实体摘要生成方法,包括如下步骤:/nS100:分别构造初始知识图谱RDF数据的初始形式背景k

【技术特征摘要】
1.一种基于形式概念分析技术的增量式实体摘要生成方法,包括如下步骤:
S100:分别构造初始知识图谱RDF数据的初始形式背景k1及新增知识图谱RDF数据的新增形式背景k2;
S200:分别构造初始形式背景k1的概念格C1及新增形式背景k2的概念格C2;
S300:对概念格C1的外延和概念格C2的外延求交集,得到集合T;
S400:由集合T中的外延元素,得到对应的内涵,构成最终的概念格;
S500:基于所形成的最终的概念格,利用排序算法,得到实体摘要。


2.根据权利要求1所述的方法,其中,优选的,所述步骤S100进一步包括如下子步骤:
S101:将知识图谱RDF中的三元组的“谓语”和“宾语”分别作为形式概念分析技术中形式背景的“属性”和“对象”;
S102:将“对象”按照一定规则分割后,找出所有的其与“属性”的关联关系;
S103:按照子步骤S101的方式,将初始知识图谱RDF三元组和新增知识图谱RDF三元组,根据子步骤S102得到的“属性”和“对象”的关联关系,分别构造初始形式背景k1和新增形式背...

【专利技术属性】
技术研发人员:郝飞杨二贺高杰张立臣李黎王小明
申请(专利权)人:陕西师范大学
类型:发明
国别省市:陕西;61

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1