当前位置: 首页 > 专利查询>东南大学专利>正文

一种构建公平的链接预测评估系统的方法技术方案

技术编号:19903613 阅读:60 留言:0更新日期:2018-12-26 02:58
本发明专利技术公开了一种可构建公平有效评估不同链接预测方法评测系统的方法。提出了一种自动收集、选取和生成测试数据集的通用方法,其中包含两种算法:基于层次聚类的数据集二叉聚类树构建算法和基于最深叶节点优先的数据集选择算法。提出了一种基于网络拓扑指标的数据集难度系数度量方法,其中利用了最优子集回归算法进行难度系数的科学度量。提供了一套易用的访问接口和操作数据集的API的设计标准和具体实现,使得新链接预测方法可方便地进行评测。相较于其他评测方法,本发明专利技术方法可公平地比较不同链接预测方法之间的性能优劣,并且能够有效地评估链接预测方法的通用性。

【技术实现步骤摘要】
一种构建公平的链接预测评估系统的方法
本专利技术涉及评测系统构建领域,特别是涉及一种构建公平的链接预测评估系统的方法。
技术介绍
社交网络链接预测作为数据挖掘领域的热门问题之一,在线上社交网络中的好友推荐、电子商务中的商品推荐等领域中拥有重要的应用前景。应用链接预测的技术可以帮助公司挖掘潜在的社交关系,增加用户粘性,提升公司用户给公司带来的商业价值。至今,已有许多基于不同视角的社交网络链接预测技术和相关工作被相继提出。这些方法和工作虽都声称自己提出的链接预测技术具有良好的性能,但由于不存在一种公平有效地统一评估平台,因此无法客观地比较这些不同的链接预测技术之间的优劣,因而对筛选这些链接预测技术带来了困难。同时,现在仍没有一种有效的评估技术,可以对每一种链接预测技术其适用领域进行明确界定,导致很难根据实际应用场景的不同选择最合适该场景的链接预测技术,进而带来性能上的损失。本专利技术的目的是对现有的链接预测技术进行公平评估,对比不同链接预测技术的优劣。在本领域现有的技术仅是专利技术人根据先验知识,主观地选取的固定的若干评测数据集,并使用这些评测数据集对链接预测方法进行评估,缺乏一套系统化的、客观的流程来收集、选择评测数据集。由于实验表明评测数据集的选取对链接预测方法的实验结果有很大影响,缺少这套系统化客观的流程会导致利用现有技术评测不同链接预测方法的不公平性。并且,现有的技术缺乏对链接预测方法通用性的研究,即缺少对特定链接预测方法是否会在不同类网络数据集上呈现性能差异性的分析。
技术实现思路
为了以上问题,本专利技术提供一种构建公平的链接预测评估系统的方法,可公平地比较不同链接预测方法之间的性能优劣,并且能够有效地评估链接预测方法的通用性,为达此目的,本专利技术提供一种构建公平的链接预测评估系统的方法,具体步骤如下:1)收集原始数据集的方法:评测系统用以评估不同链接预测方法的测试数据集应是公开、被广泛接受的数据集,使用爬虫程序抓取互联网公开数据集仓库相应网页,并构造网页对应HTML代码的DOM树,依据该DOM树中下载标签对应的超链接爬取满足该要求的数据集,并根据其应用场景将收集得到的数据集分为若干类别;2)计算每一类别应选数据集数量:有效的评测系统应保证数据集冗余度较小,因此需对每一类别中应选出的作为评测数据集的数据集数量加以限制,每一类别对应的科研文献数量越多,则可说明该类别的研究热度越高,所以该类别所选出的评测数据集数量应比研究热度小的类别所选出的数量要多,以满足有效评估该类别中过往和将来提出的链接预测方法的需求,使用交叉熵来衡量应选数据集数量在类别上的分布与科研文献在类别上的分布之间的相似程度,并以该相似程度为目标函数,使用最优化算法计算得到最优的应选数据集数量在类别上的分布;3)基于层次聚类的数据集二叉聚类树构建算法:自每一类别选出的评测数据集应具有代表性,亦即选出的评测数据集应与尽可能多的同类数据集相似,为衡量同类数据集间的相似度,采用层次聚类的思想,自顶向下根据同类数据集的数据集特性和网络拓扑属性对同类数据集进行划分进而构建二叉聚类树;4)基于最深叶节点优先的数据集选择算法:构建完二叉聚类树后,需根据每一类别对应的聚类树空间结构,从中选取出代表该类别的若干数据集,选择过程自聚类树根节点的较大子节点开始,递归地对每一非叶节点选择代表该非叶节点的数据集,直到已选择出2)中所计算出的该类别应选数据集数量的数据集为止;5)基于最优子集回归的数据集难度系数度量:设定数据集的难度系数值与其网络拓扑结构的若干不同度量值线性相关,从1)中收集出的所有数据集中简单抽样出若干数据集,并利用若干经典的链接预测方法在这些数据集上的实验表现,使用最优子集回归法建立数据集难度系数值与网络拓扑结构度量值之间的线性关系,将得到的难度系数值进行0-1标准化,并将0-1区间划分为5个部分,分别为难、中难、中等、中易、易,对4)中选择出的数据集进行难度标定;6)生成测试数据集:由于所有评测数据集均为公开获取的,为保证公平性,需对评测数据集进行变换,以生成供评估新链接预测方法的测试数据集;7)操作数据集:提供了三个操作数据集的API:1.网络连通性:提供了自动获取最大连通分量的API;2.节点度:提供了根据节点度获得子图的API;3.聚集系数:提供了根据节点聚集系数获得子图的API8)结果评估:在各类别中满足需评估的链接预测方法要求的评测数据集上运行该链接预测方法,使用AUC和准确率作为实验结果度量,结合各评测数据集的难度系数,给出最终的结果评估,根据链接预测方法在各类别评测数据集上的表现差异,评估预测方法的通用性。作为本专利技术进一步改进,所述步骤2)中的最优化算法,在数据集类数<10且每一类应选数据集的数量变化区间长度<8的情况下,直接使用网格搜索法获得全局最优解,如果复杂度高于上述情况,则可使用遗传算法等最优化算法进行求解。作为本专利技术进一步改进,所述步骤3)中的数据集特性,指网络数据集是否为有向图、是否为时序网络、是否为有权重网络。作为本专利技术进一步改进,所述步骤3)中的网络拓扑属性,指依据网络拓扑计算出了若干度量的值,例如图的最大度、图的基尼系数。作为本专利技术进一步改进,步骤3)中的层次聚类,根据网络拓扑属性对节点进行划分时,利用的是基于欧几里得距离的2-mean聚类算法。作为本专利技术进一步改进,步骤5)中的难度系数,其绝对数值无直接意义,但不同数据集的难度系数值之间的相对数量关系可用来反映不同数据集之间的难度差异。作为本专利技术进一步改进,步骤6)变换方法如下:首先使用一对一随机映射将原数据集中的顶点标号进行替换,然后打乱替换后的数据集中每一条边的记录,最后按照7-2-1原则对数据集进行划分,得到供训练的训练集、验证集和供评估的测试集,此变换保证了无法根据提供的训练集和验证集和网上公开的原数据集推测出测试集,并且变换前后不影响预测结果。作为本专利技术进一步改进,步骤8)中的AUC,指的是ROC曲线下的面积,ROC曲线是描述真正例率和假正例率之间数量关系的曲线。本专利技术一种构建公平的链接预测评估系统的方法,与现有技术相比,具有以下优点:本专利技术方法提出了一种新型的构建链接预测评估系统的解决思路,相较于其他评估链接预测方法的技术,本专利技术方法更具易用性和公平性,并且可以根据用户的需求对评测的数据集进行修改。相较于其他技术,本专利技术方法还可以指出链接预测方法在不同类别的网络数据集上的相对优劣,进而可评估该方法的通用性。本专利技术提出的构建链接预测评估系统的方法具有较好的通用性,据本方法构建出的链接预测评估系统可对现有绝大部分链接预测的方法进行评估。因此本专利技术具有较好的应用和推广范围。附图说明图1为本专利技术方法的逻辑流程图。图2为本专利技术聚类树生成示意图。具体实施方式下面结合附图与具体实施方式对本专利技术作进一步详细描述:本专利技术提供一种构建公平的链接预测评估系统的方法,可公平地比较不同链接预测方法之间的性能优劣,并且能够有效地评估链接预测方法的通用性。本专利技术的构建公平有效评估不同链接预测方法评测系统的方法,具体流程如图1所示包括步骤为:1)收集原始数据集:自四个被广泛接受的公开在线网络数据集数据库中收集了218个数据集。这四个在线数据集数据库网站分别本文档来自技高网...

【技术保护点】
1.一种构建公平的链接预测评估系统的方法,具体步骤如下,其特征在于:1)收集原始数据集的方法:评测系统用以评估不同链接预测方法的测试数据集应是公开、被广泛接受的数据集,使用爬虫程序抓取互联网公开数据集仓库相应网页,并构造网页对应HTML代码的DOM树,依据该DOM树中下载标签对应的超链接爬取满足该要求的数据集,并根据其应用场景将收集得到的数据集分为若干类别;2)计算每一类别应选数据集数量:有效的评测系统应保证数据集冗余度较小,因此需对每一类别中应选出的作为评测数据集的数据集数量加以限制,每一类别对应的科研文献数量越多,则可说明该类别的研究热度越高,所以该类别所选出的评测数据集数量应比研究热度小的类别所选出的数量要多,以满足有效评估该类别中过往和将来提出的链接预测方法的需求,使用交叉熵来衡量应选数据集数量在类别上的分布与科研文献在类别上的分布之间的相似程度,并以该相似程度为目标函数,使用最优化算法计算得到最优的应选数据集数量在类别上的分布;3)基于层次聚类的数据集二叉聚类树构建算法:自每一类别选出的评测数据集应具有代表性,亦即选出的评测数据集应与尽可能多的同类数据集相似,为衡量同类数据集间的相似度,采用层次聚类的思想,自顶向下根据同类数据集的数据集特性和网络拓扑属性对同类数据集进行划分进而构建二叉聚类树;4)基于最深叶节点优先的数据集选择算法:构建完二叉聚类树后,需根据每一类别对应的聚类树空间结构,从中选取出代表该类别的若干数据集,选择过程自聚类树根节点的较大子节点开始,递归地对每一非叶节点选择代表该非叶节点的数据集,直到已选择出2)中所计算出的该类别应选数据集数量的数据集为止;5)基于最优子集回归的数据集难度系数度量:设定数据集的难度系数值与其网络拓扑结构的若干不同度量值线性相关,从1)中收集出的所有数据集中简单抽样出若干数据集,并利用若干经典的链接预测方法在这些数据集上的实验表现,使用最优子集回归法建立数据集难度系数值与网络拓扑结构度量值之间的线性关系,将得到的难度系数值进行0‑1标准化,并将0‑1区间划分为5个部分,分别为难、中难、中等、中易、易,对4)中选择出的数据集进行难度标定;6)生成测试数据集:由于所有评测数据集均为公开获取的,为保证公平性,需对评测数据集进行变换,以生成供评估新链接预测方法的测试数据集;7)操作数据集:提供了三个操作数据集的API:1. 网络连通性:提供了自动获取最大连通分量的API;2. 节点度:提供了根据节点度获得子图的API;3. 聚集系数:提供了根据节点聚集系数获得子图的API8)结果评估:在各类别中满足需评估的链接预测方法要求的评测数据集上运行该链接预测方法,使用AUC和准确率作为实验结果度量,结合各评测数据集的难度系数,给出最终的结果评估,根据链接预测方法在各类别评测数据集上的表现差异,评估预测方法的通用性。...

【技术特征摘要】
1.一种构建公平的链接预测评估系统的方法,具体步骤如下,其特征在于:1)收集原始数据集的方法:评测系统用以评估不同链接预测方法的测试数据集应是公开、被广泛接受的数据集,使用爬虫程序抓取互联网公开数据集仓库相应网页,并构造网页对应HTML代码的DOM树,依据该DOM树中下载标签对应的超链接爬取满足该要求的数据集,并根据其应用场景将收集得到的数据集分为若干类别;2)计算每一类别应选数据集数量:有效的评测系统应保证数据集冗余度较小,因此需对每一类别中应选出的作为评测数据集的数据集数量加以限制,每一类别对应的科研文献数量越多,则可说明该类别的研究热度越高,所以该类别所选出的评测数据集数量应比研究热度小的类别所选出的数量要多,以满足有效评估该类别中过往和将来提出的链接预测方法的需求,使用交叉熵来衡量应选数据集数量在类别上的分布与科研文献在类别上的分布之间的相似程度,并以该相似程度为目标函数,使用最优化算法计算得到最优的应选数据集数量在类别上的分布;3)基于层次聚类的数据集二叉聚类树构建算法:自每一类别选出的评测数据集应具有代表性,亦即选出的评测数据集应与尽可能多的同类数据集相似,为衡量同类数据集间的相似度,采用层次聚类的思想,自顶向下根据同类数据集的数据集特性和网络拓扑属性对同类数据集进行划分进而构建二叉聚类树;4)基于最深叶节点优先的数据集选择算法:构建完二叉聚类树后,需根据每一类别对应的聚类树空间结构,从中选取出代表该类别的若干数据集,选择过程自聚类树根节点的较大子节点开始,递归地对每一非叶节点选择代表该非叶节点的数据集,直到已选择出2)中所计算出的该类别应选数据集数量的数据集为止;5)基于最优子集回归的数据集难度系数度量:设定数据集的难度系数值与其网络拓扑结构的若干不同度量值线性相关,从1)中收集出的所有数据集中简单抽样出若干数据集,并利用若干经典的链接预测方法在这些数据集上的实验表现,使用最优子集回归法建立数据集难度系数值与网络拓扑结构度量值之间的线性关系,将得到的难度系数值进行0-1标准化,并将0-1区间划分为5个部分,分别为难、中难、中等、中易、易,对4)中选择出的数据集进行难度标定;6)生成测试数据集:由于所有评测数据集均为公开获取的,为保证公平性,需对评测数据集进行变换,以生成供评估新链接预测方法的测试数据集;7)操作数据集:提...

【专利技术属性】
技术研发人员:汪鹏肖君彦孟越
申请(专利权)人:东南大学
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1