一种构建公平的链接预测评估系统的方法技术方案

技术编号：19903613 阅读：60 留言：0更新日期：2018-12-26 02:58

本发明专利技术公开了一种可构建公平有效评估不同链接预测方法评测系统的方法。提出了一种自动收集、选取和生成测试数据集的通用方法，其中包含两种算法：基于层次聚类的数据集二叉聚类树构建算法和基于最深叶节点优先的数据集选择算法。提出了一种基于网络拓扑指标的数据集难度系数度量方法，其中利用了最优子集回归算法进行难度系数的科学度量。提供了一套易用的访问接口和操作数据集的API的设计标准和具体实现，使得新链接预测方法可方便地进行评测。相较于其他评测方法，本发明专利技术方法可公平地比较不同链接预测方法之间的性能优劣，并且能够有效地评估链接预测方法的通用性。

全部详细技术资料下载

【技术实现步骤摘要】
一种构建公平的链接预测评估系统的方法
本专利技术涉及评测系统构建领域，特别是涉及一种构建公平的链接预测评估系统的方法。
技术介绍
社交网络链接预测作为数据挖掘领域的热门问题之一，在线上社交网络中的好友推荐、电子商务中的商品推荐等领域中拥有重要的应用前景。应用链接预测的技术可以帮助公司挖掘潜在的社交关系，增加用户粘性，提升公司用户给公司带来的商业价值。至今，已有许多基于不同视角的社交网络链接预测技术和相关工作被相继提出。这些方法和工作虽都声称自己提出的链接预测技术具有良好的性能，但由于不存在一种公平有效地统一评估平台，因此无法客观地比较这些不同的链接预测技术之间的优劣，因而对筛选这些链接预测技术带来了困难。同时，现在仍没有一种有效的评估技术，可以对每一种链接预测技术其适用领域进行明确界定，导致很难根据实际应用场景的不同选择最合适该场景的链接预测技术，进而带来性能上的损失。本专利技术的目的是对现有的链接预测技术进行公平评估，对比不同链接预测技术的优劣。在本领域现有的技术仅是专利技术人根据先验知识，主观地选取的固定的若干评测数据集，并使用这些评测数据集对链接预测方法进行评估，缺乏一套系统化的、客观的流程来收集、选择评测数据集。由于实验表明评测数据集的选取对链接预测方法的实验结果有很大影响，缺少这套系统化客观的流程会导致利用现有技术评测不同链接预测方法的不公平性。并且，现有的技术缺乏对链接预测方法通用性的研究，即缺少对特定链接预测方法是否会在不同类网络数据集上呈现性能差异性的分析。
技术实现思路
为了以上问题，本专利技术提供一种构建公平的链接预测评估系统的方法，可公平...

【技术保护点】
1.一种构建公平的链接预测评估系统的方法，具体步骤如下，其特征在于：1）收集原始数据集的方法：评测系统用以评估不同链接预测方法的测试数据集应是公开、被广泛接受的数据集，使用爬虫程序抓取互联网公开数据集仓库相应网页，并构造网页对应HTML代码的DOM树，依据该DOM树中下载标签对应的超链接爬取满足该要求的数据集，并根据其应用场景将收集得到的数据集分为若干类别；2）计算每一类别应选数据集数量：有效的评测系统应保证数据集冗余度较小，因此需对每一类别中应选出的作为评测数据集的数据集数量加以限制，每一类别对应的科研文献数量越多，则可说明该类别的研究热度越高，所以该类别所选出的评测数据集数量应比研究热度小的类别所选出的数量要多，以满足有效评估该类别中过往和将来提出的链接预测方法的需求，使用交叉熵来衡量应选数据集数量在类别上的分布与科研文献在类别上的分布之间的相似程度，并以该相似程度为目标函数，使用最优化算法计算得到最优的应选数据集数量在类别上的分布；3）基于层次聚类的数据集二叉聚类树构建算法：自每一类别选出的评测数据集应具有代表性，亦即选出的评测数据集应与尽可能多的同类数据集相似，为衡量同类数据集...

【技术特征摘要】
1.一种构建公平的链接预测评估系统的方法，具体步骤如下，其特征在于：1）收集原始数据集的方法：评测系统用以评估不同链接预测方法的测试数据集应是公开、被广泛接受的数据集，使用爬虫程序抓取互联网公开数据集仓库相应网页，并构造网页对应HTML代码的DOM树，依据该DOM树中下载标签对应的超链接爬取满足该要求的数据集，并根据其应用场景将收集得到的数据集分为若干类别；2）计算每一类别应选数据集数量：有效的评测系统应保证数据集冗余度较小，因此需对每一类别中应选出的作为评测数据集的数据集数量加以限制，每一类别对应的科研文献数量越多，则可说明该类别的研究热度越高，所以该类别所选出的评测数据集数量应比研究热度小的类别所选出的数量要多，以满足有效评估该类别中过往和将来提出的链接预测方法的需求，使用交叉熵来衡量应选数据集数量在类别上的分布与科研文献在类别上的分布之间的相似程度，并以该相似程度为目标函数，使用最优化算法计算得到最优的应选数据集数量在类别上的分布；3）基于层次聚类的数据集二叉聚类树构建算法：自每一类别选出的评测数据集应具有代表性，亦即选出的评测数据集应与尽可能多的同类数据集相似，为衡量同类数据集间的相似度，采用层次聚类的思想，自顶向下根据同类数据集的数据集特性和网络拓扑属性对同类数据集进行划分进而构建二叉聚类树；4）基于最深叶节点优先的数据集选择算法：构建完二叉聚类树后，需根据每一类别对应的聚类树空间结构，从中选取出代表该类别的若干数据集，选择过程自聚类树根节点的较大子节点开始，递归地对每一非叶节点选择代表该非叶节点的数据集，直到已选择出2）中所计算出的该类别应选数据集数量的数据集为止；5）基于最优子集回归的数据集难度系数度量：设定数据集的难度系数值与其网络拓扑结构的若干不同度量值线性相关，从1）中收集出的所有数据集中简单抽样出若干数据集，并利用若干经典的链接预测方法在这些数据集上的实验表现，使用最优子集回归法建立数据集难度系数值与网络拓扑结构度量值之间的线性关系，将得到的难度系数值进行0-1标准化，并将0-1区间划分为5个部分，分别为难、中难、中等、中易、易，对4）中选择出的数据集进行难度标定；6）生成测试数据集：由于所有评测数据集均为公开获取的，为保证公平性，需对评测数据集进行变换，以生成供评估新链接预测方法的测试数据集；7）操作数据集：提...

【专利技术属性】
技术研发人员：汪鹏，肖君彦，孟越，
申请(专利权)人：东南大学，
类型：发明
国别省市：江苏,32

全部详细技术资料下载我是这个专利的主人