当前位置: 首页 > 专利查询>天津大学专利>正文

面向网络安全学科新领域出现的量化方法技术

技术编号:19745282 阅读:32 留言:0更新日期:2018-12-12 04:44
本发明专利技术公开了一种面向网络安全学科新领域出现的量化方法:将收集到的数据提取可用数据,并对无关数据进行筛选、清洗;得到的文章、领域等实体构建它们之间的关系映射;根据领域包含的文章,使用量化新领域出现方法确定领域的开始;根据领域之间的映射关系构建领域派生依赖关系网络。本发明专利技术通过识别新领域的出现与实际意义的衍生关系,构建了领域衍生空间(domain‑derived space)来呈现学科内不同领域的更替,并且基于这个领域衍生空间,提出了研究领域发展的方法并且分析了其祖先领域的多种特征。

【技术实现步骤摘要】
面向网络安全学科新领域出现的量化方法
本专利技术涉及数据网络分析与挖掘领域,更具体的说,是涉及一种面向网络安全学科新领域出现的量化方法。
技术介绍
近年来,由于在学术界和工业界开展了大量的研究工作,而研究进展和结果往往通过发表文章来阐述,这使得世界各地的科学家们通过不断创作出大量的研究论文来促进科学的进步,为全世界科学的发现与传播提供了技术基础。此外,研究人员通过网络共享出他们的研究成果,各种学术数据可以很容易地被访问,这使我们能够以一种新的视角来研究科学本身。然而,大量的学术数据的迅速崛起给数据管理和分析带来了新的问题和挑战,因此需要我们开发更多强大的数据分析技术来分析大数据背后隐藏的信息。对于学术数据分析,由于数据量和各种数据类型的增加,造成实体与实体之间映射关系呈指数递增,这使得其分析过程具有挑战性。同时,大量的学术数据是科技进步和现代科学各个方面电脑化的直接结果。因此,学者从现有数据中为特定目标提取简明见解至关重要。研究人员通过对这些数据进行清洗来保证数据的准确性,提取研究对象,进而构建了各种数据网络,包括引用网络等等。大量的学术文章构成的引文关系,实现了我们对文章聚集后形成的领域衍生关系的构建,针对有效的领域衍生关系,我们可以探索学科在其发展史上,其所包含的领域的变化模式。
技术实现思路
本专利技术的目的是为了克服现有技术中的不足,提供了一种面向网络安全学科新领域出现的量化方法,通过识别新领域的出现与实际意义的衍生关系,构建了领域衍生空间(domain-derivedspace)来呈现学科内不同领域的更替,并且基于这个领域衍生空间,提出了研究领域发展的方法并且分析了其祖先领域的多种特征。本专利技术的目的是通过以下技术方案实现的。本专利技术的面向网络安全学科新领域出现的量化方法,包括以下步骤:步骤一,数据预处理阶段:对收集到的数据提取所需数据,并对无关数据进行筛选、清洗,得到x个大领域、y个领域、z篇文章,构建三者之间的关系映射,根据领域包含的文章,使用量化新领域出现算法获取每个领域的开始文章以及每个领域的开始时间,确定每个领域的开始文章列表f_a(j);步骤二,构建网络阶段:(1)根据步骤一已有的关系映射获取领域衍生依赖关系,根据所有已获取的领域衍生依赖关系,构建依赖关系网络,由f_a(j)的参考文献属于领域i的占所有参考文献的比值,得到两个领域之间的相对优势AD(i→j);(2)使用生成随机领域衍生依赖关系网络算法构建随机领域衍生依赖关系网络,重复m次,根据所有已获取的领域衍生依赖关系,构建依赖关系网络,由f_a(j)的参考文献属于领域i的占所有参考文献的比值,得到随机网络的每个领域衍生关系的相对优势RAD(i→j);(3)根据所有AD(i→j)与RAD(i→j)的值,计算出在原始网络中出现的依赖关系的统计显著性p_value(i→j),并根据p_value(i→j)值对所有领域衍生依赖关系进行筛选,得到领域衍生依赖关系统计验证网络。步骤一中所述量化新领域出现算法的具体过程为:(1)确定领域中所有文章出版年份的最大值Maxyear和最小值Minyear;(2)初始设定出版年份为Minyear,找到该年份对应的文章列表paperlist;(3)遍历文章列表paperlist中的每一篇文章paper,找到每个paper对应的引文信息citationlist;(4)遍历每篇paper对应的所有引文信息citationlist,对于citationlist中的每篇引文,判断是否与该paper属于同一领域;如果存在引文与该paper所属领域相同,则确定该paper属于领域的开始文章,加入开始文章列表,并且结束遍历citationlist,返回(3)查找下一篇文章;(5)如果找到至少一篇开始文章则确定领域的开始时间与领域的开始文章,否则对Minyear增加1,返回(2)查找下一个年份。步骤二中所述生成随机领域衍生依赖关系网络算法的具体过程为:(1)根据领域j已获取的开始文章列表f_a(j)及其开始时间Ey,选择出现在该领域开始时间之前的所有参考文献ralist;(2)对于f_a(j)中的每一篇开始文章,获取其参考文献数m;(3)对获取的参考文献ralist执行Fisher-Yatesshuffle算法得到新的参考文献ralist_new,然后生成一个随机数s,选择ralist_new中的第s个值作为随机生成的参考文献,映射出该参考文献对应的领域,与原始领域形成领域衍生关系映射;重复执行步骤(3)m次;(4)最终得到的所有领域衍生关系映射形成随机领域衍生依赖关系网络。与现有技术相比,本专利技术的技术方案所带来的有益效果是:(1)本专利技术构建了一个排除了领域衍生关系随机性的领域衍生依赖关系统计验证网络(Domains-DerivedDependencyStatisticallyValidatedNetwork),可根据网络研究其领域生产动态以及祖先领域动态。针对计算机安全学科的多种实证研究揭示了其演变模式,包括从跨学科到内生的转变,早期阶段的领域角色激发其他新领域的出现等结论。(2)本专利技术对于收集到的文章数据进行清洗,根据其所属领域以及文章之间的引用关系,映射出领域之间的衍生关系,进而构建领域衍生空间。对于生成的衍生依赖关系,明确其中的随机性,构建领域衍生依赖关系统计验证网络,来探究领域形成、演化的潜在模式。本专利技术有三个重要技术实现,具体来说,一是定义了一种量化新领域开始的方法;二是开发了一个生成随机领域衍生依赖关系网络的方法;三是提出了一系列对于网络结构特征的分析方法。(3)本专利技术以网络安全学科的科学文章为例,通过识别新领域的出现以及领域之间有效的衍生依赖关系,提出领域衍生空间。在此背景下,对领域生产总量的增长动态的分析表明,新领域的增长遵循相似的模式,并且由于这些领域之间的相互联系日益增加,在一个学科中很难产生新的领域。此外,交叉学科的影响,意味着来自其他学科的影响,在其出现的开始阶段意义重大。然而,随着学科逐渐成熟这种影响正在减少,而新领域越来越受现有领域的启发,这意味着新领域的出现从跨学科驱动转向内生影响。最后,它表明大部分新领域的出现不是受到已发展成熟领域的启发,而是由那些发展还处于早期阶段的领域所驱动的。这些结果将为进一步研究打开一扇门户,预测域的出现和发展,并探索模型的普遍价值。附图说明图1为本专利技术所述数据集的结构特征;图2为本专利技术所述量化新领域出现算法实现流程图;图3为本专利技术所述生成随机领域衍生依赖关系网络算法实现流程图;图4为本专利技术所述领域衍生依赖关系统计验证网络;图5为本专利技术所述分组领域累计产量增长率动态图;图6为本专利技术所述网络入度与出度数量分布变化图;图7为本专利技术所述网络平均入度与平均出度动态变化图;图8为本专利技术所述参考文献来源的比例变化图;图9为本专利技术所述参考文献在其所属领域的分布图;图10为本专利技术所述具有显著意义的子图分布图。具体实施方式为使本专利技术的目的、技术方案和优点更加清楚,下面将结合附图对本专利技术实施方式作进一步地详细描述。本专利技术主要解决三个问题:第一,如何识别有效的、有意义的领域衍生关系,以便我们可以量化新领域的出现?第二,新领域如何发展成熟,并且它如何随着时间的推移激发新的领域?第三本文档来自技高网...

【技术保护点】
1.一种面向网络安全学科新领域出现的量化方法,其特征在于,包括以下步骤:步骤一,数据预处理阶段:对收集到的数据提取所需数据,并对无关数据进行筛选、清洗,得到x个大领域、y个领域、z篇文章,构建三者之间的关系映射,根据领域包含的文章,使用量化新领域出现算法获取每个领域的开始文章以及每个领域的开始时间,确定每个领域的开始文章列表f_a(j);步骤二,构建网络阶段:(1)根据步骤一已有的关系映射获取领域衍生依赖关系,根据所有已获取的领域衍生依赖关系,构建依赖关系网络,由f_a(j)的参考文献属于领域i的占所有参考文献的比值,得到两个领域之间的相对优势AD(i→j);(2)使用生成随机领域衍生依赖关系网络算法构建随机领域衍生依赖关系网络,重复m次,根据所有已获取的领域衍生依赖关系,构建依赖关系网络,由f_a(j)的参考文献属于领域i的占所有参考文献的比值,得到随机网络的每个领域衍生关系的相对优势RAD(i→j);(3)根据所有AD(i→j)与RAD(i→j)的值,计算出在原始网络中出现的依赖关系的统计显著性p_value(i→j),并根据p_value(i→j)值对所有领域衍生依赖关系进行筛选,得到领域衍生依赖关系统计验证网络。...

【技术特征摘要】
1.一种面向网络安全学科新领域出现的量化方法,其特征在于,包括以下步骤:步骤一,数据预处理阶段:对收集到的数据提取所需数据,并对无关数据进行筛选、清洗,得到x个大领域、y个领域、z篇文章,构建三者之间的关系映射,根据领域包含的文章,使用量化新领域出现算法获取每个领域的开始文章以及每个领域的开始时间,确定每个领域的开始文章列表f_a(j);步骤二,构建网络阶段:(1)根据步骤一已有的关系映射获取领域衍生依赖关系,根据所有已获取的领域衍生依赖关系,构建依赖关系网络,由f_a(j)的参考文献属于领域i的占所有参考文献的比值,得到两个领域之间的相对优势AD(i→j);(2)使用生成随机领域衍生依赖关系网络算法构建随机领域衍生依赖关系网络,重复m次,根据所有已获取的领域衍生依赖关系,构建依赖关系网络,由f_a(j)的参考文献属于领域i的占所有参考文献的比值,得到随机网络的每个领域衍生关系的相对优势RAD(i→j);(3)根据所有AD(i→j)与RAD(i→j)的值,计算出在原始网络中出现的依赖关系的统计显著性p_value(i→j),并根据p_value(i→j)值对所有领域衍生依赖关系进行筛选,得到领域衍生依赖关系统计验证网络。2.根据权利要求1所述的面向网络安全学科新领域出现的量化方法,其特征在于,步骤一中所述量化新领域出现算法的具体过程为:(1)确定领域中所有文章出版年份的最大值Maxyear和最小值Minyear;(2)初始设定出版年份为Miny...

【专利技术属性】
技术研发人员:胡晓莉陈世展冯志勇黄科满
申请(专利权)人:天津大学
类型:发明
国别省市:天津,12

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1