一种基于PageRank算法的医疗数据爬取方法及系统技术方案

技术编号：22330236 阅读：33 留言：0更新日期：2019-10-19 12:18

本发明专利技术公开了一种基于PageRank算法的医疗数据爬取方法及系统。本发明专利技术的医疗数据爬取方法，包括步骤：用户根据需要输入要爬取的医疗关键词；计算网页时间因子及潜在相关性因子；计算得到第一轮PR值，并临时存入数据库中；对各网页中的超链接进行权重计算；计算得到第二轮PR值，并更新数据库；比较PR值大小，获取PR值最大的N个网页；输出PR值最大的N个网页。本发明专利技术能够有效的解决传统通用爬虫算法偏重旧网页、主题漂移和偏重综合性网页的缺陷，可以高效、准确的爬取医疗数据网页。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于PageRank算法的医疗数据爬取方法及系统
本专利技术属于医疗数据获取领域，具体地说是一种基于PageRank算法的医疗数据爬取方法及系统。
技术介绍
随着人工智能技术的发展，医学领域的智能化过程也得到了推广。目前已经出现了构建基于深度学习的远程健康辅助诊断模型的想法。因此，如何快速准确地获取医疗数据成为首要问题。医疗数据的主要来源包括互联网和医疗信息数据库。互联网是一个超文本组织，拥有约3亿页。它包含许多医生和患者之间在线交流的网站。该网站包含大量有关患者病情和医生诊断结果的信息。然而，互联网具有复杂网页和混乱信息的特征，已有的通用爬取算法存在着旧网页干扰严重、主题漂移、偏向于综合性网页等问题。为了解现有技术的发展状况，对已有的专利和文献进行了检索、比较和分析，筛选出如下与本专利技术相关度比较高的技术信息：现有专利1：201510342671.0基于BerkeleyDB数据库的主题爬虫系统此专利技术实现了基于BerkeleyDB数据库的主题爬虫系统，该系统的目标是为用户提供一个领域信息采集工具，并且只采集与特定主题相关的网页，从而能节省软硬件资源和较快地更新页面。技术方案是：首先对网页进行分析，根据主题相关性算法和爬取策略对网页进行过滤，只保留与主题相关的网页的链接并将其加入到待爬取URL队列，之后再根据网页爬取策略选择下一个要爬取的页面的URL，循环重复此过程，直到满足系统终止条件。在网页下载的过程中将其URL和概要信息插入到Berkeley数据库中，在创建数据库配置对象时对该数据库设置延迟写功能，当在内存中存储了指定大小的数据时再一次写入磁...

【技术保护点】
1.一种基于PageRank算法的医疗数据爬取方法，其特征在于，包括步骤：S1、用户根据需要输入要爬取的医疗关键词；S2、计算网页时间因子及潜在相关性因子；S3、计算得到第一轮PR值，并临时存入数据库中；S4、对各网页中的超链接进行权重计算；S5、计算得到第二轮PR值，并更新数据库；S6、比较PR值大小，用户根据需要获取PR值最大的N个网页；S7、输出PR值最大的N个网页。

【技术特征摘要】
1.一种基于PageRank算法的医疗数据爬取方法，其特征在于，包括步骤：S1、用户根据需要输入要爬取的医疗关键词；S2、计算网页时间因子及潜在相关性因子；S3、计算得到第一轮PR值，并临时存入数据库中；S4、对各网页中的超链接进行权重计算；S5、计算得到第二轮PR值，并更新数据库；S6、比较PR值大小，用户根据需要获取PR值最大的N个网页；S7、输出PR值最大的N个网页。2.根据权利要求1所述的一种基于PageRank算法的医疗数据爬取方法，其特征在于，步骤S1具体包括：S11、用户根据爬取需要，自行设定关键词C。3.根据权利要求2所述的一种基于PageRank算法的医疗数据爬取方法，其特征在于，步骤S2具体包括：S21、计算网页的时间因子Tu，计算公式如下：其中，δ为(0，1]之间的限定系数，保证分母在正常范围内；Ttime为距离最近一次网页更新的时间间隔；Tnumber为最近一次下载的网页文件的数量；Tdownload为最近一次网页被下载的时间间隔；S22、计算潜在相关性因子Pu，计算公式如下：Pu＝α*inherited(currenturl)+(1-α)*neighborhood(currenturl)其中，α为小于1的衰减因子，currenturl表示当前链接，inherited(currenturl)表示当前网页从父链接继承得到的分数，计算公式如下：其中，β为小于1的衰减因子，parenturl为currenturl的父链接；score(C，parenturl)为通过字符串匹配函数计算父链接与关键词C之间的相关性的分；inherited(parenturl)表示parenturl从其父节点继承得到的分数，μ为相关性阈值；neiborhood(currenturl)代表当前链接周围的文本与关键词之间的相关性，其计算公式如下：neiborhood(currenturl)＝γ*ln(score(C，anchor)+1)+(1-γ)*ln(score(C，anchortext)+1)其中，γ为小于1的衰减因子，anchor代表当前链接中的文本信息，anchortext代表当前链接周围的文本信息，即链接上下文；score(C，anchor)表示关键词与当前链接中文本信息的相关性得分，score(C，anchortext)表示关键词与当前链接周围文本信息的相关性得分。4.根据权利要求3所述的一种基于PageRank算法的医疗数据爬取方法，其特征在于，步骤S3具体包括：S31、根据PageRank算法计算原始PR...

【专利技术属性】
技术研发人员：王刘旺，戴彦，韩嘉佳，颜拥，姚影，杨杨，喻鹏，郝茂杰，
申请(专利权)人：国网浙江省电力有限公司电力科学研究院，国家电网有限公司，北京邮电大学，
类型：发明
国别省市：浙江,33

全部详细技术资料下载我是这个专利的主人