【技术实现步骤摘要】
一种基于PageRank算法的医疗数据爬取方法及系统
本专利技术属于医疗数据获取领域,具体地说是一种基于PageRank算法的医疗数据爬取方法及系统。
技术介绍
随着人工智能技术的发展,医学领域的智能化过程也得到了推广。目前已经出现了构建基于深度学习的远程健康辅助诊断模型的想法。因此,如何快速准确地获取医疗数据成为首要问题。医疗数据的主要来源包括互联网和医疗信息数据库。互联网是一个超文本组织,拥有约3亿页。它包含许多医生和患者之间在线交流的网站。该网站包含大量有关患者病情和医生诊断结果的信息。然而,互联网具有复杂网页和混乱信息的特征,已有的通用爬取算法存在着旧网页干扰严重、主题漂移、偏向于综合性网页等问题。为了解现有技术的发展状况,对已有的专利和文献进行了检索、比较和分析,筛选出如下与本专利技术相关度比较高的技术信息:现有专利1:201510342671.0基于BerkeleyDB数据库的主题爬虫系统此专利技术实现了基于BerkeleyDB数据库的主题爬虫系统,该系统的目标是为用户提供一个领域信息采集工具,并且只采集与特定主题相关的网页,从而能节省软硬件资源和较快地更新页面。技术方案是:首先对网页进行分析,根据主题相关性算法和爬取策略对网页进行过滤,只保留与主题相关的网页的链接并将其加入到待爬取URL队列,之后再根据网页爬取策略选择下一个要爬取的页面的URL,循环重复此过程,直到满足系统终止条件。在网页下载的过程中将其URL和概要信息插入到Berkeley数据库中,在创建数据库配置对象时对该数据库设置延迟写功能,当在内存中存储了指定大小的数据时再一次写入磁 ...
【技术保护点】
1.一种基于PageRank算法的医疗数据爬取方法,其特征在于,包括步骤:S1、用户根据需要输入要爬取的医疗关键词;S2、计算网页时间因子及潜在相关性因子;S3、计算得到第一轮PR值,并临时存入数据库中;S4、对各网页中的超链接进行权重计算;S5、计算得到第二轮PR值,并更新数据库;S6、比较PR值大小,用户根据需要获取PR值最大的N个网页;S7、输出PR值最大的N个网页。
【技术特征摘要】
1.一种基于PageRank算法的医疗数据爬取方法,其特征在于,包括步骤:S1、用户根据需要输入要爬取的医疗关键词;S2、计算网页时间因子及潜在相关性因子;S3、计算得到第一轮PR值,并临时存入数据库中;S4、对各网页中的超链接进行权重计算;S5、计算得到第二轮PR值,并更新数据库;S6、比较PR值大小,用户根据需要获取PR值最大的N个网页;S7、输出PR值最大的N个网页。2.根据权利要求1所述的一种基于PageRank算法的医疗数据爬取方法,其特征在于,步骤S1具体包括:S11、用户根据爬取需要,自行设定关键词C。3.根据权利要求2所述的一种基于PageRank算法的医疗数据爬取方法,其特征在于,步骤S2具体包括:S21、计算网页的时间因子Tu,计算公式如下:其中,δ为(0,1]之间的限定系数,保证分母在正常范围内;Ttime为距离最近一次网页更新的时间间隔;Tnumber为最近一次下载的网页文件的数量;Tdownload为最近一次网页被下载的时间间隔;S22、计算潜在相关性因子Pu,计算公式如下:Pu=α*inherited(currenturl)+(1-α)*neighborhood(currenturl)其中,α为小于1的衰减因子,currenturl表示当前链接,inherited(currenturl)表示当前网页从父链接继承得到的分数,计算公式如下:其中,β为小于1的衰减因子,parenturl为currenturl的父链接;score(C,parenturl)为通过字符串匹配函数计算父链接与关键词C之间的相关性的分;inherited(parenturl)表示parenturl从其父节点继承得到的分数,μ为相关性阈值;neiborhood(currenturl)代表当前链接周围的文本与关键词之间的相关性,其计算公式如下:neiborhood(currenturl)=γ*ln(score(C,anchor)+1)+(1-γ)*ln(score(C,anchortext)+1)其中,γ为小于1的衰减因子,anchor代表当前链接中的文本信息,anchortext代表当前链接周围的文本信息,即链接上下文;score(C,anchor)表示关键词与当前链接中文本信息的相关性得分,score(C,anchortext)表示关键词与当前链接周围文本信息的相关性得分。4.根据权利要求3所述的一种基于PageRank算法的医疗数据爬取方法,其特征在于,步骤S3具体包括:S31、根据PageRank算法计算原始PR...
【专利技术属性】
技术研发人员:王刘旺,戴彦,韩嘉佳,颜拥,姚影,杨杨,喻鹏,郝茂杰,
申请(专利权)人:国网浙江省电力有限公司电力科学研究院,国家电网有限公司,北京邮电大学,
类型:发明
国别省市:浙江,33
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。