一种基于PageRank算法的医疗数据爬取方法及系统技术方案

技术编号:22330236 阅读:33 留言:0更新日期:2019-10-19 12:18
本发明专利技术公开了一种基于PageRank算法的医疗数据爬取方法及系统。本发明专利技术的医疗数据爬取方法,包括步骤:用户根据需要输入要爬取的医疗关键词;计算网页时间因子及潜在相关性因子;计算得到第一轮PR值,并临时存入数据库中;对各网页中的超链接进行权重计算;计算得到第二轮PR值,并更新数据库;比较PR值大小,获取PR值最大的N个网页;输出PR值最大的N个网页。本发明专利技术能够有效的解决传统通用爬虫算法偏重旧网页、主题漂移和偏重综合性网页的缺陷,可以高效、准确的爬取医疗数据网页。

【技术实现步骤摘要】
一种基于PageRank算法的医疗数据爬取方法及系统
本专利技术属于医疗数据获取领域,具体地说是一种基于PageRank算法的医疗数据爬取方法及系统。
技术介绍
随着人工智能技术的发展,医学领域的智能化过程也得到了推广。目前已经出现了构建基于深度学习的远程健康辅助诊断模型的想法。因此,如何快速准确地获取医疗数据成为首要问题。医疗数据的主要来源包括互联网和医疗信息数据库。互联网是一个超文本组织,拥有约3亿页。它包含许多医生和患者之间在线交流的网站。该网站包含大量有关患者病情和医生诊断结果的信息。然而,互联网具有复杂网页和混乱信息的特征,已有的通用爬取算法存在着旧网页干扰严重、主题漂移、偏向于综合性网页等问题。为了解现有技术的发展状况,对已有的专利和文献进行了检索、比较和分析,筛选出如下与本专利技术相关度比较高的技术信息:现有专利1:201510342671.0基于BerkeleyDB数据库的主题爬虫系统此专利技术实现了基于BerkeleyDB数据库的主题爬虫系统,该系统的目标是为用户提供一个领域信息采集工具,并且只采集与特定主题相关的网页,从而能节省软硬件资源和较快地更新页面。技术方案是:首先对网页进行分析,根据主题相关性算法和爬取策略对网页进行过滤,只保留与主题相关的网页的链接并将其加入到待爬取URL队列,之后再根据网页爬取策略选择下一个要爬取的页面的URL,循环重复此过程,直到满足系统终止条件。在网页下载的过程中将其URL和概要信息插入到Berkeley数据库中,在创建数据库配置对象时对该数据库设置延迟写功能,当在内存中存储了指定大小的数据时再一次写入磁盘,提高了系统性能。在主题爬虫的参数设置界面用户可以选择爬取的主题词类以及种子网址和线程数,在运行界面会给出网址信息、已下载网页数、已分析URL数、待爬取网页数以及有效网页数。上述现有专利1技术方案存在的缺陷:在第一步对网页进行过滤时过滤的结果很大程度上依赖于主题相关性算法,如果相关性算法性能不好的话会过滤掉部分有效网页而保留无效网页,对最终的爬取结果产生较大的负面影响。现有专利2:201210360608.6一种实现网络爬虫任务的方法本专利技术公开了一种实现网络爬虫任务的方法,采用的技术方案为:1.初始给所述客户端待爬网页的链接地址;2.客户端将待爬网页的链接地址封装成任务请求发送到服务器;3.服务器向待爬取页面发送HTTP请求,并把请求到的多信息返回客户端;4.客户端接收信息,并对信息进行处理:5.重复上述过程,依次完成待爬列表中的网页爬取。本专利技术为爬取不同的网站内容提供了一个通用的网络爬虫框架,使用本方法可以快速完成编写用于爬取某个特定网站的爬虫。这种方法极大降低了开发人员的开发难度,缩短了开发周期。由于这种方法是建立在分布式网络爬虫框架的基础之上,因此爬取网站的速度也可以得到保证。本专利技术的方法可用于医疗信息系统。上述现有专利2技术方案存在的缺陷:该方案只适合于用户特定的某个网站的数据爬取,并不适用于跨网站的大规模数据爬取工作,人工参与程度较大,自动化程度低。现有专利3:201110230220.X基于锚文本的聚焦网络爬虫搜索方法及其系统本专利技术公开了一种基于锚文本的聚焦网络爬虫搜索方法及其系统,所述方法主要包括:从URL优先级队列中获取URL,并依据URL从Internet下载得到Web页面;对下载的Web页面进行解析,提取URL及其锚文本;对提取出的URL及其锚文本进行筛选;采用TF-IDF与LSI相结合的算法来计算URL的主题相关度,并将符合条件的URL放入优先级队列中;所述系统包括:URL优先级队列、网络爬虫下载器、Web页面库、URL解析器、URL筛选器以及主题相关性判断器。通过采用所述基于锚文本的聚焦网络爬虫搜索方法及其系统,本专利技术提高了聚焦网络爬虫爬行结果的主题相关度及爬行效率。上述现有专利3技术方案存在的缺陷:该方案爬取网页的准确性很大程度依赖于URL优先级队列的构建,因此计算主题相关度的方法选取十分重要,方案中并未对这部分方法进行明显的有针对性的改进。医疗数据爬取算法,旨在能够根据种子网页及关键词快速、准确的查询出互联网中与关键词相关的医疗数据网页,目前存在的通用的网页爬取算法在爬取医疗数据过程中主要存在以下问题:(1)互联网中存在着大量的医疗相关数据,其时间跨度较大,随着医疗事业的发展部分陈旧的网页信息已经失去参考价值,然而通用的爬取算法并不能过滤掉这类无用数据;(2)医疗数据中存在大量的专业名词,通用爬取算法易产生主题漂移问题,降低爬取结果的准确性和效率;(3)通用爬取算法偏向于爬取通用知识网页,不适合于医疗数据爬取。
技术实现思路
针对上述现有技术中存在的问题,本专利技术提供一种基于PageRank算法的医疗数据爬取方法,该方法改进传统PageRank算法的评分机制,对于爬取到的网页进行2次评分,最终获得爬取结果。为此,本专利技术采用如下的技术方案:一种基于PageRank算法的医疗数据爬取方法,其包括步骤:S1、用户根据需要输入要爬取的医疗关键词;S2、计算网页时间因子及潜在相关性因子;S3、计算得到第一轮PR值,并临时存入数据库中;S4、对各网页中的超链接进行权重计算;S5、计算得到第二轮PR值,并更新数据库;S6、比较PR值大小,用户根据需要获取PR值最大的N个网页;S7、输出PR值(页面排序分数)最大的N个网页。针对医疗数据陈旧网页的干扰问题,本专利技术增加了时间因子,综合网站的时间因素,影响网页的评分结果。针对医疗数据主题漂移的问题,本专利技术引入并改进了潜在相关性因子,主要考虑网页链接的上下文信息与医疗数据的契合程度,进而影响评分结果。针对通用算法偏向于通用网页的问题,本专利技术增加了超链接权重因子,针对网页中不同位置的链接赋予不同的权重。本专利技术旨在能够高效准确的爬取到符合关键词主题的医疗数据网页。进一步的,步骤S1具体包括:S11、用户根据爬取需要,自行设定关键词C。进一步的,步骤S2具体包括:S21、计算网页的时间因子Tu,计算公式如下:其中,δ为(0,1]之间的限定系数,保证分母在正常范围内;Ttime为距离最近一次网页更新的时间间隔;Tnumber为最近一次下载的网页文件的数量;Tdownload为最近一次网页被下载的时间间隔;S22、计算潜在相关性因子Pu,计算公式如下:Pu=α*inherited(currenturl)+(1-α)*neighborhood(currenturl)其中,α为小于1的衰减因子,currenturl表示当前链接,inherited(currenturl)表示当前网页从父链接继承得到的分数,计算公式如下:其中,β为小于1的衰减因子,parenturl为currenturl的父链接;score(C,parenturl)为通过字符串匹配函数计算父链接与关键词C之间的相关性的分;inherited(parenturl)表示parenturl从其父节点继承得到的分数,,μ为相关性阈值;neiborhood(currenturl)代表当前链接周围的文本与关键词之间的相关性,其计算公式如下:neiborhood(currenturl)=γ*ln(score(C,anchor)+1)+(1-γ)*ln(scor本文档来自技高网
...

【技术保护点】
1.一种基于PageRank算法的医疗数据爬取方法,其特征在于,包括步骤:S1、用户根据需要输入要爬取的医疗关键词;S2、计算网页时间因子及潜在相关性因子;S3、计算得到第一轮PR值,并临时存入数据库中;S4、对各网页中的超链接进行权重计算;S5、计算得到第二轮PR值,并更新数据库;S6、比较PR值大小,用户根据需要获取PR值最大的N个网页;S7、输出PR值最大的N个网页。

【技术特征摘要】
1.一种基于PageRank算法的医疗数据爬取方法,其特征在于,包括步骤:S1、用户根据需要输入要爬取的医疗关键词;S2、计算网页时间因子及潜在相关性因子;S3、计算得到第一轮PR值,并临时存入数据库中;S4、对各网页中的超链接进行权重计算;S5、计算得到第二轮PR值,并更新数据库;S6、比较PR值大小,用户根据需要获取PR值最大的N个网页;S7、输出PR值最大的N个网页。2.根据权利要求1所述的一种基于PageRank算法的医疗数据爬取方法,其特征在于,步骤S1具体包括:S11、用户根据爬取需要,自行设定关键词C。3.根据权利要求2所述的一种基于PageRank算法的医疗数据爬取方法,其特征在于,步骤S2具体包括:S21、计算网页的时间因子Tu,计算公式如下:其中,δ为(0,1]之间的限定系数,保证分母在正常范围内;Ttime为距离最近一次网页更新的时间间隔;Tnumber为最近一次下载的网页文件的数量;Tdownload为最近一次网页被下载的时间间隔;S22、计算潜在相关性因子Pu,计算公式如下:Pu=α*inherited(currenturl)+(1-α)*neighborhood(currenturl)其中,α为小于1的衰减因子,currenturl表示当前链接,inherited(currenturl)表示当前网页从父链接继承得到的分数,计算公式如下:其中,β为小于1的衰减因子,parenturl为currenturl的父链接;score(C,parenturl)为通过字符串匹配函数计算父链接与关键词C之间的相关性的分;inherited(parenturl)表示parenturl从其父节点继承得到的分数,μ为相关性阈值;neiborhood(currenturl)代表当前链接周围的文本与关键词之间的相关性,其计算公式如下:neiborhood(currenturl)=γ*ln(score(C,anchor)+1)+(1-γ)*ln(score(C,anchortext)+1)其中,γ为小于1的衰减因子,anchor代表当前链接中的文本信息,anchortext代表当前链接周围的文本信息,即链接上下文;score(C,anchor)表示关键词与当前链接中文本信息的相关性得分,score(C,anchortext)表示关键词与当前链接周围文本信息的相关性得分。4.根据权利要求3所述的一种基于PageRank算法的医疗数据爬取方法,其特征在于,步骤S3具体包括:S31、根据PageRank算法计算原始PR...

【专利技术属性】
技术研发人员:王刘旺戴彦韩嘉佳颜拥姚影杨杨喻鹏郝茂杰
申请(专利权)人:国网浙江省电力有限公司电力科学研究院国家电网有限公司北京邮电大学
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1