一种属地网站医药内容监测方法技术

技术编号:25185582 阅读:27 留言:0更新日期:2020-08-07 21:13
本发明专利技术公开了一种属地网站医药内容监测方法,通过网络爬虫获取属地网站各网页中的文本内容,并对文本内容进行违规医药信息判别,违规医药信息判别是将从属地网站各网页中获取的文本内容与医药信息语料库中的数据进行比对统计,计算出该文本内容属于违规医药信息的命中率,若超出设定阈值,则判定为违规医药信息。本发明专利技术通过医药信息语料库对从属地网站各网页中获取的文本内容进行比对统计分析,计算该文本内容属于违规医药信息的命中率,相比停留于关键词判断的监测方法,违规医药信息命中准确率高,对于违规医药信息能够做到快速识别。

【技术实现步骤摘要】
一种属地网站医药内容监测方法
本专利技术涉及网站监测
,尤其是一种属地网站医药内容监测方法。
技术介绍
随着社会经济和科学技术的飞速发展,医药行业的经营模式也发生着翻天覆地的变化。在互联网时代,药品生产、经营企业和第三方科技公司利用互联网提供药品信息服务,使得从互联网上获取医药信息的人越来越多。互联网药品市场给群众带来快捷便利的同时,也给监管部门带来了挑战。伴随着互联网的不断发展,网站数量急剧增多,如此庞大的互联网市场,导致网站信息安全管理面临着严峻挑战,一些违规医药信息以网站为载体进行传播,传播速度快,危害严重。由于互联网市场具有隐蔽性强、宣传成本低、主体追踪难等特点,给不法分子在互联网上宣传假冒伪劣药品和违禁药品带来可乘之机,也给合法经营的商家以及消费者带来巨大损失。目前,互联网医药信息存在多种违规情况,具体包括以下几点:1、医药产品信息未备案或与备案信息不符;2、医药产品信息缺失,即网上发布的医药产品信息缺少某些重要属性,如药品信息中的“生产企业”、“批准文号”等;3、销售国家法律规定禁止销售的医药产品,如毒品、麻醉药等;4、销售、宣传假冒伪劣医药产品,如冒用知名产品名称、冒用知名生产企业名称;5、发布医药信息或医药服务的机构未得到国家医药信息发布许可。这些违规情况的出现,导致网站医药信息监测难度加大。为了追踪互联网医药产品交易市场中的违规信息,打击互联网医药产品交易市场中的违规行为,结合药监局与公安部在公共信息网络与互联网安全保护方面的监管需求,需要对属地网站中的医药内容进行监测。目前,属地网站医药内容监测大多采用传统静态认证和突击式检查的方式,存在以下缺陷:1、只是局部环节应用了网络和信息技术的手段,大部分工作还是人工方式,无法全程、在线、实时、有效地监管互联网医药产品交易市场的主要环节及相关行为;2、针对属地网站的医药违规识别技术停留在页面信息抽取及关键词判断上,违规医药信息的命中准确率不高,检索结果冗余度较大,不能快速识别其是否为违规内容。
技术实现思路
本专利技术旨在提供一种属地网站医药内容监测方法,解决现有技术中违规医药信息的命中准确率不高,检索结果冗余度较大,不能快速识别其是否为违规内容的问题。为解决上述技术问题,本专利技术公开的属地网站医药内容监测方法通过网络爬虫获取属地网站各网页中的文本内容,并对文本内容进行违规医药信息判别,区别之处在于,违规医药信息判别是将从属地网站各网页中获取的文本内容与医药信息语料库中的数据进行比对统计,计算出该文本内容属于违规医药信息的命中率,若超出设定阈值,则判定为违规医药信息。进一步的,语料库分为正常医药信息库和违规医药信息库,违规医药信息判别时,读取两大医药信息库中的文本内容并经过分词处理,汇总词汇及其出现频次两大特征属性,两大特征属性以映射表形式进行存储。进一步的,文本内容属于违规医药信息的命中率计算包括以下步骤:1、将从属地网站各网页中获取的文本内容进行分词处理,并通过查询映射表获取每个分词在正常医药信息库和违规医药信息库中出现的概率,分别记为P1(ti)、P2(ti);2、综合文本内容中每个分词在两大医药信息库中出现的频率,计算每个分词出现后属于违规医药信息的概率,记为P(W|ti);3、利用贝叶斯公式计算该文本内容属于违规医药信息的命中率进一步的,对从属地网站各网页中获取的文本内容完成违规医药信息判别之后,经过人工审核对正常医药信息库和违规医药信息库进行更新,下一次违规医药信息判别时,两大医药信息库的两大特征属性映射表也随之更新。进一步的,文本内容若被判定为违规医药信息,则进行违规医药信息预警推送,并录入违规医药信息库;若被判定为正常医药信息,则判断该站点是否具有药品信息服务许可,若有则直接录入正常医药信息库,若无则进行人工审核,人工审核通过后,进行预警推送,再录入正常医药信息库。进一步的,从属地网站各网页中获取文本内容的过程为,通过网络爬虫技术从网站深层采集网页源码,再提取网页源码中的正文内容,其中正文内容通过基于中文字符统计的正文提取算法进行精准提取。进一步的,通过网络爬虫技术从网站深层采集网页源码后,一方面将网页源码存储至分布式文件系统中,另一方面对网页源码进行算法匹配,提取正文内容,并存入索引中。本专利技术通过医药信息语料库对从属地网站各网页中获取的文本内容进行比对统计分析,计算该文本内容属于违规医药信息的命中率,相比停留于关键词判断的监测方法,违规医药信息命中准确率高,对于违规医药信息能够做到快速识别;医药信息语料库实时更新,违规医药信息命中准确率会越来越高。附图说明图1为属地网站医药内容监测方法流程图。具体实施方式下面结合附图和具体实例对本专利技术作进一步详细的说明。本专利技术的实施例是为了示例和描述起见而给出的,而并不是无遗漏的或者将本专利技术限于所公开的形式。很多修改和变化对于本领域的普通技术人员而言是显而易见的。选择和描述实施例是为了更好说明本专利技术的原理和实际应用,并且使本领域的普通技术人员能够理解本专利技术从而设计适于特定用途的带有各种修改的各种实施例。实施例一种属地网站医药内容监测方法,如图1所示,主要包括以下步骤:1、建立医药信息语料库,该语料库集中了从互联网采集的历史医药信息。语料库分为正常医药信息库和违规医药信息库,违规医药信息判别时,读取两大医药信息库中的文本内容并经过分词处理,汇总词汇及其出现频次两大特征属性,两大特征属性以映射表形式进行存储。例如词汇A对应其在正常医药信息库出现频次为a1,在违规医药信息库出现频次为a2;词汇B对应其在正常医药信息库出现频次为b1,在违规医药信息库出现频次为b2。2、建立属地网站资源库,通过工信部网站备案库获取待监管的备案网站,并辅以IP域名反查手段,完善属地站点属性。3、属地网站信息采集,在完善属地站点的基础上,通过网络爬虫技术从网站全天候不间断地深层采集网页源码。采集到网页源码后,一方面将网页源码存储至分布式文件系统HDFS中,进行源码存储,以便后期电子取证用;另一方面对网页源码进行算法匹配,提取正文内容,并存入索引中。这里的索引,是指一种通用搜索引擎服务器。如何从网页源码中高效精准地抽取正文内容呢,本实施例通过基于中文字符统计的正文提取算法进行。正文部分均为大篇幅文字,只要识别出存在大篇幅文字,一般即可认定其为正文。本实施例具体操作为:1、去噪,即去掉无关的源码标签(例如换行等格式);2、针对去噪后的文本,以每n行为单位(例如8行)进行中文字数的统计扫描,当字数第一次超过设定阈值时,记录该扫描框第一行行数(例如第x行),以此作为正文内容的第一行;当字数第一次小于设定阈值时,记录该扫描框最后一行行数(例如第y行),以此作为正文内容的最后一行。这样就确定了正文的起始行(第x行)和结束行(第y行),那么第x行到第y行即为匹配到的正文内容。4、违规医药信息的命中率计算,将抽取的正文内容与医药信息语料库进行比对统计,具本文档来自技高网
...

【技术保护点】
1.一种属地网站医药内容监测方法,通过网络爬虫获取属地网站各网页中的文本内容,并对文本内容进行违规医药信息判别,其特征在于,违规医药信息判别是将从属地网站各网页中获取的文本内容与医药信息语料库中的数据进行比对统计,计算出该文本内容属于违规医药信息的命中率,若超出设定阈值,则判定为违规医药信息。/n

【技术特征摘要】
1.一种属地网站医药内容监测方法,通过网络爬虫获取属地网站各网页中的文本内容,并对文本内容进行违规医药信息判别,其特征在于,违规医药信息判别是将从属地网站各网页中获取的文本内容与医药信息语料库中的数据进行比对统计,计算出该文本内容属于违规医药信息的命中率,若超出设定阈值,则判定为违规医药信息。


2.根据权利要求1所述的属地网站医药内容监测方法,其特征在于,语料库分为正常医药信息库和违规医药信息库,违规医药信息判别时,读取两大医药信息库中的文本内容并经过分词处理,汇总词汇及其出现频次两大特征属性,两大特征属性以映射表形式进行存储。


3.根据权利要求2所述的属地网站医药内容监测方法,其特征在于,文本内容属于违规医药信息的命中率计算包括以下步骤:
S1,将从属地网站各网页中获取的文本内容进行分词处理,并通过查询映射表获取每个分词在正常医药信息库和违规医药信息库中出现的概率,分别记为P1(ti)、P2(ti);
S2,综合文本内容中每个分词在两大医药信息库中出现的频率,计算每个分词出现后属于违规医药信息的概率,记为P(W|ti);
S3,利用贝叶斯公式计算该文本内容属于违规医药信息的命中率

...

【专利技术属性】
技术研发人员:郑中华黎伟胡淦宣然
申请(专利权)人:安徽博约信息科技股份有限公司
类型:发明
国别省市:安徽;34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1