一种属地网站医药内容监测方法技术

技术编号：25185582 阅读：27 留言：0更新日期：2020-08-07 21:13

本发明专利技术公开了一种属地网站医药内容监测方法，通过网络爬虫获取属地网站各网页中的文本内容，并对文本内容进行违规医药信息判别，违规医药信息判别是将从属地网站各网页中获取的文本内容与医药信息语料库中的数据进行比对统计，计算出该文本内容属于违规医药信息的命中率，若超出设定阈值，则判定为违规医药信息。本发明专利技术通过医药信息语料库对从属地网站各网页中获取的文本内容进行比对统计分析，计算该文本内容属于违规医药信息的命中率，相比停留于关键词判断的监测方法，违规医药信息命中准确率高，对于违规医药信息能够做到快速识别。

全部详细技术资料下载

【技术实现步骤摘要】
一种属地网站医药内容监测方法
本专利技术涉及网站监测
，尤其是一种属地网站医药内容监测方法。
技术介绍
随着社会经济和科学技术的飞速发展，医药行业的经营模式也发生着翻天覆地的变化。在互联网时代，药品生产、经营企业和第三方科技公司利用互联网提供药品信息服务，使得从互联网上获取医药信息的人越来越多。互联网药品市场给群众带来快捷便利的同时，也给监管部门带来了挑战。伴随着互联网的不断发展，网站数量急剧增多，如此庞大的互联网市场，导致网站信息安全管理面临着严峻挑战，一些违规医药信息以网站为载体进行传播，传播速度快，危害严重。由于互联网市场具有隐蔽性强、宣传成本低、主体追踪难等特点，给不法分子在互联网上宣传假冒伪劣药品和违禁药品带来可乘之机，也给合法经营的商家以及消费者带来巨大损失。目前，互联网医药信息存在多种违规情况，具体包括以下几点：1、医药产品信息未备案或与备案信息不符；2、医药产品信息缺失，即网上发布的医药产品信息缺少某些重要属性，如药品信息中的“生产企业”、“批准文号”等；3、销售国家法律规定禁止销售的医药产品，如毒品、麻醉药等；4、销售、宣传假冒伪劣医药产品，如冒用知名产品名称、冒用知名生产企业名称；5、发布医药信息或医药服务的机构未得到国家医药信息发布许可。这些违规情况的出现，导致网站医药信息监测难度加大。为了追踪互联网医药产品交易市场中的违规信息，打击互联网医药产品交易市场中的违规行为，结合药监局与公安部在公共信息网络与互联网安全保护方面的监管需求，需要对属地网站中的医药内容进行监测。目前，...

【技术保护点】
1.一种属地网站医药内容监测方法，通过网络爬虫获取属地网站各网页中的文本内容，并对文本内容进行违规医药信息判别，其特征在于，违规医药信息判别是将从属地网站各网页中获取的文本内容与医药信息语料库中的数据进行比对统计，计算出该文本内容属于违规医药信息的命中率，若超出设定阈值，则判定为违规医药信息。/n

【技术特征摘要】
1.一种属地网站医药内容监测方法，通过网络爬虫获取属地网站各网页中的文本内容，并对文本内容进行违规医药信息判别，其特征在于，违规医药信息判别是将从属地网站各网页中获取的文本内容与医药信息语料库中的数据进行比对统计，计算出该文本内容属于违规医药信息的命中率，若超出设定阈值，则判定为违规医药信息。

2.根据权利要求1所述的属地网站医药内容监测方法，其特征在于，语料库分为正常医药信息库和违规医药信息库，违规医药信息判别时，读取两大医药信息库中的文本内容并经过分词处理，汇总词汇及其出现频次两大特征属性，两大特征属性以映射表形式进行存储。

3.根据权利要求2所述的属地网站医药内容监测方法，其特征在于，文本内容属于违规医药信息的命中率计算包括以下步骤：
S1，将从属地网站各网页中获取的文本内容进行分词处理，并通过查询映射表获取每个分词在正常医药信息库和违规医药信息库中出现的概率，分别记为P1(ti)、P2(ti)；
S2，综合文本内容中每个分词在两大医药信息库中出现的频率，计算每个分词出现后属于违规医药信息的概率，记为P(W|ti)；
S3，利用贝叶斯公式计算该文本内容属于违规医药信息的命中率

...

【专利技术属性】
技术研发人员：郑中华，黎伟，胡淦，宣然，
申请(专利权)人：安徽博约信息科技股份有限公司，
类型：发明
国别省市：安徽;34

全部详细技术资料下载我是这个专利的主人