一种利用药品文本广告鉴定虚假药品的方法技术

技术编号:22817106 阅读:26 留言:0更新日期:2019-12-14 13:09
一种利用药品文本广告鉴定虚假药品的方法,属于虚假药品的鉴定方法领域,本发明专利技术提供了一种能够鉴别文本形式医疗广告、保障药品安全流通、鉴别精准的利用药品文本广告鉴定虚假药品的方法。本发明专利技术中,收集整理虚假药品文本广告数据,并对相关广告数据定义标签特征;对广告数据进行筛选,得出表征广告特征的特征集;利用信息增益方法对标签特征集进行筛选,得到能够标识全体数据的最小特征子集,并减少特征矩阵的维度;对特征子集进行训练,依据特征子集训练支持向量机模型,获取虚假药品广告的鉴定模型;将需要鉴别的文本广告作为输入量传递至训练后的鉴定模型,鉴定模型输出结果即为药品广告真伪性识别结果。本发明专利技术主要用于鉴定虚假药品。

A method to identify false drugs by text advertisement of drugs

【技术实现步骤摘要】
一种利用药品文本广告鉴定虚假药品的方法
本专利技术属于虚假药品的鉴定方法领域,具体涉及一种利用药品文本广告鉴定虚假药品的方法。
技术介绍
近几年,随着互联网迅速发展和网民人数逐渐增多,网络虚假信息开始泛滥并日趋严重;其中,虚假广告是其中一种典型。以虚假药品广告为例,其具有严重社会危害:不仅损害患者的合法权益,甚至导致患者财产损失和生命危险。互联网中的医药广告发布的形式多样,不仅限于医药网站,其在医药相关贴吧、论坛,医药宣传微博和搜索推广平台均可隐秘存在。同时,当前互联网信息服务的相关法制建设在虚假药品广告方面还不够健全,对于查处的虚假药品广告与机构后续追踪力度不大等原因提高了药品广告的监管难度。查处的虚假药品广告在改头换面之后往往还是继续生存。随着机器学习与人工智能算法的发展,数据挖掘技术已在多种实际分类和回归问题中得到有效应用,如(医疗)图像识别、期刊影响因子操纵识别、风速预测、能源效率影响因素的识别及预测等。对于欺诈检测的研究国外比国内时间要早很多,研究方向与方法更为多样。欺诈检测的方法可分为有监督和无监督两种。有监督方法利用收集的欺诈和真实样本记录的类别属性建立模型,再对新记录的类别属性进行标记,有监督方法对已经出现过的欺诈类型分类效果较好,对新的类型分类效果较差;而无监督方法不提供标记的类别属性,而是去寻找异常的数据,使其聚类。在欺诈检测的应用领域中,国内和国外对于信用卡欺诈和电信领域欺诈的研究均比较深入,方法也比较多样。对于信用卡领域,信用卡交易实质上就是金钱的交易,往往非常少数的欺诈行为会对借贷方如银行造成巨大的金钱损失,因此对于欺诈行为的识别一直以来都是信用卡行业关注的重点。例如,一些学者将基于案例推理方法,利用概率曲线,最佳匹配,密度选择,否定选择以及组合算法实现信贷审批中的欺诈检测应用,结论表明,结合多邻域和概率算法的自适应诊断算法具有最好的表现结果,并且自适应求解可以提供欺诈过滤和案例排序功能,可以减少欺诈调查的数量。也有一些研究人员针对电信欺诈提出两段式欺诈检测模型,建立候选规则并筛选形成一定的规则集,实验结果表明这种方法具有相当程度的可行性。在虚假医疗信息研究方面,还有部分学者基于对一段时间内某电视台播放的非处方药以及处方药广告分析,将以患者为投放对象的医疗商业广告划分为客观真实广告,疑似虚假广告和虚假广告三种类型。疑似虚假广告一般会遗漏重要的信息,并夸大事实,与生活方式相关联或表达一定的观点立场,虚假广告是事实上的虚假或播放未经证实的信息。研究结论表明疑似虚假广告在以患者为对象的处方药和非处方药中都非常普遍,与医疗广告的社会价值是为患者提供关于药品情报的观点是相违背的。然而,医疗广告在的投放媒介不能简单的概括成多媒体模式,还存在文本形式的医疗广告,而且范围更广。但目前对文本形式的医疗广告的识别仍未有公开报道记载其解决办法。因此,就需要一种能够鉴别文本形式医疗广告、保障药品安全流通、鉴别精准的利用药品文本广告鉴定虚假药品的方法。
技术实现思路
本专利技术针对现有的医疗药品广告虚假宣传、无法保障药品安全流通、无法鉴别广告真伪的缺陷,提供了一种能够鉴别文本形式医疗广告、保障药品安全流通、鉴别精准的利用药品文本广告鉴定虚假药品的方法。本专利技术所涉及的一种利用药品文本广告鉴定虚假药品的方法的技术方案如下:本专利技术所涉及的一种利用药品文本广告鉴定虚假药品的方法,它包括以下步骤:步骤一、收集整理虚假药品广告文本的公开数据,并对所述公开数据定义标签;所述标签具体为真实或虚假;得到真实/虚假广告数据库;步骤二、采用特征提取和特征选择方法对广告数据库进行筛选,根据所述广告文本的公开数据定义词法特征、句法特征和特定内容特征,得出表征广告特征的特征集;步骤三、利用信息增益方法对所述特征集进行筛选,得到标识全体数据最小的特征子集;步骤四、采用序列最小优化算法的基于径向基函数支持向量机对所述特征子集进行训练,依据特征子集训练支持向量机模型,获取虚假药品广告的鉴定模型;步骤五、将需要鉴别的文本广告作为输入量传递至所述训练后的鉴定模型,所述鉴定模型输出的结果即为药品广告真伪性识别结果。进一步地:在步骤二中,所述词法特征包括基于字符的特征和基于词汇的特征,所述基于字符的特征包括汉字字数、字符总数、数值型字符总数和非中文字符数;所述基于词汇的特征包括单词数、不同单词数、出现频率小于等于两次的词语数和平均句子长度;所述句法特征包括标点符号频次、功能词频次和词性频次;所述特定内容特征根据研究的特定领域设定。进一步地:所述特定内容特征在医疗领域中特定的关键词包括治疗、症状、副作用、疗程和效果。进一步地:在步骤三中,所述信息增益的计算公式如下:其中,C为类别,m为类别种类,m=2,则C1=真实广告,C2=虚假广告,T为特征;H(C)为分类系统的熵;H(C|T)为某固定特征T的系统条件熵,当特征T出现时标记为t,当特征T不出现时标记为P(Ci|t)表示特征T出现时类别Ci出现的概率。本专利技术所涉及的一种利用药品文本广告鉴定虚假药品的方法的有益效果是:本专利技术所涉及的一种利用药品文本广告鉴定虚假药品的方法,收集传播范围广泛的文本广告的公开数据作为训练模型的输入保障了数据的有效性;基于特征提取及特征选择的方法提升模型识别精度,具有很强的实际应用价值,其优点在于:1、广告数据库构建过程中选择公开数据,保证数据的可靠性;此外,数据收集过程可以考虑语言的地域特殊性,对特定区域下进行重点收集,使模型更具针对性;2、文本形式药品广告的多样性、丰富性及处理过程的简洁性有助于大数据集的构建,可以间接提升模型的正确率;3、利用特征提取方法及特征筛选方法可以在保证模型正确率的前提下有效减少训练时间并防止模型过拟合现象的发生,也可以间接提升模型的正确率。附图说明图1为一种利用药品文本广告鉴定虚假药品的方法的流程图。具体实施方式下面结合实施例对本专利技术的技术方案做进一步的说明,但并不局限于此,凡是对本专利技术技术方案进行修改或者等同替换,而不脱离本专利技术技术方案的精神和范围,均应涵盖在本专利技术的保护范围中。实施例1结合图1说明本实施例,在本实施例中,本实施例所涉及的一种利用药品文本广告鉴定虚假药品的方法,它包括以下步骤:步骤一、通过收集整理国家权威机构公布的虚假药品广告文本的公开数据,保证公开数据的可靠性;并对相关广告定义真实/虚假标签;所述收集药品广告文本的公开数据信息来源主要为国家食品药品监督管理总局与各省工商局的公众信息门户,根据其披露的信息分别对各种广告文本的公开数据定义相应的真实/虚假广告标签;步骤二、采用特征提取及特征选择方法对广告文本的公开数据进行筛选,根据广告文本的公开数据特征定义词法特征、句法特征和特定内容特征,得出表征广告特征的特征集;其中,词法特征包括基于字符的特征和基于词汇的特征,可选取包括汉字字数、字符总数、数值型字符总数、非中文本文档来自技高网
...

【技术保护点】
1.一种利用药品文本广告鉴定虚假药品的方法,其特征在于,它包括以下步骤:/n步骤一、收集整理虚假药品广告文本的公开数据,并对所述公开数据定义标签;所述标签具体为真实或虚假;得到真实/虚假广告数据库;/n步骤二、采用特征提取和特征选择方法对广告数据库进行筛选,根据所述广告文本的公开数据定义词法特征、句法特征和特定内容特征,得出表征广告特征的特征集;/n步骤三、利用信息增益方法对所述特征集进行筛选,得到标识全体数据最小的特征子集;/n步骤四、采用序列最小优化算法的基于径向基函数支持向量机对所述特征子集进行训练,依据特征子集训练支持向量机模型,获取虚假药品广告的鉴定模型;/n步骤五、将需要鉴别的文本广告作为输入量传递至所述训练后的鉴定模型,所述鉴定模型输出的结果即为药品广告真伪性识别结果。/n

【技术特征摘要】
1.一种利用药品文本广告鉴定虚假药品的方法,其特征在于,它包括以下步骤:
步骤一、收集整理虚假药品广告文本的公开数据,并对所述公开数据定义标签;所述标签具体为真实或虚假;得到真实/虚假广告数据库;
步骤二、采用特征提取和特征选择方法对广告数据库进行筛选,根据所述广告文本的公开数据定义词法特征、句法特征和特定内容特征,得出表征广告特征的特征集;
步骤三、利用信息增益方法对所述特征集进行筛选,得到标识全体数据最小的特征子集;
步骤四、采用序列最小优化算法的基于径向基函数支持向量机对所述特征子集进行训练,依据特征子集训练支持向量机模型,获取虚假药品广告的鉴定模型;
步骤五、将需要鉴别的文本广告作为输入量传递至所述训练后的鉴定模型,所述鉴定模型输出的结果即为药品广告真伪性识别结果。


2.根据权利要求1所述的一种利用药品文本广告鉴定虚假药品的方法,其特征在于,在步骤二中,所述词法特征包括基于字符的特征和...

【专利技术属性】
技术研发人员:岳增蕾刘智
申请(专利权)人:南京岳智信息技术有限公司
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1