一种基于人工智能自动屏蔽或提示软文广告的方法和系统技术方案

技术编号:20866355 阅读:41 留言:0更新日期:2019-04-17 09:19
本发明专利技术公开了一种基于人工智能自动屏蔽或提示软文广告的方法和系统,属于网络应用及人工智能技术领域,该方法通过设置屏蔽软件,获取网页的正文文字内容,并将获取的文字内容通过自然语言分析卷积神经网络进行分类;通过自然语言分析卷积神经网络分类预测为正文中含有广告内容的网页被定义为软文文章;根据设置,被定义为软文文章的网页无法打开或打开时在明显位置标记为软文。一种基于人工智能自动屏蔽或提示软文广告的系统,包括数据采集模块、数据分析模块、数据处理模块和自然语言分析模块。本发明专利技术能够有效分辨及屏蔽软文广告,减少用户上网时受软文广告的干扰,维护用户的权利,节省上网时间。

【技术实现步骤摘要】
一种基于人工智能自动屏蔽或提示软文广告的方法和系统
本专利技术涉及网络应用及人工智能
,具体地说是一种基于人工智能自动屏蔽或提示软文广告的方法和系统。
技术介绍
广义的软文广告通常指企业通过策划在报纸、杂志或网络等宣传载体上刊登的可以提升企业品牌形象和知名度,或可以促进企业销售的一些宣传性、阐释性文章,包括特定的新闻报道、深度文章、付费短文广告、案例分析等。软文一般泛指所有含有软性宣传的文字内容,是相对于硬性广告而言,由企业的市场策划人员或广告公司的文案人员来负责撰写的"文字广告"。与硬广告相比,软文之所以叫做软文,精妙之处就在于一个"软"字,好似绵里藏针,收而不露,克敌于无形,等到发现这是一篇软文的时候,你已经冷不丁的掉入了被精心设计过的"软文广告"陷阱。在当前的网络环境中,网络软文正在逐渐成为网络广告的主流载体,同时,因其具有极强的效果和传播能力,对消费者群体的影响是巨大的,而且目前各网络媒体平台为了保护自身利益,对软文广告基本采取放任态度。消费者群体急需通过技术手段有效的对网络软文进行过滤和屏蔽。
技术实现思路
本专利技术的技术任务是针对以上不足之处,提供一种基于人工智能自动屏蔽或提示软文广告的方法和系统,能够有效分辨及屏蔽软文广告,减少用户上网时受软文广告的干扰,节省时间。本专利技术解决其技术问题所采用的技术方案是:一种基于人工智能自动屏蔽或提示软文广告的方法,该方法通过设置屏蔽软件,获取网页的正文文字内容,并将获取的文字内容通过自然语言分析卷积神经网络进行分类;通过自然语言分析卷积神经网络分类预测为正文中含有广告内容的网页被定义为软文文章;根据设置,被定义为软文文章的网页无法打开或打开时在明显位置标记为软文。其中所述的自然语言分析卷积神经网络在使用前进行训练,设定判别软文文章标准,在使用时,根据用户的标记进行训练与更新。具体的,该方法的实现步骤如下:所述屏蔽软件在用户点击某个链接后,预先扫描网页内容,通过html标签获取网页正文内容,包括文字内容和图片内容;将获取的网页主体内容中的文字部分存入待处理数据,网页中的图片部分则通过图片转换文字软件进行转换,图片转换的文字也存入待处理数据;对待处理数据进行预处理,使其符合卷积神经网络输入要求,预处理后的数据作为输入数据输入卷积神经网络进行自然语言分析;通过卷积神经网络进行的自然语言分析,判断该网页内容是否为软文广告;若判定为软文广告,则根据用户设置对网页进行屏蔽或在加载网页时添加软文广告标识,提醒用户注意。优选的,所述数据预处理通过正则表达式的方式去除待处理数据中的不符合神经网络输入要求的数据,将数据扁平化,重新分布权值。进一步的,所述不符合神经网络输入要求的数据包括数字、符号及英文。优选的,所述数据处理还包括分词和计算词频。具体的,在自然语言分析卷积神经网络分析数据时,设置广告成分阈值,通过卷积神经网络进行的自然语言分析得出该段数据中广告成分的占比,当该比例超过所述阈值,则判定该网页内容为软文广告。本专利技术还公开了一种基于人工智能自动屏蔽或提示软文广告的系统,包括数据采集模块、数据分析模块、数据处理模块和自然语言分析模块,数据采集模块用于获取网页正文内容,包括文字内容和图片内容;数据分析模块用于分析数据采集模块采集的网页内容,将文字内容直接发送至数据处理模块;图片内容转换成文字后发送至数据处理模块;数据处理模块用于去除待处理数据中的不符合自然语言分析模块的元素,将数据扁平化、重新分布权值;自然语言分析模块通过卷积神经网络得出数据中广告成分占比,将该占比与阈值比较,当该广告成分占比超过阈值时,判定该网页内容为软文广告并进行处理。具体的,所述数据处理模块采用正则表达式的方式去除待处理数据中的数字、符号及英文。进一步的,所述数据处理模块的数据处理还包括分词和计算词频。进一步的,该系统还包括用户自定义模块,用于设置被判定为软文广告的网页,屏蔽该网页或在页面上添加醒目的标识,对软文广告本质进行说明和提醒。本专利技术的一种基于人工智能自动屏蔽或提示软文广告的方法和系统与现有技术相比,具有以下有益效果:该方法能够使用户有效的分辨或屏蔽软文广告,减少受广告的干扰程度,提醒用户正在浏览含有广告成分的文章,防止广告厂商的心理战术和消费导向灌输,能够维护用户的自由选择的权利以及获取信息时的公平原则。通过使用该系统,保证用户的上网环境,对网页中的软文广告进行识别,有效的对网络软文进行识别和判定,根据用户设置进行屏蔽或在显著位置标记,有效保护消费者的权益。附图说明图1是本专利技术的基于人工智能自动屏蔽或提示软文广告的系统结构图。具体实施方式下面结合具体实施例对本专利技术作进一步说明。一种基于人工智能自动屏蔽或提示软文广告的方法,该方法通过设置屏蔽软件,该屏蔽软件在用户浏览网页前提前获取网页的正文文字内容,将获取的文字内容通过自然语言分析卷积神经网络进行分类;通过自然语言分析卷积神经网络分类预测为正文中含有广告内容的网页被定义为软文文章;根据设置,被定义为软文文章的网页无法打开或打开时在明显位置标记为软文。以此来保证用户的上网质量,减少软文广告的干扰,为用户节省时间,保证用户的网络环境。其中所述的自然语言分析卷积神经网络在使用前进行训练,设定判别软文文章的标准,在使用时,根据用户的标记不断的进行训练与更新。通过利用卷积神经网络,保证对软文广告的识别随软文广告的不断创新而实时优化,持续优化网络环境,保证用户的权益。具体的,该方法的实现步骤如下:用户在点击某个链接后,该网页内容首先由屏蔽软件进行加载预先扫描网页内容,屏蔽软件通过html标签获取网页主体内容,包括文字内容和图片内容。将获取的网页主体内容中的文字部分存入待处理数据,网页主体中的图片部分则通过图片转换文字软件进行转换,这里不限制图片转文字软件的选择,凡是能够达到这一功能的软件都可以使用,图片转换的文字也存入待处理数据。之后,通过各种技术手段对待处理数据进行预处理,使其符合卷积神经网络输入要求,预处理后的数据作为输入数据输入卷积神经网络进行自然语言分析;预处理包括但不限于通过正则表达式的方式去除待处理数据中的不符合神经网络输入要求的数据,将数据扁平化,重新分布权值,分词,计算词频等。其中,所述不符合神经网络输入要求的数据包括数字、符号及英文。预处理后的数据将作为输入数据输入卷积神经网络进行自然语言分析,通过卷积神经网络进行的自然语言分析,判断该网页内容是否为软文广告。这里需要说明的是,卷积神经网络只是自然语言分析并得出结论的一种方法,为公知技术,实现该目的的卷积神经网络的详细的建模方法均不脱离本专利技术的保护范围。在自然语言分析卷积神经网络分析数据时,设置广告成分阈值,通过卷积神经网络进行的自然语言分析得出该段数据中广告成分的占比,当该比例超过所述阈值,则判定该网页内容为软文广告。若判定为软文广告,则根据用户设置,屏蔽对网页的访问,或在加载网页时添加醒目的软文广告标识,对其软文广告本质进行说明和提醒。在本专利技术的另一个实施例中,一种基于人工智能自动屏蔽或提示软文广告的系统,该系统包括数据采集模块、数据分析模块、数据处理模块以及自然语言分析模块,其中,数据采集模块用于获取网页正文内容,包括文字内容和图片内容;数据分析模块用于分析数据采集本文档来自技高网...

【技术保护点】
1.一种基于人工智能自动屏蔽或提示软文广告的方法,其特征在于该方法通过设置屏蔽软件,获取网页的正文文字内容,并将获取的文字内容通过自然语言分析卷积神经网络进行分类;通过自然语言分析卷积神经网络分类预测为正文中含有广告内容的网页被定义为软文文章;根据设置,被定义为软文文章的网页无法打开或打开时在明显位置标记为软文。

【技术特征摘要】
1.一种基于人工智能自动屏蔽或提示软文广告的方法,其特征在于该方法通过设置屏蔽软件,获取网页的正文文字内容,并将获取的文字内容通过自然语言分析卷积神经网络进行分类;通过自然语言分析卷积神经网络分类预测为正文中含有广告内容的网页被定义为软文文章;根据设置,被定义为软文文章的网页无法打开或打开时在明显位置标记为软文。2.根据权利要求1所述的一种基于人工智能自动屏蔽或提示软文广告的方法,其特征在于该方法的具体实现步骤如下:所述屏蔽软件在用户点击某个链接后,预先扫描网页内容,通过html标签获取网页正文内容,包括文字内容和图片内容;将获取的网页主体内容中的文字部分存入待处理数据,网页中的图片部分则通过图片转换文字软件进行转换,图片转换的文字也存入待处理数据;对待处理数据进行预处理,使其符合卷积神经网络输入要求,预处理后的数据作为输入数据输入卷积神经网络进行自然语言分析;通过卷积神经网络进行的自然语言分析,判断该网页内容是否为软文广告;若判定为软文广告,则根据设置对网页进行屏蔽或在加载网页时添加软文广告标识。3.根据权利要求2所述的一种基于人工智能自动屏蔽或提示软文广告的方法,其特征在于所述数据预处理通过正则表达式的方式去除待处理数据中的不符合神经网络输入要求的数据,将数据扁平化,重新分布权值。4.根据权利要求3所述的一种基于人工智能自动屏蔽或提示软文广告的方法,其特征在于所述不符合神经网络输入要求的数据包括数字、符号及英文。5.根据权利要求3或4所述的一种基于人工智能自动屏蔽或提示软文...

【专利技术属性】
技术研发人员:卞西晗张连聘
申请(专利权)人:济南浪潮高新科技投资发展有限公司
类型:发明
国别省市:山东,37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1